音声データからテキストを作成してみた

NTTドコモが提供している音声認識APIとgooラボが提供しているキーワード抽出APIを利用して、音声データからテキストを作成してみます。無償で利用できますが、事前にアカウントを作成してAPIキーを取得する必要があります。ここでは、音声データからテキストの作成方法について解説していきます。

01: 音声認識APIキーの取得

「docomo Developer support」の「SNSアカウントでログイン/新規登録」からユーザ登録を行います。なお「所属されている法人・組織に関する情報を登録する」にチェックを付けることで、「APIの機能を全て利用可能」、「リクエスト回数制限が緩い」などのメリットを受けられます。 「API利用申請・管理」ボタンを押下する。 「新規API利用申請へ」ボタンを押下する。 必須項目に任意の値を入力して、「API機能選択へ」ボタンを押下する。 「音声認識【Powered by アドバンスト・メディア】」にチェックを付けて、「利用するAPIの利用規約に同意して、次へ」ボタンを押下する。 「利用申請する」ボタンを押下する。 「API key」に記載された文字列を記録しておく。

02: キーワード抽出APIキーの取得

Githubにアクセスして、「Sign up」のリンクをクリックする。 必須項目に任意の値を入力して、「Create an account」ボタンを押下する。 「Unlimited public repositories for free.」を選択して、「Continue」ボタンを押下する。 任意の値を選択して、「Submit」ボタンを押下する。 上記で入力したメールアドレスに届いたメールに記載された「Verify email address」のリンクをクリックする。 gooラボAPI利用登録にアクセスして、「利用規約に同意してGitHubで登録」ボタンを押下する。 「Authorize nttresonant」ボタンを押下する。 「Your application ID」に記載された文字列を記録しておく。

03: 動作テスト

コンデンサマイクで収録された下記音声を読み込ませてみた。

  • 国税庁は17日、1994年分の地価税の申告実績を発表し、申告税額が一千万円を超えた法人と個人を全国の税務署で公示しました。