Amazon Transcribeの使い方と日本語の精度。議事録にも対応可能か

AmazonのサービスにAWSがありますが、その中の1つにAmazon Transcribeという自動で文字起こしをしてくれる機能があります。2019年11月頃、日本語に対応したためこのサービスを利用する人が続々と出始めました。この記事では実際に使ってみた感想と使い方、日本語はどれくらいの精度で対応しているのか。そしてリアルタイムの文字起こしを必要とする議事録でも使えるのか、お伝えしていきます。

Amazon Transcribeとは

Amazon TranscribeとはAmazonが提供するAWSの1つで、自動で文字起こしをしてくれる機能を持つサービスです。自動音声認識で音声ファイルや動画ファイルを文字起こししてくれたり、講演会でのリアルタイム文字起こしを可能にしてくれます。

すでにGCPやIBMなどでは同様の文字起こしサービスはリリースされていますが、AWSではようやく日本語に対応した形になります。英語版のAmazon Transcribeはとても精度が高いようで、日本語版でも精度の高さには期待が持たれています。また、AWSのサービスであるため、他のAWSのサービスと併用して利用できる点も、Amazon Transcribeが期待される一因になっているでしょう。

Amazon Transcribeの使い方

Amazon Transcribeの使い方は簡単です。

  • AWSにログイン
  • S3でバケット作成
  • バケットにファイルをアップロード
  • Amazon TranscribeでJOB作成
  • 文字起こし完了

使い方は以上です。ただし注意点として、S3でバケットを作成する際、「リージョン」が東京だと対象外になってしまうので、米国にしておいてください。

詳しくはリージョン表をご覧ください。AWSの他のサービスを利用する際にもリージョン表があると便利なので、保存しておくことをおすすめします。

文字起こしをした文字をメモ帳やドキュメントに表示する

Amazon Transcribeでの文字起こしの方法については上記で説明したように対応すればできますが、詳しい説明については先人たちが画像つきで解説してくれていますので、ここでは省略し、文字起こしが完了したあとにメモ帳やドキュメントに文字起こしをした文字を表示する方法についてを解説していきます。

Transcribeで作成したファイルはJSONファイルなので、ノンプログラマーにとっては聞き慣れないファイル名かもしれません。なので当然使用したこともないと思います。使用したことがある方はこの説明は飛ばして頂いて結構です。

ここでの最終目標はメモ帳もしくはドキュメントに表示することです。まず、文字起こしが完了したJSONファイルをダウンロードしてください。

次はそのJSONファイルを別のファイルに変換していきます。ファイルの変換方法はオンライン無料サービスがあるので、そちらを利用しても良いですし、いつも使用しているファイル変換サービスがあるならそちらを利用してください。

今回はJSONファイルをCSVファイルへと変換していきます。CSVファイルに変換できたらダウンロードをします。

次にGoogleスプレッドシートを開けます。スプレッドシートはサクサク軽快に動くのとてもおすすめです。Googleスプレッドシートを開いたら、左上の「ファイル」→「インポート」→「アップロード」と順に進んでいき、さきほどダウンロードしたCSVファイルを選択しアップロードしていきます。

アップロードが完了すると、『ファイルをインポート』という画面が出てきます。
基本的にはデフォルトのままで大丈夫です。「場所のインポート」には「スプレッドシートを置換する」を選択し、「区切り文字の種類」は「自動的に検出する」を選択。「テキストを数値、日付、数式に変換」は「はい」を選択の状態で、『データをインポート』を押下します。

するとA2のセルに起こした文字がインポートされているのが確認できます。
あとはこれをコピーしてメモ帳やドキュメントに貼り付けて修正を加えていくだけです。

実際にやってみればすぐに終わることなので、文字起こしが完了してJSONファイルの扱いに悩まれている方は試してみてください。

Amazon Transcribeの日本語の精度は?

では実際にAmazon Transcribeでmp4の動画ファイルを文字起こしをした日本語の精度についての感想をお伝えします。英語版のAmazon Transcribeはかなり優秀な精度で文字起こしをしてくれると話題になっていましたが日本語での精度は、正直完璧とは言えません。感覚としてはだいたい60%程度の精度です。ただし個人差によるところが大きいと思いますので、もっと精度が高いと感じる方もいるでしょう。

今回は動画ファイルの音声を文字起こしに挑戦しましたが、録音したマイクの性能や距離、BGMや人数などの要素によって文字起こしの精度は変わってくるでしょう。

また、先に辞書登録にあたる、Vocabularyを登録しておけば、専門用語などは正しく出力してくれる確率が上がります。ただし、2020年4月時点では日本語には対応していないようなので、対応してくれることを待つしかありません。

リアルタイムの議事録にも対応可能か

Amazon Transcribeは録音済みの音声ファイルや動画ファイルの文字起こしに便利ですが、リアルタイムで字幕表示することも可能です。話し手が複数人いる場合は事前に話し手の人数を登録しておきます。そうすることで誰が話しているのかを認識し表示してくれます。

ただ注意しなければならないことは、話し手が「あのー」「えーっと」など意味のない言葉を発するとそれも文字化されてしまうので、気をつけましょう。これはリアルタイムの文字起こしだけに限った話ではありませんが・・・

ある程度内容がわかればOKという場合にはリアルタイムの文字起こしでも十分に対応できます。議事録など大事な場面で活用する場合は一度、録音して音声ファイルにしたうえで文字起こしするほうが無難でしょう。

英語でやりとりする場合はリアルタイムでも高い精度での字幕表示が可能でしょう。また医療的な専門用語を利用する場合はAmazon Transcribe Medicalというサービスもあります。

Amazon Transcribe Medicalをクラーク(シュライバー)代わりに

Amazon Transcribe Medicalは医療分野に特化したAWSのサービスです。具体的には内科、耳鼻咽喉科、小児科、産婦人科などの専門分野で音声文字起こしサービスが利用できます。

クラーク(シュライバー)の育成には数ヶ月かかりますが、Amazon Transcribe Medicalを導入すれば育成にかかるコストが抑えられ、クラーク(シュライバー)を雇用する人件費が浮きます。また、ドクターが発言した内容を文字に起こすため、聞き間違いや書き間違いによるミスを防ぐことも可能です。

Amazon Transcribe Medicalの精度については現時点で把握できておりませんが、精度が非常に高く、安定した稼働が可能であれば、実用化の検討は十分に考えられるのではないでしょうか。料金の詳細についてはこちらを公式サイトをご確認ください。

Amazon Transcribe の料金

ただし、現時点(2020年4月)では英語のみの対応となっているため、患者さんとの日本語でのやり取りのすべてを音声文字起こしすることはできません。日本語に対応されるのを待つしかありません。

リアルタイム文字起こしは日本語未対応

ここまでリアルタイムでの文字起こしが可能とお伝えしてきましたが、Amazon TranscribeとAmazon Transcribe Medicalのどちらも現在(2020年4月時点)は日本語対応はしていません。日本語対応となったのは音声ファイルや動画ファイルの文字起こし機能が追加されたということのようです。そのため現段階でできることというと、インタビューや会議の議事録、後で配布する用の動画ファイルなどの文字起こしが可能というということです。

まとめ

Amazon Transcribeの日本語の精度はこれからに期待したいところですが、現時点でもすでに音声や動画の文字起こしの労力がかなり低減されるのではないでしょうか。英語であれば講演会やセミナーなどで話し手の言葉をモニターにリアルタイムで表示させることが可能です。また、Amazon Transcribe Medicalは英語のみの対応ですが、導入すれば大幅なコスト削減も可能です。Amazon Transcribeは無料利用枠もあるのでまずはお試し程度で利用されてみてはいかがでしょうか。

ちなみに筆者は友人の結婚式で使用するサプライズムービーの文字起こしに使用してみました。Transcribeの無料枠の範囲内で利用することができ、時間短縮にもなったので利用して良かったです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です