Amazon Pollyとは何か

はじめに

近年では、文章は、”読むこと”から”聞くこと”へだんだんシフトしてきています。聞くことで、別のことをしながら、いわゆる「ながら聞き」が可能になりますし、また言語の勉強でもネイティブの発音を聞くことで語学力が高まると言われております。また目の不自由な人のサポートにもなります。このように文章を聞くことには様々なメリットがあります。本記事では、テキスト読み上げ(TTS)サービス「Amazon Polly」を紹介したいと思います。テキスト読み上げサービスは、あらゆる場面で利用され始めており、今後より幅広く使われるようになるでしょう。どういったものか全く知らないという方は、是非本記事を読んでみてください。

Amazon Pollyとは?

Amazon Pollyは、文章をリアルな音声に変換するサービスです。
合成音声は、オーディオブックやニュースリーダー、カーナビ、電話の自動応答メッセージなど幅広く利用されており、一般的なユーザーの使用から、目の不自由な人のサポートまでニーズに合わせた幅広いサービスが展開されています。Amazon Polly は、高度なディープラーニング技術を使用したテキスト読み上げがされており、まるで人間が話しているような自然な印象を与えます。Amazon Pollyの具体的な特徴を見ていきたいと思います。

Amazon Pollyの特徴

バリエーション豊富な声の種類

Amazon Pollyは、世界24の言語に対応し、音声の種類は合計で47種類となります。また一部の言語ではニューラル音声(NTTS)が採用されています。標準の合成音声は、TTSという技術を使用しております。これは音声データベースに保存された短い音声の断片を繋げて可能な限り最適かつ自然な音声を作成します。しかし会話の場面に応じた対応ができません(抑揚の無い平坦なものになりがち)。NTTSではシーケンス間モデルが使用されます。標準で使用されているTTS音声技術に加え、シーケンス間モデルを採用することで、会話の場面に合わせて話し方を機械学習させることができ、その話し方特有の抑揚や強調を加えることができます。現在は、ニュースキャスター型と会話型という2つの話し方が用意されています。現在対応している言語は、米国英語 、イギリス英語 、ブラジルポルトガル語 、米国スペイン語のみとなっています。またIvy(女性の子供)、Joanna(女性)、Justin(男性)など性別と年齢層も選ぶことが可能になっています。今後より様々なケースが出てくることが期待されます。

Speechmarkで口パク作成

Amazon Pollyでは、合成する音声のメタデータを取得することができます。
どういうデータかというと、”文章の文節位置の情報”と”単語を発音する時の口の動きの情報”を提示します。
以下にメタデータを挙げます。

  1. {“time”:0,”type”:”sentence”,”start”:0,”end”:23,”value”:”Mary had a little lamb.”}
  2. {“time”:6,”type”:”word”,”start”:0,”end”:4,”value”:”Mary”}
  3. {“time”:6,”type”:”viseme”,”value”:”p”}
  4. {“time”:73,”type”:”viseme”,”value”:”E”}
  5. {“time”:180,”type”:”viseme”,”value”:”r”}
  6. {“time”:292,”type”:”viseme”,”value”:”i”}

1.のtypeがsentence(文章)となっており、そのvalue(値)が”Mary had a little lamb.”になっていますので、文章全体は”Mary had a little lamb.”と認識されているのがわかります。
2.のtypeがword(単語)となっており、その値が”Mary”となっておりますので、文章が”Mary”という単語で区切られているのがわかります。
3.から6.は、2.で抽出した”Mary”に対する口の動きが表示されています。”p”、”E”、”r”、”i”となっておりますので、口の動きは「ぺり」と発音した時の口の動きとなります。
このメタデータを使うことで、リップシンク(口パク)を作成することができ、スピーチとアニメーションを同期させることが可能になります。

SSML(マークアップ言語)で音声を自由にカスタマイズ

Amazon Pollyでは、SSMLと呼ばれるマークアップ言語を使用することができます。このマークアップ言語を利用すれば、テキスト内に長い一時停止時間を追加したり、話す速度やピッチを変更することができるようになります。また他にも以下のオプションが可能になります。

  • 特定の単語やフレーズを強調
  • 発音記号の使用
  • 呼吸音を入れる
  • ささやき声
  • ニュースキャスターの話し方をする

SSMLはHTMLの記述方法に似ていますので、初心者にも記述しやすいものになっています。

APIでアプリケーションと統合

Amazon Pollyでは、様々なAPIが用意されているので、Webサイトやモバイルアプリケーションに簡単に統合させることができるようになります。Amazon PollyのAPIにテキストデータを渡して音声ストリームを取得したり、音声データを作成してS3に保存したりすることが可能になります。他にも様々なAPIが用意されています。またJava、Node.js、.NET、PHP、Python、Ruby、Go、C++など様々な言語をサポートしています。

Amazon Polly料金

Amazon Pollyの料金は、テキストの文字数に応じて毎月課金されます。最初の12ヵ月は、1ヵ月あたり500万文字まで無料で利用できます。無料期間が過ぎると、100万文字に対して4.00USD、ニューラル音声を利用した場合16.00USDになります。音声のみではなく、スピーチマークも文字数に加算されます。

さいごに

いかがでしたでしょうか?
Amazon Pollyでは用途に合わせて柔軟に合成音声を作成し、利用することができます。
身近なところだと通勤時間に新聞記事を音声にして聞いたり、英語の発音練習に利用したりなど情報収集や学習効率を上げることが期待できます。SpeechmarkやAPIを利用して、自分のオリジナルコンテンツを作ることも可能になります。
是非利用してみてはいかがでしょうか?以上です、ありがとうございました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

前の記事

Amazon Workmailとは

次の記事

Amazon Elasticsearch Serviceとは