Amazon Pollyについて

はじめに

「音声」を用いた機能といえばどんなものを想像しますか?iPhoneのSiriやGoogleの音声読み上げシステムなどが想像出来るのではないでしょうか。そして、この読み上げシステムにはAmazonも力を入れております。それが今回お話しするAmazon Pollyです。

Amazon Pollyとは

序章でも少し触れましたが、Amazon Pollyとは簡単に説明すればAmazonが提供する文章読み上げサービスです。高度なディープランニング技術を使用したクラウディングサービスで、自然に聞こえるように人間の音声を合成して作成しております。何十種類もの音声を多数の言語で構成できるため、様々な国に対応した音声アプリケーションを構築できます。参考までにお聞きしてほしいのですが、AWS公式サイトでは音声が公開されています。各々国籍、性別によって名前が使われており、英語で女声ならジョアンナ、男声ならマシュー、日本語で女声ならミズキ、男声ならタクミといった風に名付けられているのですが、残念ながら中国と韓国は女声しかおりません。対応言語はイタリア語、日本語、韓国語、フランス語などポピュラーな言語はもちろんですが、英語という一言語に対してアメリカ英語、イギリス英語、オーストラリア英語、インド英語と細かく分類されており、数十にも及ぶ言語圏に対応しております。実際、音声を聞いてみたのですが、日本語は少しカタコトで不自然な所で抑揚が上がっている印象を受けましたが、英語に至ってはTOEICのリスニングテストに出てくる音声に良く似ており、聞き取りやすい音声でした。

また、音声には標準音声とニューラル音声があり、ニューラル音声は標準音声より高品質の音声を生成出来ると言われています。その秘密は、標準音声を生成するために使用する音声の結合を使わないからなのですが、実際聞いてみたところ、標準音声と聞き比べてあまり違いが分からなかったです。ただ、これは個人的な意見なので興味のある人は実際に聞き比べてみると良いかも知れません。

メリット

自然な声

辞書とSSML(Speech Synthesis Markup Language:音声合成マークアップ言語)タグをサポートしており、発声・声量・声の高さ低さ・速度などの「声の相」をコントロール出来ます。SSMLでは特定の単語やフレーズを強調するほか、呼吸音を含む、囁きなどの細かい設定を強調することで、より人間の音声に近しい音声を作ることが出来ます。

音声を保存・再配信出来る

Amazon Pollyでは、生成した音声を追加料金なしで無制限に再生出来ます。音声ファイルからMP3ファイルやOGCファイルなどの標準フォーマットで生成し、クラウドやローカルからアプリやデバイスでのオフライン再生が出来ます。

リアルタイムストリーミング

リアルな音声を会話型サービスには一貫した速い応答時間が求められます。Amazon PollyのAPIに文章を送ると、音声をアプリケーションに連続した処理として返すため、直ちに音声を再生できます。

低コスト

従量制なので処理したテキストの文字数に応じて毎月課金されます。標準音声でリクエスト100万文字に対して4ドル、ニューラル音声でリクエスト100万文字に対して16ドルなので低コストで使用できます。

また、Amazon Pollyには無料枠が設けられています。標準音声の場合、音声の最初のリクエストから12ヶ月間は500万文字/1カ月の枠内でなら音声またはSpeech Marksリクエストを無料で利用できます。ニューラル音声の場合、音声の最初のリクエストから12ヶ月間は500万文字/1カ月まで音声、Speech Marksリクエストを無料で利用できます。

Speech Marks

先ほど、Speech Marksという単語が出てきましたので、ここで説明させていただきます。Speech Marksは、開発者が映像体験と会話の同期を可能とするメタデータのことです。この機能は会話を顔のアニメーションと同期することや、カラオケのような単語のハイライトを利用することでリップシンク(口パク)のような動作を可能とします。Speech Marksメタデータは合成された音声を記述し、メタデータと会話を一緒に使うことにより、音声ストリームが音・語句・文・SSMLタグの開始位置と終了位置を決定することが出来ます。

Speech Marksを利用することで、開発者は今、リップシンクするアバターや視覚的に強調表示された読み下しシステムを生み出すことができ、キャラクターに声を与えるためにゲーミングエンジンに会話能力を統合することが出来ます。

ユースケース

以前、Amazon Connectについて調べていた時に、某チケット販売会社が当選結果の自動音声応答システムにAmazon Connectと組み合わせてAmazon Pollyを使用しているというユースケースを発見しました。読み方の難しい固定名詞などは、あらかじめ固定音声を割り当てるなどして比較的、違和感のない日本語で案内が出来ているとのことです。

また、某ラジオ局のAIアナウンサーとしても活躍しております。業務内容はラジオニュースや気象情報のアナウンスで、時間通りに放送を開始する放送用ウェブシステムや、24時間災害情報をアナウンスするソフトウェアなどと連携させ、ディレクターやアナウンサーの確保が難しい時間帯でも無人放送を実現させています。Amazon Pollyに掛かる費用はわずか年間400~800円と衝撃的な価格で、環境開発言語もJavaScript、PHPなど馴染みのあるプログラミング言語を使用できたので、迅速に開発することが出来たそうです。

おわりに

Amazon Pollyはテキスト読み上げ、翻訳、自動音声対応など様々な「音声」に関わる業務のサポートをしております。まだまだ先のことになるかもしれませんが、相手の声色を伺い、想定する感情に合わせてAmazon Pollyも声色を変えるようなシステムが誕生したら、企業(特にクレジットカードなど問い合わせの多い会社)のお問合せセンターの業務も幾分か楽になるのではないでしょうか。

しかし、人間「言いたいこともままならない」という状況も誰にでもあるはずなので、やはりそこは人間の「察する力」が解決に向かうには必要なのだと思います。つまり、何が言いたいかと申し上げますと、技術が発展しても人間にしか出来ない仕事もまだまだあるということです。近年AI技術の進歩や、RPAの登場により人間に任される仕事が減るのではないかと危惧されていますが、人間ならではの仕事は探せばありますし、仕事が減りゆくなかでも人間ならではの仕事を生み出すということが大切です。以上、長くなってしまいましたが、最後までお付き合い頂きありがとうございました。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

前の記事

縁の下の力持ちFree RTOS

次の記事

クラウドエンジニアの基礎