ディープラーニングの出現により、画像認識、音声認識、動画認識の分野においての技術が、飛躍的に向上しました。「Hey Siri」や「OK Google」という言葉を聞いたことがある方も多いと思います。これらは音声認識技術を用いられたサービスです。スマートフォン、Google homeやAmazon Echoなどで用いられている音声認識技術利用し、様々な企業が新しいサービスや商品を開発しています。音声認識技術を導入しているプロダクトでは言葉で操作することができ、ハンズフリーでの作業が可能となるので、スマホのアプリだけでなく、医療の現場でも活躍が見込まれています。これらの技術が導入されている領域は、B to C向けのサービスや商品に限定されており、我々の働く現場においては、今だ導入が進んでいない現状があります。弊社は、ディープラーニングの技術を用いて、音声データ・音声ファイルをテキストに変換、または音声データのタイムリーなテキスト化を行うことで、「業務の効率化」「音声データの適切な保存」「サービスのクオリティ向上」「新サービス開発に向けてのデータ分析」を実行・実現したいすべての企業、働く人々を支援いたします。
認識精度を上げるディープラーニング
ディープラーニング(深層学習)とは、音声の認識、画像の特定、予測などの人間が自然に行うことをコンピューターに学習させる機械学習の1つです。人工知能(AI)の進化を支える技術であり、これにより様々な分野への実用化が進んでいます。人間の神経細胞(ニューロン)の仕組みを模したニューラルネットワークを多層的にすることで、データに含まれる特徴を捉えることが可能です。多層構造のニューラルネットワークに大量のテキストや音声データを読み込ませることで、データに含まれる特徴を各層で自動的に学習していきます。これにより、ディープラーニングは極めて高い精度を有し、人間の認識精度を超えることもあります。
大量のデータを学習しているので、例えば、「今日はいい天気ですね」という音声を読み込ませたときに、「今日は」に続く文章をコンピューターが推測します。この後の文章が「い…てん…ですね」とだけ聞き取れた場合でも過去のデータを参考に「今日はいい天気ですね」と言葉を補うことができます。
また、サービスで使用された音声もビッグデータとして学習していくので、今後もさらに精度は向上していきます。
Google Cloud Speech API
音声認識技術にも様々な種類があります。弊社では大量のデータの収集が可能で、ストリーミングの対応、長時間の音声の認識、言語の幅、認識の精度などからGoogle Cloud PlatformであるGoogle Speech APIの導入の支援をすることにしました。Google検索やGmailなどの大規模サービスからビッグデータを収集し、高度なデータ分析や機械学習等を可能としているため、品質向上も著しく、スピードにも優れています。
●実施の流れ
まずはお客様の状況やご要望をしっかりとお伺いします。すでにシステムを導入しているようであればどのようなものを導入しているか。現在の課題はどのようなもので、どのような対応が最善の解決方法かなどをご案内します。
お問い合わせ
株式会社アクロビジョン
東京都豊島区東池袋1-35-3
池袋センタービル 8階
Tel:03-6661-0912
●対象地域:札幌、仙台、
関東(埼玉、千葉、東京、神奈川)、愛知、
関西(京都、大阪、兵庫)、広島、福岡
リモートであれば場所を問わず対応します。