Azureの文字起こしについて

クラウドサービスについて

今回の内容のAzureというのは、Microsoft社が提供しているクラウドサービスです。「Azure」は「アジュール」と読みます。

クラウドとはIT分野においては広義に「インターネットなどのネットワーク上でユーザーが使えるサービスのこと」を指しています。
これまではユーザーがデータを保存する際には、コンピューター本体のハードディスクに保存する方法が一般的であり、ソフトウェアを利用する際にはコンピューターにインストールする必要がありましたが、クラウドサービスを利用することによって、データをクラウド上に保存したりインストール不要でソフトウェアを利用したりできるようになりました。
クラウドサービスが何かよくわからないという方でも、次のようなサービスを使用したことがある方はいらっしゃるでしょう。メジャーで使い方が簡単なものを3つ挙げてみます。(今回はあくまで無料の範囲内で紹介していきます。)

◇ GoogleDrive:無料で使用できる容量は15GBまで。
◇ iCloud Drive:無料では5GBまでの容量が利用できますが、iPhone・iPad・Macユーザーに限られます。
◇ Dropbox:無料版は2GBまで。

クラウドサービスの大きな特徴は、ユーザーがサーバーの場所を意識しないというところで「雲」のようなイメージから「クラウドサービス」と呼ばれるようになりました。

Azureについて

Microsoft Azureとはマイクロソフト社が提供するクラウドプラットフォームで、従量課金制という、初期費用無しで使用した分だけ支払うサービスです。
膨大なサーバが設置された拠点が世界に展開されており、この設備をクラウドプラットフォームサービスを提供してくれています。日本にも東日本と西日本に2拠点あります。

先ほどクラウドは雲のようなものであると書きましたが、実際はMicrosoft社が運用しているデータサーバーの一部を借りているイメージになります。

Microsoft Azureが提供するプラットフォームには、「IaaS」と「PaaS」の2種類があります。
IaaSでは仮想マシンのOSにおいてマイクロソフト社が責任をもって管理しますが、仮想マシンのOSより上は利用者が責任をもって実施する必要があります。反対に、PaaSで構成できるシステムは、マイクロソフト社が提供するPaaSの機能次第となります。

PaaSは「Platform as a Service」の頭文字を取った略語で「パース」と読みます。
アプリケーションソフトが稼働するためのデータベースやプログラム実行環境などが提供されるサービスのことです。

IaaSは「Infrastructure as a Service」の頭文字を取った略語で「イァース」と読みます。仮想サーバーやストレージ、ファイアウォールなどのインフラを、インターネット上で使えるサービスとして提供する形態のものもあります。

ちなみにSaaSというものもあり。「Software as a Service」の頭文字を取った略語です。利用者はネットワーク経由でサービス機能を活用することができます。

文字起こしについて

AI文字起こしというのは、最新AI(音声認識API)を活用した音声の文字化サービスのことです。
Microsoft社の音声認識の性能はトップクラスに位置しています。(Googleと並ぶほどに!)
これまで使える音声認識はGoogleのAPIだけでしたが、現在はMicrosoft Azure Speech to Textも使用できるようになりました。よってユーザーは使用したい音声認識APIを選ぶことができるようになり、その音声認識を使って音声の自動文字化が行えるようになったということです。
また、Microsoft社の方は句読点と改行が自動で付与されるので読みやすい仕上がりになります。

会話の文字起こしとは、音声認識はもちろん会話の話者を区別して、誰がいつ何を発言したのかなどをを組み合わせて、会話をスクリプトとして提供する音声テキスト変換のことです。

これによりどのようなメリットが得られるのか考えて見ましょう。
まず聴覚障碍などにより耳が聞こえないもしくは聞こえにくい方が会議に参加する場合に、リアルタイムでの文字起こしを行うことにより会議の内容をその場で理解することができます。
また、会議の音声を取得し誰が何を言っているのかを判別することで、これまでのようにメモを取る必要がなくなり、聞き逃したりすることなく話の内容に集中できるので、会議に参加している全ての方が遅れをとらずに会議の内容を理解することができるようになる、といったメリットがあります。

文字起こしのモード

会話の文字起こしにはリアルタイム、非同期、リアルタイム&非同期の3つのしモードがあります。
リアルタイムでは、オーディオデータがリアルタイムで処理されますので、メリットにも書いたように耳が聞こえない・聞こえにくい方に対して、スクリプトをライブで表示して会議を運営することができます。
非同期ではスクリプトのリアルタイムで表示するのではなく、より高い文字起こしの結果精度が求められる場合に選択するモードです。

それぞれの場合によって使い分けることができるのが、良いところですね。

最後に…

本日はAzureの文字起こしについて紹介しました。
会話の文字起こしにおいて、特に人数制限は設けられておりませんが、1セッションあたり、2〜10人を目安に最適化されています。
また、話している声(音量)が小さかったり状態が悪い場合は、うまく文字に起こせず誤変換が増えることがあるので気をつけましょう。

以上、AzureのSpeech to Textはとても便利で仕事の効率も上がります。ただし使用する場合は料金が発生しますので、よく調べてから購入するようにしましょう!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です