続いて「音声ファイルから書き起こす方法」について解説しよう。
まず、初期画面で「再生して文字化」を選択してメインウィンドウを開き、音声ファイルの選択エリアの「参照」ボタンをクリックして任意のファイルを選択する。準備ができたら音声認識の「開始」ボタンをクリックすれば、Google Chromeが起動して音声ファイルの再生がスタートし、自動的に音声認識が開始される。
認識された文字は自動的に適切な間隔で区切られて画面下部の編集画面に移動し、タイムスタンプが付与される。タイムスタンプが不要であれば初めからオフにもできるし、後から一括で除去する事も可能だ。
実際に音声ファイルから文字入力をしてみて気付いたのだが、音声認識させたい音声ファイルはニュースのアナウンサーのようにはっきりとした明瞭な発音で録音されている必要があり、声以外の音(BGMや環境音)が入っていると正しく認識されない。マニュアルにも下記のような注意書きがある。
- マイクを通していない音声の会議録音、フリートーク、電話などの会話調の音声、街中のインタビューなどの場合は、認識精度は期待できません。
- 録音品質が悪い(ノイズが多い)場合も認識精度が出ません。録音時にマイクと口元が30cm以上離れている場合は認識精度が悪くなります。
- 会議の場合は、発話者ごとにマイクを通して話すようにし、明瞭に話すことを心がけてください。テーブルの中央にICレコーダーを置いただけの録音の場合(集音マイクでの録音)は認識精度は出ません。
個人的には「Voice Code PRO」を使ってラジオ番組や映画の音声をテキスト化できたら面白いと思ったのだが、ラジオや映画は声優の声と一緒にBGMや環境音が入っている事がほとんどなので、セリフだけを正確に拾い上げてテキスト化する事はできなかった。
また、会議の音声を録音しておき、それを後からテキスト化したい場合は、上述のように参加者全員が個別にマイクをつけて会議に臨む必要があるが、会議の度にこのような録音環境を準備するのは現実的には難しいだろう。この辺りの問題はGoogleの音声認識技術の更なる向上で改善される事を期待したい所だ。
もちろん、クリアな音で録音された音声ファイルなら再生するだけで自動的にスラスラと文字化してくれるので、音声ファイルからの文字起こし作業が格段に楽になる事は間違いない。文字起こしを行う機会の多い方は是非ご利用いただきたい。
「再生して文字化」のメイン画面。メインメニューの下に音声ファイルのコントロールエリアが追加されている