地名を呼べば該当エリアが表示されるカーナビなど、最近すっかり身近になってきた音声認識技術。議会録作成のため地方議会でも導入され、“開かれた議会”の実現に向けて情報開示に役だっている。
「音声認識技術はひと昔前に比べると格段の進歩を遂げています。友人同士の打ち解けた会話を自動で起こすのはまだ難しいのが実情ですが、話術に長けた人が不特定多数に理解してもらおうとゆっくり明快に話すのであれば、高い精度で音声を認識することができるんです」
と、音声認識の第一人者である京都大学の河原達也教授は話す。
人間の話す音声をコンピューターを介して文字に変換する音声認識の研究は、日本では約50年前に始まった。だが、当時は大型計算機のような装置を何台も駆使して、一音一音区切りながら「わ、た、し」と発音すると、数十秒後に「わ…た…し」と出てくるレベル。
地道に進化したものの実用化できるようになったのは、コンピューターの処理能力が高速化し大容量化したここ10年くらいのことだ。
「音声認識というのはデータ勝負なんですよ。たとえば英語を学習するときに何百時間も会話を聞いていると、だんだん耳が慣れて聞こえるようになるでしょう。コンピューターも同様で、音声データを何百時間分も覚えこませると性能がよくなるんです」
河原教授は8年前から議会録作成用の技術開発を始めたが、開発の過程には様々な困難が伴った。
認識の精度を上げるには大量の話し言葉をコンピューターに学習させる必要があるが、最大のネックは議場で交わされたリアルな音声を書き起こしたデータが少ないことだった。そこで文章化された過去の議事録から、“話し言葉では冒頭に「えー」という語が何%の確率で入る”とか“文末は「~ですね」と結ぶ確率が何%程度ある”と統計的に分析・モデル化。音声認識とは逆方向のアプローチをすることで、よりリアルな音声データを再現し、コンピューターに覚えこませたのだった。
「この手法により過去の議会禄をリアルに再現することが可能になり、データ量が飛躍的に増えた。新たに開発された音声認識システムには約500時間分のデータが蓄積され、認識の精度が格段に上がったんです」(河原教授)
※週刊ポスト2011年10月7日号