Data Science and AI

【潜入レポ】IBM 東京基礎研究所の音声認識・音声合成最新技術に触れる

記事をシェアする:

先日、IBM社内セミナー「Technology at a glance」が開催されるという情報を聞きつけ、会場へ向かいました。「Technology at a glance」は、研究開発の旬な技術情報を現場の皆にいち早く役立ててもらうために、タイムリーかつコンパクトに伝える社内セミナーです。社内限定にしておくにはもったいない!内容だったので、「潜入レポ」を書きました。

今回の講師はIBM東京基礎研究所の倉田 岳人と長野 徹の二名。音声認識・音声合成研究の第一人者たちで、「音声のことならなんでも来いっ!」ということで一気に期待のボルテージが高まります。

まずは倉田による音声技術全般についての解説からスタート。実はIBMはこの分野のパイオニアで、1962年にはすでに最初の技術開発に取り組んでいました。Watson Speech To Text(音声認識)とWatson Text To Speech(音声合成)というIBM Cloudのサービスは、彼らの長年の基礎研究を基に作られているのですね。

 

音声認識といえばやはり「認識精度」が気になります。IBMは2017年に英語電話会話音声認識で世界一の精度を記録しました (プレスリリース(英語)ブログ記事(英語))。大切なポイントは、このタスクにおいて、音声認識が人間と同等の認識率を達成できることを示したことです。2019年5月にはニュース音声の認識でも最高精度を記録(英語)。今では多くのテレビ放送のキャプショニングでも使われています。
また東京基礎研究所は、Watson Speech To Textの数ある言語のうち、日本語に加えて、英語・韓国語なども担当しています。技術力の高さが世界に認められている証ですね!

倉田によると、利用される場面に応じたカスタマイズを行うことで、さらに音声認識精度を向上させることができるとのこと。特にビジネスの現場で音声認識を活用する場合,業界固有、社内固有の専門用語であっても,カスタマイズを行うことにより認識させることができるようになります。

続いて長野から、音声合成技術のアップデート。ニューラルネットワーク(Adaptive TTS using LPCNet )を用いたバージョンが先日新たにリリースされました(英語)。音声合成についても歴史は長く、また日本語以外にも米国英語、英国英語、スペイン語、ドイツ語などにも対応しています。従来のモデルとニューラルモデルを聞き比べてみましたが、確かになめらか。人間が聞いて自然に聞こえるか?という聴取テストでも非常に高い評価を得ました。会話の速度や音質も調整することができます。音声はWebでも試せるので興味を持たれた方は実際に聞いてみてください。

 

倉田、長野の二人に、現在取り組んでいる課題について聞いてみました。音声認識では、多人数会話の認識や新しい言語、方言などへの対応、より高度なカスタマイズの実現,音声合成では読みやアクセントの精度向上です。新しい研究成果が待ち遠しいですね。

 

最後に倉田と長野に、メッセージをお願いしました。「音声認識も音声合成も、利用状況に応じた正しい使い方をしていただくことで、ビジネスに十分な性能を引き出すことができます。」とのことです。
次回のTech at a glanceにも期待です。

 

執筆:南 隆志

More Data Science and AI stories