Data Science and AI
【潜入レポ】IBM 東京基礎研究所の音声認識・音声合成最新技術に触れる
2020年01月08日
カテゴリー Data Science and AI
記事をシェアする:
先日、IBM社内セミナー「Technology at a glance」が開催されるという情報を聞きつけ、会場へ向かいました。「Technology at a glance」は、研究開発の旬な技術情報を現場の皆にいち早く役立ててもらうために、タイムリーかつコンパクトに伝える社内セミナーです。社内限定にしておくにはもったいない!内容だったので、「潜入レポ」を書きました。
今回の講師はIBM東京基礎研究所の倉田 岳人と長野 徹の二名。音声認識・音声合成研究の第一人者たちで、「音声のことならなんでも来いっ!」ということで一気に期待のボルテージが高まります。
まずは倉田による音声技術全般についての解説からスタート。実はIBMはこの分野のパイオニアで、1962年にはすでに最初の技術開発に取り組んでいました。Watson Speech To Text(音声認識)とWatson Text To Speech(音声合成)というIBM Cloudのサービスは、彼らの長年の基礎研究を基に作られているのですね。
音声認識といえばやはり「認識精度」が気になります。IBMは2017年に英語電話会話音声認識で世界一の精度を記録しました (プレスリリース(英語)、ブログ記事(英語))。大切なポイントは、このタスクにおいて、音声認識が人間と同等の認識率を達成できることを示したことです。2019年5月にはニュース音声の認識でも最高精度を記録(英語)。今では多くのテレビ放送のキャプショニングでも使われています。
また東京基礎研究所は、Watson Speech To Textの数ある言語のうち、日本語に加えて、英語・韓国語なども担当しています。技術力の高さが世界に認められている証ですね!
倉田によると、利用される場面に応じたカスタマイズを行うことで、さらに音声認識精度を向上させることができるとのこと。特にビジネスの現場で音声認識を活用する場合,業界固有、社内固有の専門用語であっても,カスタマイズを行うことにより認識させることができるようになります。
続いて長野から、音声合成技術のアップデート。ニューラルネットワーク(Adaptive TTS using LPCNet )を用いたバージョンが先日新たにリリースされました(英語)。音声合成についても歴史は長く、また日本語以外にも米国英語、英国英語、スペイン語、ドイツ語などにも対応しています。従来のモデルとニューラルモデルを聞き比べてみましたが、確かになめらか。人間が聞いて自然に聞こえるか?という聴取テストでも非常に高い評価を得ました。会話の速度や音質も調整することができます。音声はWebでも試せるので興味を持たれた方は実際に聞いてみてください。
倉田、長野の二人に、現在取り組んでいる課題について聞いてみました。音声認識では、多人数会話の認識や新しい言語、方言などへの対応、より高度なカスタマイズの実現,音声合成では読みやアクセントの精度向上です。新しい研究成果が待ち遠しいですね。
最後に倉田と長野に、メッセージをお願いしました。「音声認識も音声合成も、利用状況に応じた正しい使い方をしていただくことで、ビジネスに十分な性能を引き出すことができます。」とのことです。
次回のTech at a glanceにも期待です。
執筆:南 隆志
伝統と革新 | 日本IBMユニバーサルデザイン・カレンダー制作の舞台裏
Client Engineering, IBM Partner Ecosystem
日本IBMはこれまでおよそ40年間にわたり、日本の美術品や絵画をテーマに壁掛けカレンダーを制作し、年末年始のご挨拶の際にお客様にお渡ししてきました。 しかし、オフィス空間や室内内装の在り方が大きく変化したここ数年で、壁に ...続きを読む
AI、エネルギー、食、人材育成 | 「IBM Think Lab Day@札幌」を4つのキーワードで
IBM Partner Ecosystem
お客様、パートナー様のビジネス課題の解決や一層の価値創造に役立つ共創を目指し、IBM Think Lab (弊社箱崎事業所、東京日本橋) ではIBM Researchの先端テクノロジー体験をお届けしています。 「先端テク ...続きを読む
IBM製品 サポート終了/営業活動終了情報 2024年10月発表分
IBM テクニカル・サポート
IBM 発表レター にて2024年10月にサポート終了日や営業活動の終了日が発表された主要製品についてお知らせします。 ■IBM Infrastruc ...続きを読む