Data Science and AI
【潜入レポ】IBM 東京基礎研究所の音声認識・音声合成最新技術に触れる
2020年01月08日
カテゴリー Data Science and AI
記事をシェアする:
先日、IBM社内セミナー「Technology at a glance」が開催されるという情報を聞きつけ、会場へ向かいました。「Technology at a glance」は、研究開発の旬な技術情報を現場の皆にいち早く役立ててもらうために、タイムリーかつコンパクトに伝える社内セミナーです。社内限定にしておくにはもったいない!内容だったので、「潜入レポ」を書きました。
今回の講師はIBM東京基礎研究所の倉田 岳人と長野 徹の二名。音声認識・音声合成研究の第一人者たちで、「音声のことならなんでも来いっ!」ということで一気に期待のボルテージが高まります。
まずは倉田による音声技術全般についての解説からスタート。実はIBMはこの分野のパイオニアで、1962年にはすでに最初の技術開発に取り組んでいました。Watson Speech To Text(音声認識)とWatson Text To Speech(音声合成)というIBM Cloudのサービスは、彼らの長年の基礎研究を基に作られているのですね。
音声認識といえばやはり「認識精度」が気になります。IBMは2017年に英語電話会話音声認識で世界一の精度を記録しました (プレスリリース(英語)、ブログ記事(英語))。大切なポイントは、このタスクにおいて、音声認識が人間と同等の認識率を達成できることを示したことです。2019年5月にはニュース音声の認識でも最高精度を記録(英語)。今では多くのテレビ放送のキャプショニングでも使われています。
また東京基礎研究所は、Watson Speech To Textの数ある言語のうち、日本語に加えて、英語・韓国語なども担当しています。技術力の高さが世界に認められている証ですね!
倉田によると、利用される場面に応じたカスタマイズを行うことで、さらに音声認識精度を向上させることができるとのこと。特にビジネスの現場で音声認識を活用する場合,業界固有、社内固有の専門用語であっても,カスタマイズを行うことにより認識させることができるようになります。
続いて長野から、音声合成技術のアップデート。ニューラルネットワーク(Adaptive TTS using LPCNet )を用いたバージョンが先日新たにリリースされました(英語)。音声合成についても歴史は長く、また日本語以外にも米国英語、英国英語、スペイン語、ドイツ語などにも対応しています。従来のモデルとニューラルモデルを聞き比べてみましたが、確かになめらか。人間が聞いて自然に聞こえるか?という聴取テストでも非常に高い評価を得ました。会話の速度や音質も調整することができます。音声はWebでも試せるので興味を持たれた方は実際に聞いてみてください。
倉田、長野の二人に、現在取り組んでいる課題について聞いてみました。音声認識では、多人数会話の認識や新しい言語、方言などへの対応、より高度なカスタマイズの実現,音声合成では読みやアクセントの精度向上です。新しい研究成果が待ち遠しいですね。
最後に倉田と長野に、メッセージをお願いしました。「音声認識も音声合成も、利用状況に応じた正しい使い方をしていただくことで、ビジネスに十分な性能を引き出すことができます。」とのことです。
次回のTech at a glanceにも期待です。
執筆:南 隆志
IBM製品 サポート終了/営業活動終了情報 2024年10月発表分
IBM テクニカル・サポート
IBM 発表レター にて2024年10月にサポート終了日や営業活動の終了日が発表された主要製品についてお知らせします。 ■IBM Infrastruc ...続きを読む
使いやすさに寄り添った文書検索AI「InsightBuddyX」登場(empowered by watsonx)
IBM Partner Ecosystem
生成AIを使用したPoCの3分の2以上が、サービス実装に至らず終わってしまっていると言われています。そして原因の多くは、「精度」「コスト」「運用」面での課題を解消するまでのハードルがまだまだあるから、とのこと。 当記事に ...続きを読む
「IBM Partner Plus Global Award」優勝を果たした、人事向けソリューション評価版がついに提供開始
IBM Partner Ecosystem
「素晴らしいエンジニアを見つけられるか否か。日本ではそれが最も大きな課題となっています。特に、我々のような中堅・中小企業にとっては、それが会社の命運を握っていると言っても過言ではありません。この最重要課題の解決策を、私た ...続きを読む