Data Science and AI
【潜入レポ】IBM 東京基礎研究所の音声認識・音声合成最新技術に触れる
2020年01月08日
カテゴリー Data Science and AI
記事をシェアする:
先日、IBM社内セミナー「Technology at a glance」が開催されるという情報を聞きつけ、会場へ向かいました。「Technology at a glance」は、研究開発の旬な技術情報を現場の皆にいち早く役立ててもらうために、タイムリーかつコンパクトに伝える社内セミナーです。社内限定にしておくにはもったいない!内容だったので、「潜入レポ」を書きました。
今回の講師はIBM東京基礎研究所の倉田 岳人と長野 徹の二名。音声認識・音声合成研究の第一人者たちで、「音声のことならなんでも来いっ!」ということで一気に期待のボルテージが高まります。
まずは倉田による音声技術全般についての解説からスタート。実はIBMはこの分野のパイオニアで、1962年にはすでに最初の技術開発に取り組んでいました。Watson Speech To Text(音声認識)とWatson Text To Speech(音声合成)というIBM Cloudのサービスは、彼らの長年の基礎研究を基に作られているのですね。
音声認識といえばやはり「認識精度」が気になります。IBMは2017年に英語電話会話音声認識で世界一の精度を記録しました (プレスリリース(英語)、ブログ記事(英語))。大切なポイントは、このタスクにおいて、音声認識が人間と同等の認識率を達成できることを示したことです。2019年5月にはニュース音声の認識でも最高精度を記録(英語)。今では多くのテレビ放送のキャプショニングでも使われています。
また東京基礎研究所は、Watson Speech To Textの数ある言語のうち、日本語に加えて、英語・韓国語なども担当しています。技術力の高さが世界に認められている証ですね!
倉田によると、利用される場面に応じたカスタマイズを行うことで、さらに音声認識精度を向上させることができるとのこと。特にビジネスの現場で音声認識を活用する場合,業界固有、社内固有の専門用語であっても,カスタマイズを行うことにより認識させることができるようになります。
続いて長野から、音声合成技術のアップデート。ニューラルネットワーク(Adaptive TTS using LPCNet )を用いたバージョンが先日新たにリリースされました(英語)。音声合成についても歴史は長く、また日本語以外にも米国英語、英国英語、スペイン語、ドイツ語などにも対応しています。従来のモデルとニューラルモデルを聞き比べてみましたが、確かになめらか。人間が聞いて自然に聞こえるか?という聴取テストでも非常に高い評価を得ました。会話の速度や音質も調整することができます。音声はWebでも試せるので興味を持たれた方は実際に聞いてみてください。
倉田、長野の二人に、現在取り組んでいる課題について聞いてみました。音声認識では、多人数会話の認識や新しい言語、方言などへの対応、より高度なカスタマイズの実現,音声合成では読みやアクセントの精度向上です。新しい研究成果が待ち遠しいですね。
最後に倉田と長野に、メッセージをお願いしました。「音声認識も音声合成も、利用状況に応じた正しい使い方をしていただくことで、ビジネスに十分な性能を引き出すことができます。」とのことです。
次回のTech at a glanceにも期待です。
執筆:南 隆志
「みんなみんなみんな、咲け」ローランズ代表 福寿満希さん 講演&トークセッション(前編)[PwDA+クロス11]
IBM Partner Ecosystem
日本IBMは、毎年12月初旬の障害者基本法による障害者週間に重ねて、「PwDA+ウィーク」を開催しています(「PwDA+」は「People with Diverse Abilities Plus Ally(多様な能力を持 ...続きを読む
企業の垣根を越えて:生成AI活用アイデアソンをトヨタファイナンス様とIBMが共同開催
Client Engineering
トヨタファイナンス株式会社IT本部イノベーション開発部部長の松原様の呼びかけにより4社のITベンダーが参加した生成AIアイデアソンが10月7日に開催し、成功裏に幕を閉じました。 ~トヨタファイ ...続きを読む
ServiceNow x IBM、テクノロジーの融合で地域の特色を活かしたDXを推進
IBM Consulting, デジタル変革(DX), 業務プロセスの変革...
ServiceNowと日本IBMグループでは、両社のテクノロジーを融合させ新たな価値を提供することで、日本の地域社会をより豊かにする取り組みを戦略的に進めています。 2024年12月からは「IBM地域ServiceNow ...続きを読む