当サイトのクッキーについて IBM のWeb サイトは正常に機能するためにいくつかの Cookie を必要とします(必須)。 このほか、サイト使用状況の分析、ユーザー・エクスペリエンスの向上、広告宣伝のために、お客様の同意を得て、その他の Cookie を使用することがあります。 詳細については、オプションをご確認ください。 IBMのWebサイトにアクセスすることにより、IBMのプライバシー・ステートメントに記載されているように情報を処理することに同意するものとします。 円滑なナビゲーションのため、お客様の Cookie 設定は、 ここに記載されている IBM Web ドメイン間で共有されます。
Data Science and AI
【潜入レポ】IBM 東京基礎研究所の音声認識・音声合成最新技術に触れる
2020年01月08日
カテゴリー Data Science and AI
記事をシェアする:
先日、IBM社内セミナー「Technology at a glance」が開催されるという情報を聞きつけ、会場へ向かいました。「Technology at a glance」は、研究開発の旬な技術情報を現場の皆にいち早く役立ててもらうために、タイムリーかつコンパクトに伝える社内セミナーです。社内限定にしておくにはもったいない!内容だったので、「潜入レポ」を書きました。
今回の講師はIBM東京基礎研究所の倉田 岳人と長野 徹の二名。音声認識・音声合成研究の第一人者たちで、「音声のことならなんでも来いっ!」ということで一気に期待のボルテージが高まります。
まずは倉田による音声技術全般についての解説からスタート。実はIBMはこの分野のパイオニアで、1962年にはすでに最初の技術開発に取り組んでいました。Watson Speech To Text(音声認識)とWatson Text To Speech(音声合成)というIBM Cloudのサービスは、彼らの長年の基礎研究を基に作られているのですね。
音声認識といえばやはり「認識精度」が気になります。IBMは2017年に英語電話会話音声認識で世界一の精度を記録しました (プレスリリース(英語)、ブログ記事(英語))。大切なポイントは、このタスクにおいて、音声認識が人間と同等の認識率を達成できることを示したことです。2019年5月にはニュース音声の認識でも最高精度を記録(英語)。今では多くのテレビ放送のキャプショニングでも使われています。
また東京基礎研究所は、Watson Speech To Textの数ある言語のうち、日本語に加えて、英語・韓国語なども担当しています。技術力の高さが世界に認められている証ですね!
倉田によると、利用される場面に応じたカスタマイズを行うことで、さらに音声認識精度を向上させることができるとのこと。特にビジネスの現場で音声認識を活用する場合,業界固有、社内固有の専門用語であっても,カスタマイズを行うことにより認識させることができるようになります。
続いて長野から、音声合成技術のアップデート。ニューラルネットワーク(Adaptive TTS using LPCNet )を用いたバージョンが先日新たにリリースされました(英語)。音声合成についても歴史は長く、また日本語以外にも米国英語、英国英語、スペイン語、ドイツ語などにも対応しています。従来のモデルとニューラルモデルを聞き比べてみましたが、確かになめらか。人間が聞いて自然に聞こえるか?という聴取テストでも非常に高い評価を得ました。会話の速度や音質も調整することができます。音声はWebでも試せるので興味を持たれた方は実際に聞いてみてください。
倉田、長野の二人に、現在取り組んでいる課題について聞いてみました。音声認識では、多人数会話の認識や新しい言語、方言などへの対応、より高度なカスタマイズの実現,音声合成では読みやアクセントの精度向上です。新しい研究成果が待ち遠しいですね。
最後に倉田と長野に、メッセージをお願いしました。「音声認識も音声合成も、利用状況に応じた正しい使い方をしていただくことで、ビジネスに十分な性能を引き出すことができます。」とのことです。
次回のTech at a glanceにも期待です。
執筆:南 隆志
More Data Science and AI stories
ラウンドテーブルを通じてPwDA+Week2024を振り返る(後編) | インサイド・PwDA+9
IBM Partner Ecosystem
日本IBMグループのダイバーシティー&インクルージョン(D&I)活動の特徴の1つに、当事者ならびにその支援者であるアライが、自発的なコミュニティーを推進していることが挙げられます。 そしてD&Iフ ...続きを読む
ラウンドテーブルを通じてPwDA+Week2024を振り返る(前編) | インサイド・PwDA+9
IBM Partner Ecosystem
日本IBMグループのダイバーシティー&インクルージョン(D&I)活動の特徴の1つに、当事者ならびにその支援者であるアライが、自発的なコミュニティーを推進していることが挙げられます。 そしてD&Iフ ...続きを読む
風は西から——地域から日本を元気に。(「ビジア小倉」グランドオープン・レポート)
IBM Consulting, IBM Partner Ecosystem
福岡県北九州市のJR小倉駅から徒歩7分、100年の歴史を刻む日本でも有数の人気商店街「旦過市場」からもすぐという好立地にグランドオープンしたBIZIA KOKURA(ビジア小倉)。 そのグランドオープン式典が2024年1 ...続きを読む