Data Science and AI

音声認識・理解に関するトップカンファレンス IEEE ASRU2019参加報告

記事をシェアする:

昨年末シンガポール・セントーサ島で開催された2年に一度の音声技術関係の国際ワークショップIEEE ASRU2019(Automatic Speech Recognition and Understanding)に参加し、採択された音声認識に関する研究内容について発表してきました。産学の交流を目的として、毎回理論よりの基礎研究から応用的な技術まで幅広い研究成果が発表されています。会議は音声認識を始め、音声合成、話者認証、音声翻訳、対話システムなどの様々なセッションで構成され、その中でも音声認識は発表件数が多く、研究開発競争が激化しているエリアと言えます。

 

皆さんは研究者の集まる学術系国際会議というと、どのような印象をお持ちになるでしょうか。どういう感じで発表するの?発表時間や会場の雰囲気は?といったよくある質問から、頭にヘッドセットみたいなのを装着して通訳を聞いているの?日本語で発表するの?スーツにネクタイのきっちりした格好で発表するの?といったことも聞かれたりしたことがあります。テレビニュースなどの印象が強いのかもしれません。発表は登壇してプレゼンテーションする形と、ポスターの前で細かく説明しながら密に議論するケースの2つがほとんどです。(少なくとも)私が参加したことがある国際会議には通訳サービスはありません。自前の英語で頑張ります。服装ですが、スーツにネクタイということはあまりないです。私の印象では非常にラフな格好をしている参加者が多いです。Tシャツ短パンも珍しくありません。公式のホームページにいくつか写真が掲載されているので、そちらをご覧いただければ少しは雰囲気がわかるかもしれません。

 

さて,研究員らしく少しまじめな話題として、会議からわかる音声研究の最前線をごく簡単に紹介したいと思います。

機械学習(主にディープラーニング関係)の技術の進展と、それを支える計算機能力の向上により、AI技術による成果が多くのメディアで紹介されるようになってきているのは、皆さんもよくご存知のこと思います。音声研究のエリアでも例外ではなく、今回の会議で発表されたほとんどの研究では、何らかの形でディープラーニングが用いられています。音声業界では特に、end-to-endと注意機構と呼ばれている技術がホットな話題であり、今回の会議でも盛んに議論されていました。end-to-endは簡単に言えば入力と出力だけを学習データとして与えて、中間で発生する必要な処理は全てニューラルネットワークに自動学習させるというものです。音声認識で言えば,人の声のデータと、そのデータが何と発話しているかのテキストの組み合わせだけを与えて,ネットワークの学習を進めるというものです。

 

一方、注意機構はその名の通り、入出力全体を均一に処理するのではなく、その中でも特に重要な部分に焦点を当てて特別な処理を行うメカニズムのことを言います。注目すべき部分とそうではない部分に強弱をつけるということは人間も無意識のうちにやっているので,直感的にわかりやすいかもしれません。データのどのような部分にどのように焦点を当てると効果的かという発表が数多くありました。

 

ディープラーニング技術を用いて何らかのシステムを構築しようとすると、その目的に応じた豊富な学習データが必要となるのですが、学習データの収集というのは思いのほか金銭的・時間的コストがかかります。これがシステム構築にあたっての阻害要因になることが多いことから、学習データを人工的に生成しようと試みもいくつかありました。例えば、「成人女性の声が子供用のデータに使えるか試してみた」、「音声合成で作った声を音声認識の学習データに使ってみた」などです。実は、前者の方は私の共著者としての研究発表で、子供の話し方と大人の話し方の違いを統計的に解析して、成人女性の声にある種の変換を加えて子供用音声認識のための擬似学習データの生成を試みたものです。この他にもう一件発表しているのですが、そちらはより専門性の高い内容ですので、紹介は別の機会に譲りたいと思います。

 

学術系の国際会議に参加すると、自分の成果のアピールだけでなく、最新の技術動向や,各研究機関がどのような話題に興味を持っているかなどを知ることができ,非常に有意義な時間を過ごすことができます。また,技術者同士のコネクションもできます。国内外の研究者仲間との懇親会も非常に楽しいです。発表がなくても聴講目的での参加はできますので、一度どこかの会議に参加してみるのもよいのではないでしょうか。

 

Takashi Fukuda/ 福田 隆
Research Staff Member, Speech Technology
IBM Research AI/ IBM Japan

More Data Science and AI stories

IBM製品 サポート終了/営業活動終了情報 2024年10月発表分

IBM テクニカル・サポート

IBM 発表レター にて2024年10月にサポート終了日や営業活動の終了日が発表された主要製品についてお知らせします。           ■IBM Infrastruc ...続きを読む


使いやすさに寄り添った文書検索AI「InsightBuddyX」登場(empowered by watsonx)

IBM Partner Ecosystem

生成AIを使用したPoCの3分の2以上が、サービス実装に至らず終わってしまっていると言われています。そして原因の多くは、「精度」「コスト」「運用」面での課題を解消するまでのハードルがまだまだあるから、とのこと。 当記事に ...続きを読む


「IBM Partner Plus Global Award」優勝を果たした、人事向けソリューション評価版がついに提供開始

IBM Partner Ecosystem

「素晴らしいエンジニアを見つけられるか否か。日本ではそれが最も大きな課題となっています。特に、我々のような中堅・中小企業にとっては、それが会社の命運を握っていると言っても過言ではありません。この最重要課題の解決策を、私た ...続きを読む