Data Science and AI

音声認識・理解に関するトップカンファレンス IEEE ASRU2019参加報告

記事をシェアする:

昨年末シンガポール・セントーサ島で開催された2年に一度の音声技術関係の国際ワークショップIEEE ASRU2019(Automatic Speech Recognition and Understanding)に参加し、採択された音声認識に関する研究内容について発表してきました。産学の交流を目的として、毎回理論よりの基礎研究から応用的な技術まで幅広い研究成果が発表されています。会議は音声認識を始め、音声合成、話者認証、音声翻訳、対話システムなどの様々なセッションで構成され、その中でも音声認識は発表件数が多く、研究開発競争が激化しているエリアと言えます。

 

皆さんは研究者の集まる学術系国際会議というと、どのような印象をお持ちになるでしょうか。どういう感じで発表するの?発表時間や会場の雰囲気は?といったよくある質問から、頭にヘッドセットみたいなのを装着して通訳を聞いているの?日本語で発表するの?スーツにネクタイのきっちりした格好で発表するの?といったことも聞かれたりしたことがあります。テレビニュースなどの印象が強いのかもしれません。発表は登壇してプレゼンテーションする形と、ポスターの前で細かく説明しながら密に議論するケースの2つがほとんどです。(少なくとも)私が参加したことがある国際会議には通訳サービスはありません。自前の英語で頑張ります。服装ですが、スーツにネクタイということはあまりないです。私の印象では非常にラフな格好をしている参加者が多いです。Tシャツ短パンも珍しくありません。公式のホームページにいくつか写真が掲載されているので、そちらをご覧いただければ少しは雰囲気がわかるかもしれません。

 

さて,研究員らしく少しまじめな話題として、会議からわかる音声研究の最前線をごく簡単に紹介したいと思います。

機械学習(主にディープラーニング関係)の技術の進展と、それを支える計算機能力の向上により、AI技術による成果が多くのメディアで紹介されるようになってきているのは、皆さんもよくご存知のこと思います。音声研究のエリアでも例外ではなく、今回の会議で発表されたほとんどの研究では、何らかの形でディープラーニングが用いられています。音声業界では特に、end-to-endと注意機構と呼ばれている技術がホットな話題であり、今回の会議でも盛んに議論されていました。end-to-endは簡単に言えば入力と出力だけを学習データとして与えて、中間で発生する必要な処理は全てニューラルネットワークに自動学習させるというものです。音声認識で言えば,人の声のデータと、そのデータが何と発話しているかのテキストの組み合わせだけを与えて,ネットワークの学習を進めるというものです。

 

一方、注意機構はその名の通り、入出力全体を均一に処理するのではなく、その中でも特に重要な部分に焦点を当てて特別な処理を行うメカニズムのことを言います。注目すべき部分とそうではない部分に強弱をつけるということは人間も無意識のうちにやっているので,直感的にわかりやすいかもしれません。データのどのような部分にどのように焦点を当てると効果的かという発表が数多くありました。

 

ディープラーニング技術を用いて何らかのシステムを構築しようとすると、その目的に応じた豊富な学習データが必要となるのですが、学習データの収集というのは思いのほか金銭的・時間的コストがかかります。これがシステム構築にあたっての阻害要因になることが多いことから、学習データを人工的に生成しようと試みもいくつかありました。例えば、「成人女性の声が子供用のデータに使えるか試してみた」、「音声合成で作った声を音声認識の学習データに使ってみた」などです。実は、前者の方は私の共著者としての研究発表で、子供の話し方と大人の話し方の違いを統計的に解析して、成人女性の声にある種の変換を加えて子供用音声認識のための擬似学習データの生成を試みたものです。この他にもう一件発表しているのですが、そちらはより専門性の高い内容ですので、紹介は別の機会に譲りたいと思います。

 

学術系の国際会議に参加すると、自分の成果のアピールだけでなく、最新の技術動向や,各研究機関がどのような話題に興味を持っているかなどを知ることができ,非常に有意義な時間を過ごすことができます。また,技術者同士のコネクションもできます。国内外の研究者仲間との懇親会も非常に楽しいです。発表がなくても聴講目的での参加はできますので、一度どこかの会議に参加してみるのもよいのではないでしょうか。

 

Takashi Fukuda/ 福田 隆
Research Staff Member, Speech Technology
IBM Research AI/ IBM Japan

More Data Science and AI stories

「みんなみんなみんな、咲け」ローランズ代表 福寿満希さん 講演&トークセッション(前編)[PwDA+クロス11]

IBM Partner Ecosystem

日本IBMは、毎年12月初旬の障害者基本法による障害者週間に重ねて、「PwDA+ウィーク」を開催しています(「PwDA+」は「People with Diverse Abilities Plus Ally(多様な能力を持 ...続きを読む


企業の垣根を越えて:生成AI活用アイデアソンをトヨタファイナンス様とIBMが共同開催

Client Engineering

  トヨタファイナンス株式会社IT本部イノベーション開発部部長の松原様の呼びかけにより4社のITベンダーが参加した生成AIアイデアソンが10月7日に開催し、成功裏に幕を閉じました。   ~トヨタファイ ...続きを読む


ServiceNow x IBM、テクノロジーの融合で地域の特色を活かしたDXを推進

IBM Consulting, デジタル変革(DX), 業務プロセスの変革...

ServiceNowと日本IBMグループでは、両社のテクノロジーを融合させ新たな価値を提供することで、日本の地域社会をより豊かにする取り組みを戦略的に進めています。 2024年12月からは「IBM地域ServiceNow ...続きを読む