AI

多言語自然言語処理研究の基礎を支える、評価尺度BLEU

2022年8月5日

記事をシェアする:

ディープラーニングが自然言語処理の世界を席巻するようになり、翻訳や要約など様々なタスクにおいて精度を向上させる新しい手法が毎日のように提案されています。
一方、精度がどのくらい向上したかを判断するための評価手法については、20年前に提案された手法が現在も頻繁に用いられています。それが、本稿で紹介する BLEU （ブルー）です。BLEUの特徴やその背景を、手法を開発した研究者のコメントとともにご紹介します。

機械翻訳や要約などの、自然言語生成タスクの精度評価に今日用いられている重要な評価尺度である「BLEU」は、今から20年前にIBMによって発表されました。

20年前に、IBMの研究員のグループは、機械翻訳の品質を評価するためのより良い方法を考えようとしました。

2000年代の初めに、AIは長文テキストを他の言語に翻訳するのに使える段階に達していました。しかしその頃は、翻訳が正確かどうかを確認する唯一の方法は、両方の言語を話すことができる人に翻訳を精査させることでした。これは時間がかかる上、大量のデータを評価するためにそのスキルのある人を多数確保することは困難です。

国防総省の新技術開発機関であるDARPA（アメリカ国防高等研究計画局）は、機械翻訳の改善と、さまざまなAIシステムの効率を測定する方法について関心を持っていました。2002年7月にフィラデルフィアで行われた計算言語学会（Association for Computational Linguistics、ACL)の第40回大会で、IBMの研究員Kishore Papineni、 Salim Roukos、Todd Ward、Wei-Jing Zhuは、評価尺度のアイディアであるBLEUを発表しました。

BLEUは機械翻訳システムの性能を評価するための自動的な尺度を導入しました。それは広く使われることになり、この業界での技術開発に非常に重要な役割を果たしてきました。20年前に発表されたこの論文は、いまや2万回近く引用されています。

Didi Global社の自然言語処理部門チーフ・サイエンティストであり、NLPの研究者として長いキャリアを持っているKevin Crawford Knight博士は「BLEUは自然言語処理の歴史で３本の指に入る重要なアイディアだと私は思います。」と言います。

この手法は、BiLingual Evaluation Understudyの略語として名付けられましたが、IBMのお気に入りの色である青色のフランス語訳にもなっています。BLEUの背後にあるアイディアは、機械翻訳のエラー率を評価するというものでした。同種のアイディアは以前から試みられてきましたが、それらは主に一単語ごとの置換誤りや挿入誤りに依存していました。

言語の翻訳では、翻訳先言語の語順は元の言語の語順とは違っていても意味はきちんと保たれることがあります。このことがあるので、BLEUの研究者たちは文章の中のn-gram、すなわち複数の単語からなる語句の頻度に着目しました。ひとつの文の中では局所的に、語の並びは意味を持つ必要があります。ところが、その文の中での語句の並び順を入れ替えてもなお意味を成すことがしばしばあります。「翻訳とは考え方を翻訳するということです。」Salim Roukos博士は言います。「その考え方の表現としてありうる言い回しのほとんどは、良い翻訳とみなすことができるのです。」

個々の単語ではなくn-gramの頻度を用いることにより、BLEUはこのような翻訳の柔軟性を考慮し、機械翻訳の結果と人間の翻訳とを比較することができます。BLEUは、人間が作った正解翻訳に含まれるn-gramの何パーセントが機械翻訳に現れるかを調べて、機械翻訳の結果に0から1のスコアをつけます。これが大きければ大きいほど、人間による翻訳と似ていて良い翻訳というわけです。

Roukos博士によれば、BLEUが良い尺度として機能する理由は、一文一文を評価するのではなくて文書の集合を一度に評価するからです。また、BLEUは作成するのにコストがかかる人間による翻訳を使い回すことによって複数の機械翻訳システムの改良方法を迅速に評価することを可能とし、評価に必要な時間とコストを劇的に削減しました。BLEUを使うことで、実験的なアイディアを試して翻訳結果が良くなったかどうかを調べるのが、速く低コストでできるようになったということです。

しかしBLEUは一夜で作られたわけではありません。Knight博士は言っています。「私はDARPAのリーダーミーティングでIBMがBLEUを紹介したときに、初めてBLEUについて聞きました。私はその部屋に質問者用のマイクが二つあったことを特によく覚えています。というのは、IBMの発表の後、私を含め聴衆が二つの長い行列を作ったからです。行列に並んだ私たちはひとりひとり、BLEUの問題点を指摘したのです。」

「専門家たちがこぞってあるアイディアを批判するとき、大抵それは実はとても良いアイディアなのです。」とKnight博士は付け加えて言いました。「私たちの研究に対してBLEUが与えた影響は即効性があり、かつ目を見張るものであったので、大部分の研究者が意見を180度変えたのでした。」

「BLEUがDARPAのミーティングで発表された後に、それについてのクレイジーなアイディアについて聞いた時のことを覚えています。」とジョン・ホプキンス大学の教授であり機械学習の著名な研究者であるPhilipp Koehn教授は言っています。「人間の評価結果との相関は非常に説得力がありました。私たちはそれまで行われていた、たとえば100文の実行例を人が眺めるというよりも優れた評価方法を求めていたのです。それまでは、ひどい場合には実行例の中から、たまたまうまくいったサンプルを選ぶということまでされていたのですから。」

最初に発表されてから20年が経ちましたが、BLEUはそのシンプルさゆえに、この分野での業界標準の評価尺度であり続けています。機械翻訳以外の多数のアプリケーションでもこのアルゴリズムは応用されています。たとえば生成型要約といった、言語を生成するNLPアルゴリズムの評価には決まって使われます。Roukos博士は言っています。「これはもはや研究分野の一部となっています。ROUGEやBLANCといった、BLEUによってインスピレーションを受けた新しい手法もあるのです。」

「その時から、BLEUは安定していることが証明されてきました。その動作もよく理解されていて、欠点すらもよくわかっています。このことは、より新しいモデルベースの評価尺度に比べても明確な利点であると言えます。私は今でもBLEU派ですよ。」とKoehn教授は付け加えました。

本記事は「The groundbreaking AI paper at the foundations of multilingual natural language processing」を抄訳し、日本向けに加筆したものです。

監訳・解説：吉田一星
東京基礎研究所ナレッジ・インフラストラクチャーマネージャー
入社以来、自然言語処理（NLP）・テキストマイニングの基盤技術の研究・製品開発・お客様向けソリューション開発に従事。現在は主に製品向けNLP技術の研究プロジェクトのマネジメントを行う。隙あらば自らプログラムを書く。