Data Science and AI

AI推論とは？

2023年10月12日

カテゴリー Data Science and AI | IBM Data and AI | IBM Watson Blog

記事をシェアする:

推論とは、与えられたばかりのデータを、学習済みのAIモデルにかけて、予測をしたり問題を解決するプロセスです。

AIの推論とは、AIモデルの本番利用であり、学習中に学習した情報をいかにうまく適用し、予測をしたり問題を解決したりできるかを実際に試すことを言います。たとえば、受信メールにスパム判定をしたり、会話を書き起こしたり、報告書を要約したりといったことを正確にしなければいけません。

推論の際にAIモデルは、リアルタイムで与えられたデータに対して判断を下します。これは本質的には、その与えられたユーザーのクエリ・データと、学習中に処理され重み（パラメーター）として保存された情報を比較する作業になります。モデルが返す回答は、スパムの特定、音声のテキスト化、長い文書の要点の抽出など、タスクによって異なります。AIの推論の目標は、実用的な結果を計算して出力することです。

学習と推論は、勉強と勉強したことを使ってみることの違いと考えることができます。学習中、ディープラーニング・モデルは、学習セットの例がどのように関連しているかを計算し、人工ニューロン間をつなぐ重みにコード化します。そして求められた時に、この保存されたデータ表現を、新しい未知のデータを解釈するために一般化します。それは人間が持っている知識を新しい単語の意味を推測したり、新しい状況を理解したりするのに使うのと同じです。

推論のコスト

ディープラーニング・モデルの人工ニューロンは、脳のニューロンからヒントを得たものですが、その効率においては足元にも及びません。今日の生成モデルを1つ学習するだけでも、コンピューターの処理に数百万ドル（数億円）の費用がかかります。しかし、AIモデルの推論にかかる費用はなお高額なのです。誰かがコンピューターやエッジの携帯電話でAIモデルを実行するたびに、何キロワット時、何ドルといったコストがかかり、そして二酸化炭素の排出が行われるのです。

AIモデルのライフサイクルの最大90％は推論に費やされるため、AIのカーボンフットプリントも大部分は、AIモデルでサービスを提供する部分で行われます。ある試算によれば、大規模なAIモデルを稼働させると、平均的なアメリカ車の製品寿命よりも多くの炭素が大気中に排出されると言います。

「モデルの学習への投資は一度ですが、推論は継続的に行われていきます」と、IBM Researchで基盤モデルの専門家であるRaghu Gantiは言います。「あるひとつの企業で、Watson Assistantを利用したチャットボットを毎日数百万人が利用するかもしれません。これは途方もない量のトラフィックです」。

このようなトラフィックとAI推論は、コストがかかるだけでなく、ユーザーにとってイライラするような速度低下を招く可能性があります。そのため、IBMや他のハイテク企業は、より良いユーザー体験を提供し、AIの運用コストを下げるために、推論を高速化する技術に投資してきました。

より高速なAI推論

AIモデルの実行速度はITスタックで決まります。ハードウェア、ソフトウェア、ミドルウェアの各レイヤーで行われる改良は、それぞれ単独で、あるいは組み合わせで推論高速化の効果があります。

より強力なコンピューター・チップを開発することは、性能を向上させる明らかな方法です。IBM Researchの重点分野のひとつは、ディープラーニングを支配する数学演算である行列乗算に最適化されたチップを設計することです。IBMのプロトタイプ人工知能ユニット（AIU）やアナログAIチップの研究は、この種の数値演算に最適化されたハードウェアの例です。

AIモデルをより高速に実行させるもう一つの方法は、モデル自体を縮小することです。不要な重みを刈り込む（プルーニングする）ことと、量子化によってモデルの精度を下げることは、推論時に優れた性能を発揮する、より効率的なモデルを設計するための2つの一般的な方法です。

推論を高速化する3つ目の方法は、AIモデルを、AIタスクを解決するためにさまざまなハードウェア・バックエンドが実行できる処理に変換するミドルウェアのボトルネックを取り除くことです。これを実現するために、IBMはオープンソースのPyTorchコミュニティーの開発者と協力しました。

Linux Foundation の一部である PyTorchは、ハイブリッド・クラウドでAIワークロードを実行できるように、ソフトウェアとハードウェアを結びつける機械学習フレームワークです。PyTorchの主な利点の1つは、GPU、TPU、IBM AIU、そして従来のCPUなど、あらゆるハードウェア・バックエンドでAIモデルを実行できることです。Red Hat OpenShift経由でアクセスできるこのユニバーサル・フレームワークにより、機密性の高いAIワークロードをオンプレミスで実行し、一方で他のワークロードをハイブリッドクラウド上のパブリック・サーバーやプライベート・サーバーで実行するという選択が可能になります。

ハイブリッド・クラウドのための低コスト推論

ミドルウェアはスタックの中で最も目立たないレイヤーかもしれませんが、AIのタスクを解決するためには不可欠です。実行時に、このミドルレイヤーのコンパイラーはAIモデルのハイレベル・コードを、予測を行うための数学的演算を表す計算グラフに変換します。バックエンドのGPUとCPUは、これらの演算を実行して解を出力します。

大規模なディープラーニング・モデルの処理には、大量の行列乗算が含まれます。このため、不要な計算を少量でも削減すれば、大きな性能向上につながります。昨年、IBM ResearchはPyTorchコミュニティーと協力し、PyTorchに2つの重要な改良点を採用しました。PyTorch Compileは、通信グラフのノード数を減らし、CPUとGPU間のラウンドトリップ数を減らすことができるように自動グラフ融合をサポートしました。PyTorch Accelerated Transformersは、大規模な生成モデルの主要なボトルネックであるメモリアクセスを最適化することで、アテンションの計算を効率化するカーネル最適化をサポートしました。

最近、IBM Researchは3つ目の改良点として、並列テンソルを追加しました。AI推論における最大のボトルネックはメモリです。700億パラメーターのモデルを実行するには、少なくとも150ギガバイトのメモリが必要で、これはNvidia A100 GPUが持つメモリの2倍近くです。しかし、コンパイラーがAIモデルの計算グラフを戦略的な複数チャンクに分割できれば、これらの演算をGPUに分散して同時に実行できます。

推論速度は、AIモデルが1トークン（単語または単語の一部）を生成するのにかかる時間、レイテンシーと呼ばれるもので測定されます。IBM Researchが700億パラメーターのLlama2モデルで、前述の３手法（グラフ・フュージョン、カーネル最適化、並列テンソル）を組み合わせたソリューションをテストしたところ、16ビット推論で1トークンあたりのレイテンシーは29ミリ秒を達成しました。このソリューションが実用化されれば、現在の業界標準より20％改善されることになります。

これらの技術はそれぞれ、推論速度を向上させるために以前から使用されていましたが、3つすべてを組み合わせたのは今回が初めてです。IBMの研究者たちは、各技術が他の技術の利点を損なうことなく連携する方法を考えなければなりませんでした。IBM Researchの推論最適化の専門家である Mudhakar Sriatsaは、「3人がお互いに喧嘩しているようなもので、仲が良いのは2人だけです」と語りました。

今後の展開

推論速度をさらに向上させるため、IBMとPyTorchは、PyTorchのランタイムとコンパイラーにさらに2つの新手法を追加し、スループットを向上させる予定です。1つ目、動的バッチ処理では、ランタイムが複数のユーザー・リクエストを1つのバッチにまとめ、各GPUがフル稼働できるようにします。2つ目の量子化では、コンパイラーが計算グラフを低精度で実行して、精度を落とすことなくメモリへの負荷を軽減できるようにします。IBMの研究者たちと一緒にこの技術やその他の技術について深く掘り下げるために、サンフランシスコで10月16～17日に開催される2023 PyTorch Conferenceにぜひご参加ください。

この記事は英語版IBM Researchブログ「What is AI inferencing?」（2023年10月5日公開）を翻訳し一部更新したものです。

Data Science and AI

AI推論とは？

推論のコスト

より高速なAI推論

ハイブリッド・クラウドのための低コスト推論

今後の展開

最近の投稿

IBM Data and AI, IBM Partner Ecosystem

IBM Cloud Blog, IBM Data and AI

フォローする