Data Science and AI

AIタスクの実行に必要な消費電力を大幅に削減するIBM Researchの最新プロトタイプ・チップ

2023年08月28日

カテゴリー Data Science and AI | IBM Data and AI | IBM Watson Blog

記事をシェアする:

IBMは8月24日にNature誌に発表した論文で、自然言語AIタスクを推定14倍のエネルギー効率で処理できるアナログAIチップを作ることが可能であることを示しました。

私たちはまだAI革命の入り口に立ったばかりですが、人工知能はすでに私たちの生活や働き方に革命を起こし始めています。しかし、ひとつ問題があります。AIテクノロジーは信じられないほど電力を消費するのです。ある試算によれば、大規模なAIモデルを稼働させるのに、平均的なアメリカ車がその耐用年数中に排出するよりも多くの排出ガスが発生するといいます。

モデルの設計方法からモデルを実行するハードウェアに至るまで、エネルギー効率における新たなイノベーションがAIの未来には必要です。そして、気候変動は世界にとってますます看過できない脅威であるので、二酸化炭素排出量の急増を起こさないようなエネルギー効率の向上がAIに不可欠です。

そのような背景に対し、AI効率化のための最新のブレークスルーが、IBM Researchの超低消費電力アナログ・チップによってもたらされました。8月24日にNature誌に掲載された、世界中のIBM研究員による共著論文は¹、高いエネルギー効率で音声認識を行うアナログAIチップの試作品を紹介しました。このアナログ・チップは2つのAI推論実験において、従来の完全にデジタルなデバイスと比較して、同じように確実にタスクを実行しながら、より速く、より少ないエネルギー消費を実現しました。

AI推論のためにアナログ・チップを設計するというコンセプトは新しいものではなく、研究者たちは何年も前からこのアイデアを考えてきました。2021年にIBMのチームは、相変化メモリ（PCM）を使ってニューラルネットワークの重みを物理的に直接エンコードすることができるチップを開発しました。しかし、この分野の今日までの研究は、今や一般的になっている大規模なAIモデルにこのようなチップがどのように適用できるかは示してきませんでした。例えば、巨大で有名なモデルの1つであるGPT-3は、1750億のパラメーター（重み）を持っています。

【PCM】相変化メモリ（PCM）は、電気パルスを材料に印加するとコンダクタンスが変化することを利用して動作します。材料はアモルファス相と結晶相の間で相変化し、低い電気パルスはデバイスを結晶的に変化させ抵抗値を小さくし、高い電気パルスはデバイスをアモルファスにして抵抗値を大きくします。通常のデジタルなシステムで記録される情報は0または1だけですが、PCMデバイスはアモルファス状態と結晶状態の間の連続した値としてその状態を記録します。この値はシナプス重みと呼ばれ、各PCMの物理的な原子の配置に保存されます。このメモリは不揮発性であるため、電源を切っても重みの値は保持されます。

IBM Researchのチームが設計したチップでは、1チップあたり3,500万個の相変化メモリ・デバイスをエンコードできます。言い換えれば、最大1,700万個のパラメーターを持つモデルを実装できるということです。これはまだ、今日の最先端の生成AIモデルに匹敵するサイズではありませんが、このチップを複数組み合わせることで、デジタルのチップと同じくらい効果的に実際のAIユースケースの実験に取り組むことができるようになりました。

チームが選択したアプローチは、ディープ・ラーニングの計算の主要部分を占める積和演算(MAC)を最適化することでした。チームは、抵抗変化型不揮発性メモリ(NVM)デバイスのアレイの行に電流を流し、列に沿って電流を集めることによって、メモリ内で積和演算を実行できることを示しました。これにより、チップのメモリ領域と演算領域の間や、チップ間で重みを移動させる必要がなくなります。また、アナログ・チップは多くの積和演算を並行して実行できるため、時間とエネルギーの節約にもなります。

【積和演算(MAC)】特にデジタル信号処理において積和演算とは、2つの数値の積を計算し、アキュムレーター（CPUの一部で演算処理を行う部分）に加算する処理であり、基本的な演算単位であると言えます。

アナログのコンセプトには大きな可能性がありますが、チップの設計と製造には大きな課題もあります。すなわち、アナログ計算は原理的に不正確であること、大規模な NVM を高い歩留まりで製造でき、また従来のデジタルシステムとアナログチップを接続できる、新しい半導体プロセスを開発しなければならないことです。しかし、IBMの研究者たちが行ってきた研究は、アナログ・チップがデジタルのチップと同じぐらい活躍できる可能性を指し示しています。

アナログAIハードウェアのテスト

IBM Researchのチームは、設計したアナログ・チップの有効性をテストするために2つの実験を考案しました。1つ目は、キーワードの発話検出です。研究チームは、「Hey Siri」や「Hey Google」と大声で言えばスマートスピーカーが反応するのと同じように、このチップを使って特定の話し言葉を認識できることを確認しました。彼らが構築した12単語を聞き分けるアナログ・チップのシステムは、ソフトウェアで実装した従来のシステムと同等の精度で、しかもかなり高速にそれぞれの単語に反応することができました。今日、特定のキーワードが発話されるのを待ち、聞き取るシステムには待機時にも電力が必要ですが、チームが作成した設計では、モデルの重みがチップ上の不揮発性メモリーに保存されているため、不要なときには電源を落とすことができます。

IBM Researchの最新のアナログAIチップのプロトタイプ

チームは、ベンチマークとコラボレーションのためのサイトであるMLCommonsにアップロードされたモデルを利用して、設計したデモ・システムと他のデジタル・ハードウェアの比較を行いました。MLCommonsによって開発された MLPerfリポジトリのベンチマーク・データによって、IBMのプロトタイプは、高い精度を維持しながら、MLPerfで同じネットワーク・カテゴリーに提出された最良の推論システムよりも7倍高速であるということが示されました。IBMのモデルは、ハードウェアを意識した学習をGPU上で行った後に、アナログAIチップ上にデプロイされたものでした。

2つ目の実験はかなり大規模なもので、アナログ・チップ上に構築された生成AIシステムがデジタル・チップの代わりに使用される可能性を示唆しています。この実験では、大規模で複雑なモデルを実装することを目的として5つのチップを繋ぎ、チップ外のデジタル計算をシミュレートしてアナログAIのスケーラビリティーを示しました。研究チームは、MLPerfで見つけたリカレント・ニューラル・ネットワーク・トランスデューサー（RNNT）音声認識モデルを走らせて、人が話していることを一文字ずつ書き起こしました。RNNTは、バーチャル・アシスタント、メディア・コンテンツの検索や自動字幕システム、医療文書作成や口述筆記など、今日の多くの実世界アプリケーションで普及しています。

このシステムは、合計5つのチップ上にある1億4,000万個のPCMデバイスに4,500万個の重みを記憶し、デジタルのハードウェアに非常に近い精度で、人が話している音声を取り込み、書き起こすことができました。最初のデモとは異なり、このデモは完全なエンド・ツー・エンドではなく、チップ外のデジタル計算が必要でしたが、もしチップ上に実装されていたとしても、エネルギー効率は現在市販されている製品よりも高くなることが予想されます。

このタスクについても研究チームはMLCommonsにアップロードされたデータを使って、デジタル・ハードウェア上で動作するRNNTと提案システムの有効性を比較しました。MLPerfのデータによると、IBMのプロトタイプは、比較対象のシステムよりもワットあたりの性能、つまり効率が約14倍高いと評価されました。過去に行った実験は小規模すぎて比較できなかったのに対して、このアナログ・システムはIBMの研究員がMLPerfを使って実際にテストできた初めてのシステムということになりました。

アナログAIの次の展開

アナログAIが解決できるAIの問題は自然言語タスクだけではありません。IBMの研究員は他の多くの用途にも取り組んでいます。今月初めにNature Electronics誌に掲載された論文でIBMの研究チームは、画像認識のためのCIFAR-10画像データセットで高精度を達成できるスケーラブルなデジタル・アナログ混在アーキテクチャーに、エネルギー効率の高いアナログ・チップ設計を使用することが可能であることを示しました。

これらのチップは、東京、チューリッヒ、ニューヨーク州のヨークタウンハイツ、カリフォルニアのアルマデン研究所のIBM研究員によって考案・設計され、外部の製造会社によって製造されました。相変化メモリと金属配線層は、アルバニー・ナノテク・コンプレックスにあるIBM Researchのラボで加工され、検証されました。

大規模アレイや並列データ転送など、今回Natureで発表された研究の利点を、Nature Electronics論文で発表されたチップのデジタル演算ブロックの能力と組み合わせることを考えれば、高速で低消費電力のアナログAI推論アクセラレーターのビジョンを実現するために必要な構成要素の多くが見えてきます。そして、これらの設計をハードウェアを意識した学習アルゴリズムと組み合わせることで、研究チームは、将来、幅広いAIモデルに対して、ソフトウェア実装されたニューラル・ネットワークの精度と同等の精度をアナログAIデバイスに実装できることを期待しています。

この研究はアナログAIシステムにとって大きな前進ではありますが、この種のデバイスを搭載したマシンが市場に出回るようになるまでには、まだやるべきことがたくさんあります。チームの近い将来の目標は、上記の2つの研究を1つのアナログ・デジタル混在チップに統合することです。チームはまた、基盤モデルをどのようにチップに実装できるかも検討しています。

アナログAIは現在、今日のデジタル・システムが取り組んでいるのと同じAIの問題を解決できるようになる方向へ道を歩んでいます。そして、私たちが現在使用しているデジタル・システムと融合した、低消費電力のアナログAIのビジョンはますます明確になってきています。

¹ Ambrogio, S., Narayanan, P., Okazaki, A. et al. An analog-AI chip for energy-efficient speech recognition and transcription. Nature 620, 768–775 (2023).↩

この記事は英語版IBM Researchブログ「IBM Research’s newest prototype chips use drastically less power to solve AI tasks」（2023年8月24日公開）を翻訳し一部更新したものです。

AI IBM Research

Data Science and AI

AIタスクの実行に必要な消費電力を大幅に削減するIBM Researchの最新プロトタイプ・チップ

アナログAIハードウェアのテスト

アナログAIの次の展開

Retrieval-Augmented Generation(RAG)とは？

Pla-chain（プラ・チェーン）・ラウンドテーブルレポート

最近の投稿

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ

IBM Cloud Blog, IBM Data and AI

データ・ロードマップ

IBM Data and AI

Data Science and AI

AIタスクの実行に必要な消費電力を大幅に削減するIBM Researchの最新プロトタイプ・チップ

アナログAIハードウェアのテスト

アナログAIの次の展開

Retrieval-Augmented Generation(RAG)とは？

Pla-chain（プラ・チェーン）・ラウンドテーブルレポート

最近の投稿

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ

IBM Cloud Blog, IBM Data and AI

データ・ロードマップ

IBM Data and AI

フォローする