IBM Data and AI
より高速でエネルギー効率に優れたAIを実現する新しいチップ・アーキテクチャー
2023年10月23日
カテゴリー Data Science and AI | IBM Data and AI
記事をシェアする:
カリフォルニアにあるIBM Researchの研究所から、長い時間をかけて生み出された新しいチップのプロトタイプは、AIがどんな場面でどのように効果的に使われるかを根底から覆す可能性を秘めています。
私たちは今、AIの言わばカンブリア爆発の真っただ中にいます。過去10年間で、AIは机上の理論や小規模なテストから企業規模の実用へと発展しました。しかし、AIシステムを実行するために使用されるハードウェアは、ますます強力になってはいるものの、今日のAIを念頭に置いて設計されたものではありません。AIシステムの規模が拡大するにつれ、コストは跳ね上がっています。また、ムーアの法則(プロセッサーの回路密度が毎年2倍になるという理論)には遅れが見られてきています。
しかし、カリフォルニア州アルマデンにあるIBM Researchの研究所から発表された新たな研究は、20年近い歳月をかけて実を結んだもので、強力なAIハードウェア・システムを効率的にスケールアップする方法を大きく変える可能性を秘めています。
半導体産業が誕生して以来、コンピューター・チップは主に、処理する情報を格納する処理ユニットとメモリが別に格納されるという、同じ基本構造に従ってきました。この構造はシンプルな設計を可能にし、数十年にわたるスケールアップが実現しましたが、その一方で、チップ内のメモリ、処理ユニットとその他のデバイスの間でデータをやりとりし続けるのに時間とエネルギーがかかるというフォン・ノイマン・ボトルネックと呼ばれる問題を生みました。IBM ResearchのDharmendra Modhaと彼の同僚による研究は、脳の計算方法からヒントを得て、これを変えることを目指しています。Modhaは、「これはフォン・ノイマン・アーキテクチャーとはまったく異なる道を切り開くものです」と言います。
この8年間、ModhaはNorthPoleと呼ぶニューラル推論用の新しいタイプのデジタルAIチップに取り組んできました。これはModhaが2014年以前に取り組んでいた、脳に着想を得たチップ TrueNorthの拡張版です。一般的なResNet-50画像認識とYOLOv4物体検出モデルのテストにおいて、この新しいプロトタイプ・デバイスは、現在市販されているどのチップよりも高いエネルギー効率、高いスペース効率、低いレイテンシーを実証しましたが、それはTrueNorthのおよそ4,000倍高速です。
そのNorthPoleチップの最初の有望な結果が、2023年10月20日にScience誌に発表されました。NorthPoleは、エネルギー、スペース、時間効率の大幅な改善を実現するチップ・アーキテクチャーのブレークスルーであるとModhaは言います。ResNet-50モデルをベンチマークとして使用した時に、NorthPoleは一般的な12nmのGPUや14nmのCPUよりも大幅に高い効率を持ちます (NorthPole自体は12nmノードの処理技術で構築されています)。どちらの場合も、電力1ジュールあたりで処理できるフレーム数でいえば、NorthPoleの方が25倍高いエネルギー効率です。NorthPoleはレイテンシー性能でも他より優位であり、また、計算に必要なスペースを10億トランジスタあたりで1秒間に処理できるフレーム数という観点で評価しても他者を凌駕します。ResNet-50についてNorthPoleは普及しているすべての主要なアーキテクチャーを上回っているとModhaは言いますが、それにはもっと高度な技術プロセスを使用した、たとえば4nmプロセスで実装されたGPUさえ含まれています。
なぜ、既存のチップよりもそんなにも効率よく計算できるのでしょうか?NorthPoleの最大の違いのひとつは、デバイスに必要なメモリがチップの外に接続されているのではなく、全てチップ自体に搭載されていることがあります。フォン・ノイマン・ボトルネックが存在しないため、このチップはすでに市場に出回っている他のチップよりも大幅に高速なAI推論を実行できます。NorthPoleは12nmノードプロセスで製造されており、800平方mmに220億個のトランジスタを搭載しています。そして256個のコアを持ち、1コア1サイクルあたり8ビット精度で2,048回の演算が可能です。さらにこれが4ビット精度と2ビット精度になれば、それぞれ2倍と4倍の演算ができる可能性があります。「ネットワーク全体をチップ内に構成したということです」とModhaは言います。
Modhaは次のように言います。「アーキテクチャー上、NorthPoleは演算とメモリの境界を曖昧にしています」「個々のコアを観察すると、NorthPoleは演算装置に近いところにあるメモリ(memory-near-compute)として見え、チップ外からの入出力の視点で考えると、アクティブ・メモリとして見えます」。これにより、NorthPoleはシステムへの統合が容易になり、ホストマシンの負荷を大幅に軽減します。
しかし、NorthPoleの最大の利点は制約でもあります。NorthPoleはそのチップ上にあるメモリにある情報だけに容易にアクセスすることができます。別の場所にある情報にアクセスしなければならない場合、チップ上に情報があった時のようなスピードアップはまったく得られません。しかし、スケールアウトと呼ばれるアプローチを使うことにより、NorthPoleはもっと大規模のニューラル・ネットワークを実際にサポートすることができます。そのアプローチでは、ニューラル・ネットワークをNorthPoleのモデル用メモリ内に収まる小さなサブ・ネットワークに分解した上で、複数のNorthPoleチップ上に載ったこれらのサブ・ネットワークを接続します。その意味では、NorthPole(またはNorthPoleの集合体)は、特定のアプリケーションに有用なモデルの多くを実装するのに十分なメモリを備えているとも言えますが、かといってこのチップは何にでも使えることを意図しているわけではありません。Modhaは「GPT-4をこの上で走らせることはできませんが、企業が必要とする多くのモデルには対応できるでしょう。もっとも、NorthPoleは推論専用ではありますが。」と言います。
NorthPoleの利点は、かさばる液冷システムが不要であることを意味しています。ファンとヒートシンクで十分すぎるほどであり、かなり狭いスペースにも導入できるということです。
NorthPoleの応用の可能性
NorthPoleチップの研究はまだ進行中ですが、その構造は、既に確立されたAIのユースケースだけでなく、新しいユースケースを切り開くことも期待されています。
テストでNorthPoleチームは主に画像処理関連の用途に焦点を当てましたが、これはプロジェクトの資金が米国防総省から提供されたためでもあります。主な用途としては、物体検出、画像セグメンテーション、ビデオ分類などが検討されました。しかしそれだけでなく、自然言語処理(エンコーダのみのBERTモデル)や音声認識(DeepSpeech2モデル)など、他の分野でもテストは行われました。チームは現在、デコーダのみの大規模言語モデルをNorthPoleスケールアウト・システムにマッピングすることを模索しています。
このようなAIタスクといえば、自律走行車、ロボット、デジタル・アシスタント、空間コンピューティングなど、あらゆる種類の未来的なユースケースが思い浮かびます。リアルタイムで大量のデータ処理を必要とする多くの種類のエッジ・アプリケーションでは、NorthPoleが特に活かされる可能性があります。NorthPoleはたとえば自律走行車を、地図とルートがある限定的な状況でしか動作しないのではなくて、熟練した人間のドライバーでも難しいような現実世界のレアなエッジケースの状況にも対応して考え、反応することができるような機械に進化させるのに、鍵となる役割を果たすかもしれません。そのようなエッジケースこそが、将来のNorthPoleのアプリケーションのスイートスポットなのです。NorthPoleは、農業を監視し野生生物の個体数を管理する衛星、より安全で渋滞の少ない道路を実現するための車両や貨物のモニタリング、ロボットの安全な操作、より安全なビジネスを実現するためのサイバー脅威の検知などを可能にするでしょう。
次の展開
しかしこれはNorthPoleについてModhaがやらなければならない仕事の始まりにすぎません。CPUの現在の最先端水準は3nmであり、IBM自身も2nmノードの研究にすでに数年を費やしています。つまり、NorthPoleは基本的なアーキテクチャーの革新に加えて、何世代か先のチップ製造技術を使うことでも、その効率と性能の向上を実現し続けられる可能性があるということです。
しかし、プロフェッショナルとしての19年間のキャリアの間ずっと、脳から着想を得たデジタル・チップに取り組んできたModhaにとって、これは重要とはいえマイルストーンのひとつにすぎません。Modhaは、脳が人間の知る限り最もエネルギー効率の高いプロセッサーであることを知ってから、それをデジタルで再現する方法をずっと模索してきたのです。TrueNorthは、脳のニューロンの構造にインスピレーションを受けて設計されていて、ミツバチの脳と同じくらいの数の「シナプス」をデジタルで搭載していました。しかし2015年、サンフランシスコの公園のベンチに座っていたModhaは、それまでの自分の仕事を思い返して考えていました。彼は、従来的な処理デバイスの利点を、記憶と処理が脳全体に散在する脳の処理構造と融合させることで、きっと何かが生まれるという確信を持っていました。Modhaによれば、その答えは「シリコンのスピードを持つ、脳から着想を得たコンピューティング」でした。
それから8年間、Modhaと彼の同僚たちは、このビジョンを現実のものにするという目標にひたすら没頭しました。Modhaのチームは、アルマデン研究所で人目につかない努力をしながら、今年になるまで、講演をしたり論文を発表したりすることはありませんでした。このチームでは一人ひとりが異なるスキルと視点を持ちながら、全員が協力し、個人の能力の総和よりもはるかに大きい成果をチームとして達成してきました。現在の計画は、NorthPoleで何ができるかを示すと同時に、設計をより小さなチップ製造工程にどのように反映させるかを模索し、アーキテクチャーの可能性をさらに追求することです。
この研究は、脳のように働くコンピューターを作るにはどうしたらいいかという単純な発想から始まり、何年にもわたる基礎研究の末に答えを導き出しました。これは、コンピューティングにおける大きな疑問と、それが私たちをどこへ導いてくれるのかを探求する時間と空間がある、IBM Researchのような場所でしか実現できないことです。「NorthPoleは、シリコン・ウェハーという鏡の世界に、脳を少しだけ映してみたものなのです」とModhaは言っています。
この記事は英語版IBM Researchブログ「A new chip architecture points to faster, more energy-efficient AI」(2023年10月20日公開)を翻訳し一部更新したものです。
データ・ロードマップ
IBM Data and AI
生成AIによるビジネス革新は、オープンなデータストア、フォーマット、エンジン、製品指向のデータファブリック、データ消費を根本的に改善するためのあらゆるレベルでのAIの導入によって促進されます。 2023 オープン・フォー ...続きを読む
AIロードマップ
IBM Data and AI
自己教師学習された大規模なニューラル・ネットワーク、つまり基盤モデルは、AIの生産性とマルチモーダル機能を倍増します。推論と常識的な知識をサポートする、より一般的な形式のAIが登場します。 2023 基盤モデルが、自然言 ...続きを読む
Netezzaとwatsonx.dataによる生成AIのための新しいデータ統合
Hybrid Data Management, IBM Data and AI, Netezza...
注)以下の記事は英語版ブログ「Unify and share data across Netezza and watsonx.data for new generative AI applications」(2024年6 ...続きを読む