IBM Power

Summitへの道程：HPCのための次なるマイルストーン

2017-11-14

カテゴリー IBM Power

記事をシェアする:

ハイ・パフォーマンス・コンピューティング(HPC)を取り巻く環境は激しいペースで進化を続けています。そして、パフォーマンスへの要求が高まる一方で、ムーアの法則をめぐる状況の変化の大きさなどから、HPCは重要な変曲点を迎えている、とすら言われています。

既に、企業や研究機関は、アクセラレーションのようなシステム・レベルのイノベーションの活用や、アナリティクスのHPCワークロードへの組み込みに挑戦しています。同時に、機械学習とディープラーニングを活用して構築されたアプリケーションは厳しい要求をシステムに突きつけています。ハードウェア・パフォーマンスの向上に対して、従来通りのマイナーなコード調整だけでは、もはや充分な対応とはいえないのです。

多くのHPC関係者や組織にとって、重要な意思決定が必要となっています。多様化するHPCへの要求には、オープンなエコシステムによってのみ対応できることから、IBMは、Google、Mellanox、NVIDIAといった企業と提携してOpenPOWER Foundationを設立し、POWERアーキテクチャーのCPUを次世代に導くことに専念しました。

OpenPOWERによるHPCへのデータ・セントリックのアプローチ

2014年、「CORAL（オークリッジ国立研究所、アルゴンヌ国立研究所、ローレンス・リヴァモア国立研究所における米国エネルギー省主導のスーパーコンピューター計画）」プログラムにおける2つのスーパーコンピューター・システムを、IBMはHPCの変革を目指す破壊的なアプローチによって受注しました。

NVIDIAとMellanoxとの協業によって、私たちはCORALに対して「データ・セントリック」のアプローチを提示しました。これは、システム内のデータが存在するあらゆる場所に処理能力を組み込むアーキテクチャーであり、アナリティクス、モデリング、可視化、シミュレーションを集約させ、新たな洞察を驚くべきスピードで導くことができます。

米国エネルギー省との契約締結から３周年を迎えた今、私たちはNVIDIAのVolta GPU(NVIDIA Tesla V100)を搭載する次世代のIBM Power Systemsを、オークリッジ国立研究所とローレンス・リヴァモア国立研究所に導入するプロジェクトに取り組んでいることをお知らせします。

動き出す、2つのスーパーコンピューター・システム

2つのスーパーコンピューター・システム（オークリッジ国立研究所のSummitとローレンス・リヴァモア国立研究所のSierra）は現在導入作業中で、来年初頭に完成が予定されています。

どちらのシステムも印象的です。

Summitは、個々のアプリケーション・パフォーマンスをTITANの5倍から10倍向上させることが期待されており、SierraはSequoiaの4倍から6倍の持続的なパフォーマンスを発揮することが期待されています。

オークリッジ国立研究所は、Summitを用いて「私たちが誰であるかについて、地球上の私たちの居場所について、私たちの宇宙について」といった課題に、精緻かつ忠実に取り組む予定です。そして、最も重要な事柄として、私たちの世代の最も重要な技術開発の1つであるAI(Artificial Intelligence)の限界を拡大するでしょう。

AIと未来のために構築

しかし、AIという新たなワークロードは従来のHPCワークロードとは大きく異なります。上述したSummitとSierraのパフォーマンスの値は、ディープラーニングにおけるアルゴリズムの要件とは同一ではありません。AIのワークロードにおけるボトルネックは、コンピューティング能力やネットワーク・パフォーマンスではなく、CPUレベルでのデータ移動です。POWER9プロセッサーを搭載するシステムは、この課題に対応する設計です。

「私たちは、オークリッジ国立研究所のスーパーコンピューター Summitの構築が加速するのを楽しみにしています。システムのための基盤が完成して、IBM POWER9 コンピューティング・ノードの導入を開始しました。2018年初頭には、Summitが世界で最も高速のスーパーコンピューターになる最終的なビルドが予定されています。NVIDIA Volta GPUと組み合わせたIBM POWER9 CPUの高度な性能は、DOE(米国エネルギー省)のミッションクリティカルなアプリケーションの計算性能の大幅に向上させます。」(Buddy Bland, Oak Ridge Leadership Computing Facility Director)

POWER9プロセッサーは、PCIe Gen-4、次世代のNVIDIA NVLink 2.0、一貫性のあるメモリー、AIワークロードのスループットを最大化する機能などを活用します。POWER9プロセッサーは、過剰なノード数に起因するスペース・コストと制御不能な潜在的に電力消費量を低減して、少ないノード数で大規模なパフォーマンス(Summitの目標能力は4,600ノードで200ペタフロップス)を実現します。

一方、アルゴンヌ国立研究所に構築されるエクサスケールのスーパーコンピューター・システム(Auroraの目標能力は1エクサフロップス(1,000ペタフロップス))は、50,000を超えるノード数が必要と想定されており、完成予定時期は2021年です。

既に、今年、IBMはディープラーニング高速化技術「Distributed Deep Learning」を活用して、TensorFlowやCaffeを256 GPUでスケーリングすることで、トレーニングの所用時間の16日から7時間への短縮を実現しています。そして、SummitやSierraを構成する数千のノードにわたり、従来の100倍以上の数のGPUが搭載されるため、両システムで設定できるディープラーニングのベンチマークの理論上の制限は、もはや想像することもできません。