Data Science and AI

IBMとNASA、最大の地理空間基盤AIモデルをHugging Faceでオープンソース化

記事をシェアする:

NASAの衛星データへのアクセスを広げ、気候関連の科学的発見の加速を目指す


この夏は世界各地で猛暑に見舞われ、山火事や干ばつのリスクが高まっています。このような災害の影響地域を特定することは、将来どの地域が最も危険にさらされるかを予測しどこに対策を集中させるかを計画するのに役立ちます。

気候変動は多くのリスクをもたらします。衛星画像の分析をスピードアップし科学的発見を加速するAIモデルの構築に、IBMがNASAと共同で半年前に着手した理由のひとつは、地球の様相がどのように変化しているかを迅速かつ明確に理解する必要性にありました。そしてもうひとつの理由は、25万テラバイト近いNASAのミッション・データを、より多くの人が利用できるようにしたいという願いでした。

この2つの目標を推進するため、IBMは現在、オープンソースのAIプラットフォーム「Hugging Face」を通じて、その基盤モデルを公開しています。これはHugging Face上でホストされる最大の地理空間モデルであり、NASAが協力して構築した最初のオープンソースAI基盤モデルでもあります。また、このモデルは、ラベル付けされたデータが半分の量でも、最先端のディープラーニング・モデルより最大4倍速く地理空間データを分析できるとIBMは推定しています。

このモデルの商用版は、IBMのAIとデータのプラットフォームwatsonxの一部となり、IBM Environmental Intelligence Suite(EIS)を通じて今年後半に利用可能になる予定です。

Hugging Faceの製品戦略を主導するJeff Boudierは次のように言っています。「AIは依然として科学主導の分野であり、科学は情報の共有と協力によってのみ進歩することができます」「だからこそ、オープンソースのAIとモデルや、データセットのオープンな公開は、AIの継続的な進歩にとって非常に基本的で、テクノロジーの利益を可能な限り多くの人々にもたらす方法なのです」

IBMはこのモデルをファイン・チューニングし、ユーザーが過去の米国の洪水や山火事の地域を特定できるようにしました。そしてさらにファイン・チューニングを加えれば、このモデルは森林伐採の追跡、作物の収量の予測、温室効果ガスの検出と監視といったタスクにも再展開できる見込みです。

基盤モデルは非常に汎用性が高いため、このモデルをオープンソース化することで、世界中の研究者がこれを改良し、他の地理空間モデルやアプリケーションを構築する動機付けになることが期待されます。

IMPACTマネージャーでMarshallのシニア・リサーチ・サイエンティストであるRahul Ramachandranは次のように言います。「地球観測のための基盤AIモデルは、複雑な科学的問題に対処し、多様なアプリケーションへのAIの広範な展開を促進する大きな可能性を秘めています」「我々は、地球科学とアプリケーションのコミュニティーに対し、この初期的なHLS基盤モデルを様々な用途で評価し、フィードバックを共有するよう呼びかけています」

ピクセルを洞察に変える

基盤モデルを実現しているAIアーキテクチャーであるTransformerは、テキスト、音声、そして今回の場合では衛星画像など、大量の生データを、データの基本構造を捉えた圧縮表現に変換することができます。基盤モデルはこの知識を土台として、ラベル付けされたデータとチューニングを加えることで、さまざまなタスクを実行できるように仕立てることができます。

従来、衛星データの分析は、各衛星画像内の作物や樹木のような特徴に注釈を付けるのに人間の専門家が長時間の作業をしなければならなかったため、非常に手間のかかる作業でした。基盤モデルは、ラベルのない自然画像の構造を抽出することができるので、手作業でつけたラベルが少なくて済み、作業の多くを削減することができます。

IBMは1月、NASA宇宙開発協定(Space Act Agreement)に基づき、NASAのHarmonized Landsat Sentinel-2 (HLS)データセットの一部を使って、基盤モデルの学習を開始しました。ピクセルあたり30メートルの解像度を持つHLS画像は、個々の樹木を識別することはできませんが、土地利用の変化を検出するには十分の高解像度です。

画像のTransformerとマスク予測オートエンコーダーのアーキテクチャーをベースに構築されたこのモデルは、空間的なアテンション機構を時間軸にも拡張することで、衛星画像の処理に適応されています。IBMはこのモデルをAIスーパーコンピューターVelaで学習させましたが、その際には洪水や山火事による延焼跡のラベル付き画像で学習とチューニングをするのにPyTorchやその他のライブラリーを活用しました。テストでは、最新のディープラーニング・モデルと比較して、洪水火災の地域特定の精度の15%向上が確認されました。

このプロジェクトは、データとAIモデルの共有を促進するための一連のイベントである、NASAの「オープンサイエンス年(Year of Open Science)」とタイミングを合わせて実行されています。また、よりアクセスしやすく、包括的で協力的な科学コミュニティーを構築するためのNASAの10年にわたるオープンソース・サイエンス・イニシアチブの一環でもあります。

IBMがこのモデルをオープンソース化するという決定は、誰もがAIにアクセスできるようにするというIBMの長期的なコミットメントの一部でありますが、他にもポータブルなクラウド・コンピューティングを可能にするRed Hat OpenShiftのサポートから、AIのワークフローを調整し効率化するためのRayやPyTorchコミュニティーとの協業などを行っています。

Hugging Face上で公開している地理空間モデルを今すぐお試しください。

この記事は英語版IBM Researchブログ「IBM and NASA open source the largest geospatial AI foundation model on Hugging Face」(2023年8月3日公開)を翻訳し一部更新したものです。

More Data Science and AI stories

敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載

IBM Data and AI, IBM Partner Ecosystem

目次 販売管理システムを知名度で選んではいないか? 電子取引データの保存完全義務化の本当の意味 ふくろう販売管理システムは「JIIMA認証」取得済み AIによる売上予測機能にも選択肢を 「眠っているデータの活用」が企業の ...続きを読む


テクノロジーが向かう先とは〜中長期テクノロジー・ロードマップ

IBM Cloud Blog, IBM Data and AI

IBM テクノロジー・ビジョン・ロードマップ – IBM テクノロジー・アトラスを戦略的・技術的な予測にご活用いただけます – IBM テクノロジー・アトラスとは? IBM テクノロジー・アトラス ...続きを読む


データ・ロードマップ

IBM Data and AI

生成AIによるビジネス革新は、オープンなデータストア、フォーマット、エンジン、製品指向のデータファブリック、データ消費を根本的に改善するためのあらゆるレベルでのAIの導入によって促進されます。 2023 オープン・フォー ...続きを読む