テクノロジー・リーダーシップ

気象応用AIアプリケーション開発の勘所——技術者目線のランドスケープ

記事をシェアする:

藤尾 昇平

著者:藤尾 昇平
日本IBM、東京ラボラトリー、ストラテジー&オペレーションズ所属。
入社後、大和研究所に配属、メインフレーム用端末やThinkPadのハードウェア開発に従事。なかでも設計応用・高周波利用のための電磁解析・モデリングを専門とする。後に気象解析分野にも視野を広げ、現在は機械学習等のAI技術応用手法の検討にも取り組んでいる。

2017年3月に日本IBMは、前年に買収したThe Weather Company(TWC)の気象予報技術とソリューションを用いたビジネスを開始しました。これを受けて同年5月にIBM TEC-J(Technical Experts Council – Japan)において気象データ応用AIアプリケーション検討のためのワーキング・グループを立ち上げ、本年で3期目となる活動を続けています。

近年、様々な製品やアプリケーションにAIが応用されており、製品設計・開発技術者にとっても、いわゆるデータサイエンスに関する知識や技術が必須となってきました。このため今後、従来他分野の技術を培ってきた技術者が、この領域に新しく取り組もうとするケースも増えてくると思います。そこでこのワーキング グループの2期目までをリードしてきた中で私自身が経験したことを元に、AI(Artificial Intelligence) アプリケーションを開発する上での勘所・方向性を、自身のハードウェア研究・開発を経験してきた技術者の目線で紹介したいと思います。

 

すべての基本はモデリング

AIアプリケーション開発の中でも、ここでは例として機械学習を用いたアプリケーション開発について考えたいと思います。

開発プロセスは大まかに3つの要素

  • 第1に課題設定およびデータの準備
  • 第2に学習モデル作成(モデリング)
  • 第3に学習モデルの検証および運用

という要素で構成されます。少し視点を変えてみると、これはハードウェアの開発プロセスの中での事前設計、あるいは性能確認に用いられるシミュレーション評価におけるプロセスと同様です。

具体的には、コンピュータシステムの設計において高速な電子回路を期待通りに動作させ、不要な電磁波ノイズの輻射を規制値(製品を販売する各国で定められた規制値)以下となる様に設計するため、現在では設計に先立って回路の高周波特性や放射電磁界等の物理量をシミュレーターによって解析評価することが必須となっています。

この解析評価プロセスも、やはり3つのプロセスで構成されます。

  • 解析モデルのためのデータ準備
  • そのデータから解析ツールの特性や解析時間・実行するハードウェアリソースに適したモデルの作成
  • そして解析結果を理解し設計に有用な情報を抽出する

また、近年のシミュレーターやコンピュータハードウェアの性能向上は著しいですが、依然として実回路・実システムをそのまま解析することは出来ません。したがって上記3つの要素のなかでも、課題を(精度・時間の面で)分析できる最適モデルを作成することが最も重要な作業となります。そしてその際には、それぞれのシミュレータの特性、すなわち内部アルゴリズムの特性を理解しておくことが重要となります。

一方、機械学習においても同様に学習モデルの作成作業が重要になります。機械学習におけるモデリングとは、世の中のある現象(目的変数)をその現象の過去の履歴や関連する情報(説明変数)を元に学習し、その現象の将来の値を予測するための統計的モデルを作成することを言います。また、この目的変数・説明変数には、連続して変化するもの(気象データ等の物理量等)、あるいは離散的な値をとるもの(性別や出身地等)など、さまざまな特性が存在します。このため学習モデルを作成する際にはデータに最適なアルゴリズムを用いる必要があります。

さらに選択したアルゴリズムを用いた学習を実行する際には設定変数(ハイパーパラメーター)をチューニングする必要があります。最近では学習モデルを作成する際に、アルゴリズム選定・ハイパーパラメーターのチューニングを自動で行ってくれるツール(IBM、AutoAI等)が登場してきました。この様なツールは多くの作業を自動化してくれるため、データサイエンス分野の専門知識を持たないユーザーでも簡単にAIを応用したアプリケーションが作成できるというメリットがあります。

しかしながらツールが高機能となっても、すべてのデータに対して最適な結果を出せるとは限らないため、得られた学習モデルの妥当性を慎重に評価する必要があります。このため、各々のアルゴリズムの特性やパラメータの意味などはある程度理解しておく必要があります。

必要なデータをどう作る

前節では開発プロセスの3要素の一つとして「課題設定およびデータの準備」をあげました。このプロセスで、課題にはビジネスやユーザーのニーズに基づいて予測するアウトプット(目的変数)を設定します。そして予測モデルを作成するための学習データの準備を行いますが、この学習データの種類、量と質が学習モデルの精度に大きな影響を与えます。したがって、目的変数に影響を与える可能性のある学習データを、いかに広範囲に収集できるかが鍵となります。

我々のワーキング グループでは、特に気象関連のデータを用いたアプリケーションの検討を行なってきました。検討対象とした分野は、「防災・運輸等」「航空」「レジャー」「スポーツ」「医療・健康」「農業」などに及んでいます。先に述べたハードウェア製品設計・開発のための解析を行う場合のデータは、設計ツールや製品情報といった特定の形式のデータを用いますが、機械学習モデルを作成する場合には、多種多様なソースからデータ収集を行う必要があります。

例えば防災のための災害予測を例にとると、気象に関する過去の実績および予報データ以外にも、地形や土壌データ、各地域の過去の災害実績データ、実況に関する画像やSNSデータ等、オープンデータも含めて分野も多岐にわたり、データ形式も様々です。

これらのデータを用いるためには、まずそれぞれをデータの所在を確認して入手した上で、学習に利用可能な形式(例えばCSV)や数値インデックス等に変換する必要があり、そのための時間と手間がアプリケーション開発の障害となることがあります。さらに、プロジェクト毎にその都度同様の処理を行うプログラムを作成することは効率的ではありません。したがって、アプリケーションを効率的に開発するためには、いわゆる機械学習アプリケーション開発ツールに加えて、学習のためのデータを集約して迅速に検索可能なデータリポジトリツールとの連携が必要となります。

IBM PAIRS Geospace

IBMではこれに相当するツールとしてIBM PAIRS* Geospace(*Physical Analytics Integrated Repository and Services)を準備しています。このツールは特に地理時空間データへの親和性が高く、いわゆるGIS(Geographic Information System)データという地理的位置に紐づいた時間的に変化するデータを扱えるもので、大規模なラスターデータやベクトルデータ、構造化データのみならず非構造化データを集約することが可能です。データはレイヤーとして保存され、必要な領域・時間の複数のデータを必要に応じて非常に高速に検索することが可能です。

さらに学習モデルの開発においてはAI開発環境としてのIBM Watson Studio、中でも先に述べたAutoAIを活用しました。

この様に、学習データを準備するには、多種多様で大規模なデータの収集・変換・検索が高速に可能なデータリポジトリツールを活用することが重要と言えるでしょう。さらにデータリポジトリツールと学習モデル開発環境を統合したプラットフォームを用いることで迅速かつ効率の良いアプリケーション開発が可能となります。

オープン目線な開発を

現時点でも実際にAIアプリケーションを開発していく上で苦労する点は、すでに述べた様にやはりデータの準備となります。データはまずその存在・所在を検索すること、取得方法(API、CSV、その他)、分量(データ数)、品質(時間的な欠落の有無、対象とする事象の発生頻度等)を調査する必要があります。データリポジトリを活用した場合でも、その中に必要とするデータが必ずしも存在するとは限らず、場合によっては手作業で所在を検索・入手する必要があります。データの所在はこれまでの経験や他者からの情報も活用して検索しますが、手間のかかる作業となることが多いのが実情です。

近年ではインターネットを介して、様々な機関や企業が持つ膨大なデータがオープンデータとして公開される様になり、自然な流れとしてこれらのデータを集約するデータリポジトリが増えてきています。また、これに伴って本年3月29日付で内閣府より国立研究法人や大学のための「研究データリポジトリ整備・運用ガイドライン」も公表されました。今後、AIアプリケーションの開発においては独自のプラットフォーム上でのデータレポジトリ、予測モデルの開発ツールの改良に加えて、オープンデータが集約される外部データリポジトリの動向もオープンな目線で捉えておくことが大切と言えるでしょう。

More テクノロジー・リーダーシップ stories
2022年8月8日

基盤モデルとは?

基盤モデルとは、大量かつ多様なデータで訓練された、様々なアプリケーションの基盤とできる大規模なAIモデルです。 AIモデルは近い将来、少ない手間であらゆる産業やタスクに柔軟に適用できるようになっていくものと思われます。 […]

さらに読む

2022年8月5日

多言語自然言語処理研究の基礎を支える、評価尺度BLEU

ディープラーニングが自然言語処理の世界を席巻するようになり、翻訳や要約など様々なタスクにおいて精度を向上させる新しい手法が毎日のように提案されています。 一方、精度がどのくらい向上したかを判断するための評価手法については […]

さらに読む

2022年5月17日

人間中心のAIとは?

AIは、営業、財務、人事など様々な領域で、ますます応用されています。本記事では、AIシステムの開発において、IBMリサーチが採用している人間中心のアプローチを紹介します。   自動車の自動運転、創薬、ニュースや […]

さらに読む