IBM Watson Blog
AutoAIがAIconics Intelligent Automation Awardを受賞 – 第一人者が語る開発のねらい
2020年01月09日
カテゴリー Data Science and AI | IBM Cloud Blog | IBM Data and AI | IBM Watson Blog | アナリティクス
記事をシェアする:
IBM Watson Studioの強力な自動AI開発機能である AutoAI(英語)は、サンフランシスコで開催されたAIconics AIサミットで昨年9月24日、Best Innovation in Intelligent Automation Awardを受賞しました。AIconics(英語) アワードは、独立した13人からなる審査員団によって選ばれる、画期的なビジネス向けAIに対して贈られる賞です。
AutoAIチームを代表して、IBM社員のHafsah LakhanyとGerard Duboisが、サンフランシスコのAIconics AIサミットでBest Innovation in Intelligent Automation Awardを受け取りました。
AutoAIの開発の裏にあるものは何か、また、データ・サイエンス・プロジェクトで価値実現までの時間をAutoAIがどのように短縮するかを聞き出そうと、私は、IBMのDistinguished Engineer(技術理事)であるJean-Francois Puget博士にインタビューしました。博士はIBMにおける機械学習と最適化分野での著名なエンジニアであり、Kaggle Grandmaster(英語) を2回取得しています。
AutoAIの開発に着手したきっかけは何ですか?
Jean-Francois Puget: データ・サイエンティストとしての私たちの仕事は、汎用レシピの適用とドメイン固有の洞察の獲得をうまく組み合わせることです。レシピの部分には、繰り返しの多い退屈な作業が含まれていて、自動化を望む声が上がっていました。私たちは常に、同じ特徴量エンジニアリングのトリックを試し、同じアルゴリズム・セットを実行してそれらのトリックをテストします。これは時間のかかるステップで、ドメイン固有のアプローチを探すなど、データ・サイエンティストがもっと価値の高い作業を行う機会を減らしてしまいます。
AutoAIの目的は、データ・サイエンティストをありふれた作業から解放して、効率でランク付けされたモデルの確固たるパイプラインから開始できるようにすること、そして、解決すべき問題の特性に焦点を絞ることでいっそうの価値を追加できるようにすることです。
AutoAIの働きはどのようなものですか?AIを構築するためにどのようにAIを「使用」するのですか?
AutoAIのそもそもの始まりはデータ・セットです。データ・セットは、各行が学習するサンプルを表し、各列が機能を表しているテーブルのようなものです。例えば、データの行が個人を表し、列には性別、年齢、職業、年収、ローン金額が入っていることが考えられます。
私たちは、列を、他の列のデータを使用して予測しようとするターゲットとして指定します。例えば、各個人のローン申込書の承認がターゲットになるでしょう。他の列からターゲットを正確に予測する機械学習モデルを作成するには、時間もかかり、非常に熟練したデータ・サイエンティストが必要になります。
AutoAIはこの課題を簡単にします。データ・セットを提供して、どの列がターゲットなのかを指示するだけでよいのです。そうすれば、AutoAIがデータの準備、特徴量エンジニアリング、機械学習アルゴリズムの選択、ハイパー・パラメーターの最適化を自動的に実行し、最適な機械学習モデルを見つけ出してくれます。この一連の手順をガイドするのが、プロセスの各ステージで最も有望とみなされるステップへと進むAIシステムです。これがまさに、AIを構築するAIです。
Jean-Francois Puget博士。
機械学習と最適化に関する著名なIBMエンジニア
AutoAIに関する市場からのフィードバックはどのようなものですか?
あるデータ・サイエンティストは、仕事を救ってくれたと感じたと言ってきました。彼はAutoAIを使って週末に約10時間で80の実験を実行し、月曜日に財務費に関する洞察をグローバルな製薬会社に提出できたのだそうです。
彼はこう言っていました。「財務担当の役員にそれを提出したところ、大変喜んでもらえました。AutoAIがなければ不可能だったでしょう。考えられるすべてのモデルを手作業で実行して結果を絞り込み、健全なモデルを見つけなければならなかったとしたら、まったく時間は足りなかったと思います。」
よくAutoAIはゲーム・チェンジャーと言われます。わたしは、AutoAIはデータ・サイエンスと機械学習における次のフロンティアだと思っています。
AutoAIで節約できる時間は何を意味しますか?
AutoAIは、データ・セットのサイズに応じて数分または数時間で、強力なベースライン・モデルを構築します。よく言うのですが、熟練したデータ・サイエンティストが数週間かかるものを数時間で手に入れることができるのです。熟練したデータ・サイエンティストがもっと時間をかけてもAutoAIより優れたものができないという意味ではありません。そうではなく、データ・サイエンティストがモデルの改良や改善をするための2週間が増えるという意味です。この次期ステージをさらにスムーズにするために、AutoAIは、データ・サイエンティストがすぐに使えるPythonコードを生成することができます。
AutoAIの開発にはどれぐらいの時間がかかったのですか?
私が独りで開発したわけではありません。私はもう何年も、小規模なIBM Researchチームで働いています。私たちは、過去の類似プロジェクトの経験を組み合わせたのです。また、私の機械学習の経験はお客様のプロジェクトや機械学習コンペから得られたものです。そして、開発したものをWatson Studioの一部として商品化したのです。
AutoAIの開発で最大の課題は何でしたか?テストしたアプローチ数はだいたいいくつぐらいでしょう?
主な課題は「オーバーフィッティング(過学習)」と呼ばれるものを避けることです。オーバーフィット・モデルは既に所有しているデータ、つまりAutoAIへの入力の場合は良いように見えますが、新しいまだ見たことのないデータの場合はパフォーマンスが低下します。 そこが、機械学習はアートであると言われる所以です。まだ見たことのないデータでパフォーマンスが良くなるモデルを作成する必要があるのです。
アプローチがうまく働いたときはどんな気持ちですか?
私たちはトップクラスのKaggleコンペでAutoAIを使用し、最終的に上位10%に入りました。驚くべき結果です。それを見たとき、私は同僚全員に売れる物ができたと言ったのです。
AutoAIはデータ・サイエンスと機械学習の次のフロンティアです。
Kaggleコンペを知らない人にそのコンペについて説明してください。
Kaggleコンペは、AutoAIの課題にやや似ています。Kaggleが参加者にデータ・セットを提供し、ターゲットを予測するモデルを作成するよう求めるのです。そして、作成したモデルを別のデータ・セットに使用し、データをテストして、予測をKaggleサイトに送るよう求めます。自動化されたスコアリング・サービスで予測の善し悪しが評価され、スコアに基づいて参加者のランク付けが行われます。プライベート・テスト・データ・セットなど、オーバーフィッティングを検出するための追加の警告機能がありますが、主な原則は、テスト・データに関する予測を送信して自動的に計算されるスコアを得るというだけです。
参加者の結果を評価するためのループに人間は介在しません。私が好きなのはその点です。数値は嘘をつきません。モデルが優れている場合、それはテスト・データでのスコアが他のモデルより高いからです。
つまり、Kaggleコンペはデータの準備、モデリング、およびモデルの選択に関する参加者のスキルのみを評価するのです。データ・サイエンティストのその他のスキルはKaggleでは評価されません。つまり、データ収集、データ・クリーニング、 解決の必要な問題を理解するためのステークホルダーとのコミュニケーション、ステークホルダーがビジネス上の問題に関連付けられるように機械学習の結果を報告することなどは評価に含まれません。
要するに、Kaggleはデータ・サイエンティストのスキルの一部分のみを評価するのです。ただし、優れたデータ・サイエンティストなら誰でも、Kaggleで評価されるスキルをマスターする必要があります。
機械学習の課題を提供するプラットフォームはKaggleだけではありませんが、最もポピュラーで真のリーダーとしてKaggleは他に抜きん出た存在です。一部の国、特に中国には、Kaggleに似た多数のプラットフォームがありますが、ほとんどは国内の参加者が対象です。
Kaggle Grandmasterとは何ですか?あなたがこの称号を二度得て学んだものは何でしょうか?
Kaggleは300万人を超えるコミュニティーです。間違いなく世界最大のデータ・サイエンティスト・コミュニティーです。その300万人中、コンペのグランドマスターはわずか153人です。グランドマスターは最高レベルであり、5つの異なるコンペで金メダルを獲得することによって持続的なパフォーマンスを発揮する必要があります。私はこのようなコンペ・グランドマスターの1人であり、10個の金メダルを持っており、現時点で世界第20位にランキングされました。
Kaggleは他に2つのグランドマスター・カテゴリーを作成しました。1つはnotebook用で、ユーザーが気に入れば投票できるコード用です。3番目のカテゴリーはディスカッション・グランドマスターです。Kaggleコンペ・フォーラムに投稿すると、賛成票や反対票が投じられます。最も人気の高かった投稿がポイントとメダルを獲得できます。たまたま私の回答がKaggleフォーラムで最も人気が高かったため、私は最初の、現時点ではトップのディスカッション・マスターになったのです。 私はディスカッションの方がコンペより好成績です。ディスカッションでは全体で1位ですが、コンペでは全体で20位ですからね。
機械学習のどんな点に興味をお持ちですか?博士号の取得に当たってそれを選択したのはなぜですか?
最初に興味を持ったのはチェスや囲碁に似たボードゲームのオセロ (リバーシとも言いますね) で遊んだときです。実のところ私はオセロが大変得意で、ある年にはチーム世界チャンピオンになったほどです。そして趣味として、ゲームをプレイするためのソフトウェアの開発をし始めました。これがきっかけで、このトピックに関する研究論文を読むようになり、まもなく機械学習を最初に使用したのがチェッカーのプレイ方法を学習するアルゴリズムのためのものであったことを知りました。1959年、Arthur SamuelというIBM社員が開発したものでした。 そこから、私は機械学習について読み始め、たちまち虜になってしまったのです。
機械学習スキルの開発について他の人々へのアドバイスが何かありませんか?
いくつか優れたコースを受講し、顧客プロジェクトでも個人プロジェクトでもよいから演習をこなしたり、Kaggleコンペなどの課題をこなしてみることです。Kaggleコンペはなかなか優れた学習リソースです。他の人々が実践したことから学んだり、自分のパフォーマンスに対して直接のフィードバックを得たりできるのですから。
IBM Watson Studioをひとことで言うと何でしょうか?
IBM Watson Studioとその関連ソリューションであるWatson Machine LearningやWatson OpenScaleなどは、AIのライフサイクル管理に取り組んでいます。AutoAIを搭載したWatson Studioは、データの取り込みと準備を助け、モデルを作成し、TensorFlow、PyTorch、XGBoostなどの最先端のオープン・ソース・ツールを使用してそれらのモデルを評価します。Watson Machine Learningは、モデルを本番環境で実行するためのエンジンを提供します。 Watson OpenScaleは、本番環境のモデルをモニターして、モデルのバイアスを緩和し、正解率のドリフトを制御し、個々の成果を説明して、コンプライアンスを強化するのに役立ちます。
Julianna Delua
Portfolio Lead, Watson Studio Data and AI, Cloud, IBM
Follow me on LinkedIn, Twitter
原文:AutoAI wins AIconics Intelligent Automation Award: Meet a key inventor
データ分析者達の教訓 #22- 予測モデルはビジネスの文脈で語られ初めてインパクトを持つ
Data Science and AI, SPSS Modeler ヒモトク, アナリティクス...
皆さんこんにちは。IBMの坂本です。 SPSSを含むデータサイエンス製品の技術を担当しています。 このリレー連載ブログはSPSS Modelerの実際のユーザーで第一線で活躍するデータ分析者に、データ活用を ...続きを読む
敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載
IBM Data and AI, IBM Partner Ecosystem
目次 販売管理システムを知名度で選んではいないか? 電子取引データの保存完全義務化の本当の意味 ふくろう販売管理システムは「JIIMA認証」取得済み AIによる売上予測機能にも選択肢を 「眠っているデータの活用」が企業の ...続きを読む
セキュリティー・ロードマップ
IBM Cloud Blog
統合脅威管理、耐量子暗号化、半導体イノベーションにより、分散されているマルチクラウド環境が保護されます。 2023 安全な基盤モデルを活用した統合脅威管理により、価値の高い資産を保護 2023年には、統合された脅威管理と ...続きを読む