Data Science and AI

「強化学習」をよりよい社会を作る技術へ – 研究者森村哲郎に聞く、研究する理由とAI技術展望

2020年06月24日

カテゴリー Data Science and AI | 人工知能

記事をシェアする:

【DS＆AIタレント・インタビュー＃3】
IBM東京基礎研究所　シニア・リサーチ・スタッフ・メンバー　森村哲郎

IBM東京基礎研究所　数理科学チームで強化学習の研究に日々邁進する森村哲郎。昨年5月に講談社機械学習プロフェッショナルシリーズ「強化学習」を出版してから一年になるのを記念して、著作に託された思いやこれからの研究について伺いました。

— 出版一周年、おめでとうございます！すごく人気と聞いています。

ありがとうございます。はい、今年7月で4刷となります。数多くある機械学習本のなかで非常に注目度の高い機械学習プロフェッショナルシリーズの一冊として出版させていただいたこともあり、非常に多くの方に購入いただいているそうです。

— 素晴らしいですね！あらためて、強化学習について教えてください

強化学習とは、意思決定ルールを学習する機械学習の一分野です。適用するシステムや環境に関する完全な知識を前提とせず、設計者が「何をすべきか(Goal)」を報酬という形でアルゴリズムに入力して、「どのように実現するか(How)」をデータなどから学習することを目指します。例として、サーカーゲームを考えてみましょう。この場合、得点を決めれば報酬“1”、逆に決められれば“-1”、それ以外は0のように報酬を設定できると思います。学習エージェントは、ゲームに関する知識がゼロのところから、試行錯誤を繰り返し、得点を取られたり、決めたり、多くのことを経験します。その経験を通して、総報酬（得失点）を最大にするような戦略を徐々に学習する方法論が強化学習になります。このように、システム（サッカー）に関する知識が十分でなくても、データを十分に取得できるのであれば、強化学習によって目的を達成する戦略・意思決定ルールを得ることができます。そのため、多岐にわたる領域での応用が期待されます。しかし、従来の予測手法などに比べて、強化学習は学習が不安定、データの準備が困難、デプロイが難しいといった理由などから、未だ応用事例は限定的だと思います。故に強化学習というのは成熟した分野ではなく、まだまだ研究、応用共に挑戦しがいのある非常に興味深い分野といえるのではないかと思います。

— 数ある人工知能技術の中で、なぜ「強化学習」について書こうと思ったのですか？

きっかけは、2013年末くらいに、講談社の機械学習プロフェッショナルシリーズという人工知能関連のシリーズの編者をされている東京大学　杉山将先生にお声がけをいただいたことです。「書きたいです」と即お返事しました。が、実際は、論文や本のチャプターを書いた経験はあっても、本をまるまる一冊書くという発想や経験は無かったので、本当に書き上げられるのか非常に心配でした。ただ、機械学習や強化学習が脚光を浴び始めた時期でしたし、このような機会は滅多にあるものではないと思い、チャレンジしました。その後、想像以上の苦労を経てなんとか出版までたどり着きました

— 2014年頃からだと足掛け5年、時間でいうと 43,800時間です。その間に技術も変化し執筆も難しかったと思います。それだけの時間を投入して「強化学習」で伝えたかったこととはなんでしょうか？

国際学会のNeurIPSやICML、学術雑誌のJMLRなどで発表されている強化学習の論文を読むために必要な基礎をカバーし、理論を適度に説明している本が和書、洋書を含めて無かったので、そのような本になるように執筆しました。具体的には、強化学習の教科書として知られるSutton & Barto (1998, 2018) [1, 2] （直感的説明や数値実験が充実）とBertsekas & Tsitsiklis (1996) [3]（理論が充実）の中間的な立場を狙いました。最新情報は書き足すのが大変で、最終章にまとめる形になりました。この本によって、「強化学習法の手順は理解したけれど、いまいち釈然としない」「理論を知りたい」「数理的な立場からアルゴリズムを導出、改良したい」と考えている人の助けになれば嬉しいです。

— 実際に出版されて、読者からの反応などはいかがでしたか？

学会などに参加した際に声をかけていただくことが増えました。なかには本がボロボロになるまで熟読されている方もいらっしゃり、著者冥利に尽きるというか、非常に嬉しく思います。また、学会のチュートリアル講演や大学院講義の依頼をいただく機会も増えました。一方、私の執筆力不足や本文内に数式が頻出するためか、「読むのに苦労する」という声も頂戴しており、今後改善していきたいと思っています。

— 人工知能関連の技術は、今後どのように発展・変化していくと思われますか？

適用分野に応じた多様な発展・変化があると思います。個人的には、マルチ・エージェント学習やゲーム理論と機械学習の接点となるような分野に興味を持っています。例えば機械学習の多くは定常性を仮定していますが、参加しているプレイヤーの多くはAIなどで日々学習し戦略を更新していて、一般に定常性は成り立ちません。AIは基本的には合理的なので人よりも行動を予測しやすい可能性があるので、他AIの戦略や戦略の変化を予測しながら自身の戦略を最適化するアプローチは、AIが普及するにつれより大切になるかもしれません。

— 次作のテーマだと予測しました（笑）。これから本を書こうと考えている人に向けてメッセージをお願いします。

一冊書いただけなのでなんとも言えませんが、専門書を書き上げるということは想像を遥かに超えて大変だったので、私としては気軽にお勧めはできません。トータルでは執筆できて良かったと思っていますが、文献調査などを含め膨大な時間が必要だったので、その時間を研究など他に使えていたら、また違う何かをできていたのではないかと思うこともゼロではありません。ただ、本を書く状況になったがために、これまでなんとなくしかわかっていなかったことを半ば強制的に学ぶことになり、結果的に大変勉強になりました。また、そういった知識を体系的にまとめていくという作業は楽しい時間でもありました。そして、この本が独自の価値をもち、それが誰かの役に立っているのならば、これ以上に嬉しいことはありません。という訳で、これから本を書くのなら、労力に対する、その本がもたらすユニークな価値（コスト・パフォーマンス）を考慮してみてもよいのかもしれません。

—「可能性を多く持つ強化学習をよりよい社会を作る技術に発展させたい」 森村さんをはじめとする研究員の志があるからこそ、私たちはお客様と未来について語ることができるのかもしれません。

聞き手：髙橋志津

森村哲郎 Tetsuro Morimura, Ph.D

2008年よりIBM東京基礎研究所にて強化学習、機械学習などの人工知能（AI）の研究に従事。多様な業界での多くのプロジェクトを通じ、理論と実応用の両視点からの研究は国際学会でも高い評価を得ている。米国、日本、台湾、中国、その他の国で30以上の特許を取得。工学博士。

Google Scholar Citations: https://scholar.google.co.jp/citations?user=IgjF21EAAAAJ (外部ページ)

DBLP: https://dblp.uni-trier.de/pers/m/Morimura:Tetsuro.html (外部ページ)

＜著作＞

森村哲郎: “強化学習 (機械学習プロフェッショナルシリーズ)”, 講談社, 2019.
牧野貴樹, 澁谷長史, 白川真一編: “これからの強化学習”（第1章：強化学習の基礎的理論「方策勾配法に基づくアルゴリズム」、第2章：強化学習の発展的理論「リスク考慮型強化学習」を担当）, 森北出版, 2016.
“応用数理ハンドブック”（機械学習分野「強化学習」を担当）, 朝倉出版, 2013.

＜参照＞

[1] R. S. Sutton and A. G. Barto. Reinforcement Learning. MIT Press, 1998. (三上貞芳, 皆川雅章訳. 強化学習. 森北出版, 2000)

[2] R. S. Sutton and A. G. Barto. Reinforcement Learning. MIT Press, 2nd edition, 2018.

[3] D. P. Bertsekas and J. N. Tsitsiklis. Neuro-Dynamic Programming. Athena Scientific, 1996.

Data Science and AI

「強化学習」をよりよい社会を作る技術へ – 研究者森村哲郎に聞く、研究する理由とAI技術展望

【DS＆AIタレント・インタビュー＃3】
IBM東京基礎研究所　シニア・リサーチ・スタッフ・メンバー　森村哲郎

Maximo新サービスで設備管理の今と将来を同時に。お得に。

ニューノーマル時代に向けて山積するIT課題に、CIOはクラウドでどう挑むか？

最近の投稿

IBM watsonx Assistantは生成AIでコンテンツを対話型の回答に変える

IBM Data and AI, IBM Watson Blog, 人工知能

信頼できる AI の基盤: ガバナンスの効いたデータと AI、AI 倫理、およびオープンで多様なエコシステム

IBM Cloud Blog, IBM Data and AI, IBM Watson Blog...

IBM Watsonで、データ、モデル、プロセスに対する信頼をどのように築くのか

IBM Cloud Blog, IBM Data and AI, IBM Watson Blog...

Data Science and AI

「強化学習」をよりよい社会を作る技術へ – 研究者 森村哲郎に聞く、研究する理由とAI技術展望

【DS＆AIタレント・インタビュー ＃3】 IBM東京基礎研究所 シニア・リサーチ・スタッフ・メンバー 森村 哲郎

Maximo新サービスで設備管理の今と将来を同時に。お得に。

ニューノーマル時代に向けて山積するIT課題に、CIOはクラウドでどう挑むか？

最近の投稿

IBM watsonx Assistantは生成AIでコンテンツを対話型の回答に変える

IBM Data and AI, IBM Watson Blog, 人工知能

信頼できる AI の基盤: ガバナンスの効いたデータと AI、AI 倫理、およびオープンで多様なエコシステム

IBM Cloud Blog, IBM Data and AI, IBM Watson Blog...

IBM Watsonで、データ、モデル、プロセスに対する信頼をどのように築くのか

IBM Cloud Blog, IBM Data and AI, IBM Watson Blog...

フォローする

「強化学習」をよりよい社会を作る技術へ – 研究者森村哲郎に聞く、研究する理由とAI技術展望

【DS＆AIタレント・インタビュー＃3】
IBM東京基礎研究所　シニア・リサーチ・スタッフ・メンバー　森村哲郎