デブサミ2018テーマ「変わるもの×変わらないもの」【15-A-5】将棋プログラムPonanzaにおける強化学習、ディープラーニングとその先 参加メモ

このセッションのまとめ

メモしたこと

  • ミニマックス法
  • 教師あり学習は、教材に限界がある。強化学習は、教材を無限に増やせる また100億とか
  • コンピュータ将棋が新しい手を生み出したこともある
  • ポナンザの良いところ
  • コードが短く読みやすい
  • その分、対戦実験/検証のプログラムは充実
  • ディープラーニングとは何か
  • かけ算と足し算の集合です
  • 既存の探索部は大人の知能
  • 理詰めで理解する
  • ニューラルネットワークは子供の知能
  • 局面が少ないが、鋭い感性をもつ
  • これの合わせ技を考えた(トライアル)
  • 子どもの直感を大人の精密な読みで確認するイメージ
  • モンテカルロ木探索
  • 人間的なアプローチとは違う
  • 棋譜学習とニューラルネットの繰り返しで強くなる
  • 難しいところ 学習サンプルの多様性
  • 限界は思われていたよりずっと高かった
  • 付け焼き刃技術もすぐには消えない
  • もっと高い山に登るためには、いちど登りきった山を降りる必要があるかもしれない