デブサミ2018テーマ「変わるもの×変わらないもの」【15-A-5】将棋プログラムPonanzaにおける強化学習、ディープラーニングとその先 参加メモ
このセッションのまとめ
- 機械学習の分野は、研究と挑戦の世界
メモしたこと
- ミニマックス法
- 教師あり学習は、教材に限界がある。強化学習は、教材を無限に増やせる また100億とか
- コンピュータ将棋が新しい手を生み出したこともある
- ポナンザの良いところ
- コードが短く読みやすい
- その分、対戦実験/検証のプログラムは充実
- ディープラーニングとは何か
- かけ算と足し算の集合です
- 既存の探索部は大人の知能
- 理詰めで理解する
- ニューラルネットワークは子供の知能
- 局面が少ないが、鋭い感性をもつ
- これの合わせ技を考えた(トライアル)
- 子どもの直感を大人の精密な読みで確認するイメージ
- モンテカルロ木探索
- 人間的なアプローチとは違う
- 棋譜学習とニューラルネットの繰り返しで強くなる
- 難しいところ 学習サンプルの多様性
- 限界は思われていたよりずっと高かった
- 付け焼き刃技術もすぐには消えない
- もっと高い山に登るためには、いちど登りきった山を降りる必要があるかもしれない