テストは楽しい

デブサミ2018テーマ「変わるもの×変わらないもの」【15-A-5】将棋プログラムPonanzaにおける強化学習、ディープラーニングとその先参加メモ

このセッションのまとめ

機械学習の分野は、研究と挑戦の世界

メモしたこと

ミニマックス法
教師あり学習は、教材に限界がある。強化学習は、教材を無限に増やせるまた100億とか
コンピュータ将棋が新しい手を生み出したこともある
ポナンザの良いところ
コードが短く読みやすい
その分、対戦実験/検証のプログラムは充実
ディープラーニングとは何か
かけ算と足し算の集合です
既存の探索部は大人の知能
理詰めで理解する
ニューラルネットワークは子供の知能
局面が少ないが、鋭い感性をもつ
これの合わせ技を考えた(トライアル)
子どもの直感を大人の精密な読みで確認するイメージ
モンテカルロ木探索
人間的なアプローチとは違う
棋譜学習とニューラルネットの繰り返しで強くなる
難しいところ学習サンプルの多様性
限界は思われていたよりずっと高かった
付け焼き刃技術もすぐには消えない
もっと高い山に登るためには、いちど登りきった山を降りる必要があるかもしれない