大学機械学習講師、フリーランスエンジニア、金融機関の方々に加え、金沢人工知能コミュニティの上野さんも交え、最新の論文情報を一緒にリサーチしました。
Google DeepMindのAlpha Go Zero;
Policy Net(どこに石を置くかを確率でOutPut)
Value Net(盤面の評価値)
Policy Net + Value Netを結合(Dual)で使い、最終的にモンテカルロツリー探索(MTCS)にかける (P+V構造は前世代と同じだが、結合させたのが今回)
ResNetで盤面を画像認識してInPutする仕組み
棋譜データは一切使わず、ルールのみを教えて自己対戦で2900万回戦った
Lee Sedol王者を破った初代AlphaGoと戦って100勝0敗
PolicyNetは学習済みのものを前世代のAlphaGoから引き継いだ模様(この意味でフルスクラッチではない)
1手0.4秒で差し、1局80秒で終了する
前世代AlphaGoがTPU48台使用に対し、今回はTPU4台
つまり、アルゴリズムは飛躍的に強くなり、消費計算資源は1/12になっている。この意味で超画期的。
従来型の教師あり学習+強化学習の組み合わせで、教師データがなく研究が進まなかった分野でブレイクスルーとなる可能性がある成功事例
前世代、前々世代のAlphaGo論文と比べると進化がより具体的にわかりそう
AlphaGo Zero 論文要約ブログ;
http://blog.livedoor.jp/yuno_miyako/archives/1068350228.html#1508557027057
日銀黒田総裁の表情分析=>経済予測の研究(東大) : 論文が待たれますね!
https://headlines.yahoo.co.jp/hl…
強化学習を交通渋滞解消に活かそうとする研究分野;
https://arxiv.org/abs/1710.05465
Team AIでは毎日勉強会を開催しています。開催日と詳細は下記よりご確認頂けます。
お気軽に遊びにいらしてください!!
https://teamai.connpass.com/
#100万人の機械学習コミュニティを東京に創る
#AIエンジニアに世界一愛される組織になる
#DataHackathonEverday
#OpenInnovation