AlphaZero






AlplaZero是DeepMind所開發的人工智能軟體[1]




目录





  • 1 簡介


  • 2 與Stockfish以及elmo的比較


  • 3 訓練


  • 4 成績

    • 4.1 西洋棋


    • 4.2 將棋


    • 4.3 圍棋



  • 5 相關連結


  • 6 參考資料


  • 7 外部連結




簡介



AlphaZero使用與AlphaGo Zero類似但更一般性的演算法,在不做太多改變的前提下,並將演算法從圍棋延伸到将棋與國際象棋上。AlphaZero與AlphaGo Zero不同之處在於[1]


  • AlphaZero的Hyperparameter (machine learning)英语Hyperparameter (machine learning)是寫死的。

  • AlphaZero現在會不斷更新人工神经网络。


  • 圍棋在某些情況是對稱或是可旋轉的,AlphaGo Zero的程式利用這個特性降低計算複雜性,AlphaZero因為延伸到將棋與國際象棋則拿掉了這段程式。

  • 西洋棋有已知的和局終局資料庫,所以AlphaZero利用這個終局資料庫納入計算。


與Stockfish以及elmo的比較


AlphaZero基於蒙特卡洛树搜索,每秒只能搜尋8萬步(西洋棋)與4萬步(將棋),相較於Stockfish英语Stockfish (chess)每秒可以7000萬步,以及elmo日语elmo (コンピュータ将棋ソフト)每秒可以3500萬步,AlphaZero則是利用了類神經網路提昇了搜尋的品質[1]



訓練


AlphaZero使用了5,000顆第一代的TPU進行訓練。



成績



西洋棋


在9小時的訓練後(約自我訓練4400萬局[1]:Table S3),AlphaZero以28勝72和0敗的成績打敗Stockfish英语Stockfish (chess)[1]:Table 1



將棋


在2小時的訓練後(約自我訓練2400萬局[1]:Table S3),AlphaZero以90勝2和8敗的成績打敗elmo日语elmo (コンピュータ将棋ソフト)[1]:Table 1



圍棋


在34小時的訓練後(約自我訓練2100萬局[1]:Table S3),AlphaZero以60勝40敗的成績打敗AlphaGo Zero[1]:Table 1



相關連結


  • AlphaGo Zero

  • DeepMind

  • ELF OpenGo


參考資料




  1. ^ 1.01.11.21.31.41.51.61.71.8 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. 2017-12-05 [2018-05-09]. 



外部連結



  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm,AlphaZero的論文。


  • Game Downloads,AlphaZero與西洋棋軟體Stockfish英语Stockfish (chess)的對弈記錄。

  • Chess.com Youtube playlist for AlphaZero vs. Stockfish


Popular posts from this blog

Top Tejano songwriter Luis Silva dead of heart attack at 64

政党

天津地下鉄3号線