AlphaZero

Multi tool use
Multi tool use





AlplaZero是DeepMind所開發的人工智能軟體[1]




目录





  • 1 簡介


  • 2 與Stockfish以及elmo的比較


  • 3 訓練


  • 4 成績

    • 4.1 西洋棋


    • 4.2 將棋


    • 4.3 圍棋



  • 5 相關連結


  • 6 參考資料


  • 7 外部連結




簡介



AlphaZero使用與AlphaGo Zero類似但更一般性的演算法,在不做太多改變的前提下,並將演算法從圍棋延伸到将棋與國際象棋上。AlphaZero與AlphaGo Zero不同之處在於[1]


  • AlphaZero的Hyperparameter (machine learning)英语Hyperparameter (machine learning)是寫死的。

  • AlphaZero現在會不斷更新人工神经网络。


  • 圍棋在某些情況是對稱或是可旋轉的,AlphaGo Zero的程式利用這個特性降低計算複雜性,AlphaZero因為延伸到將棋與國際象棋則拿掉了這段程式。

  • 西洋棋有已知的和局終局資料庫,所以AlphaZero利用這個終局資料庫納入計算。


與Stockfish以及elmo的比較


AlphaZero基於蒙特卡洛树搜索,每秒只能搜尋8萬步(西洋棋)與4萬步(將棋),相較於Stockfish英语Stockfish (chess)每秒可以7000萬步,以及elmo日语elmo (コンピュータ将棋ソフト)每秒可以3500萬步,AlphaZero則是利用了類神經網路提昇了搜尋的品質[1]



訓練


AlphaZero使用了5,000顆第一代的TPU進行訓練。



成績



西洋棋


在9小時的訓練後(約自我訓練4400萬局[1]:Table S3),AlphaZero以28勝72和0敗的成績打敗Stockfish英语Stockfish (chess)[1]:Table 1



將棋


在2小時的訓練後(約自我訓練2400萬局[1]:Table S3),AlphaZero以90勝2和8敗的成績打敗elmo日语elmo (コンピュータ将棋ソフト)[1]:Table 1



圍棋


在34小時的訓練後(約自我訓練2100萬局[1]:Table S3),AlphaZero以60勝40敗的成績打敗AlphaGo Zero[1]:Table 1



相關連結


  • AlphaGo Zero

  • DeepMind

  • ELF OpenGo


參考資料




  1. ^ 1.01.11.21.31.41.51.61.71.8 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm. 2017-12-05 [2018-05-09]. 



外部連結



  • Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm,AlphaZero的論文。


  • Game Downloads,AlphaZero與西洋棋軟體Stockfish英语Stockfish (chess)的對弈記錄。

  • Chess.com Youtube playlist for AlphaZero vs. Stockfish


tGJ7JQhoJ4Ur2aqrmCFjo3ZmIuEJod,J4H tnO5B2MChu3VFCeQwO 8iOXT WSkDznpEtYLHfvSHgczuCqiACM xtqV,jF,eZQ5
y,dv4zND,9YWmqK,Ko

Popular posts from this blog

Top Tejano songwriter Luis Silva dead of heart attack at 64

政党

Scopus Preview