BirkhoffLee@tg => YSITD: AlphaGo目前有能力自己判斷需要展開的預測步數。但是如何能確保過去的樣本能夠正確反映勝率，而且不受到對弈雙方實力的事前判斷(可能下在某處會贏不是因為下在這該贏，而是這個人比較厲害)，因此。這個部分它們是透過兩台AlphaGo對弈的方式來解決，因為兩台AlphaGo的實力可以當作是相同的，那麼最後的輸贏一定跟原來的兩人實力無關，而是跟下的位置有關。也因此評價網路並不是透過這世界上已知的棋譜作為訓練，因為人類對奕會受到雙方實力的影響，透過兩台對一的方式，他在與歐洲棋王對弈時，所使用的訓練組樣本只有3000萬個棋譜，但是在與李世石比賽時卻已經增加到1億。由於人類對奕動則數小時，但是AlphaGo間對奕可能就一秒完成數局，這種方式可以快速地累積出正確的評價樣本。 #56e4da997e9dedfe544637a4

BirkhoffLee@tg says to YSITD

AlphaGo目前有能力自己判斷需要展開的預測步數。但是如何能確保過去的樣本能夠正確反映勝率，而且不受到對弈雙方實力的事前判斷(可能下在某處會贏不是因為下在這該贏，而是這個人比較厲害)，因此。這個部分它們是透過兩台AlphaGo對弈的方式來解決，因為兩台AlphaGo的實力可以當作是相同的，那麼最後的輸贏一定跟原來的兩人實力無關，而是跟下的位置有關。也因此評價網路並不是透過這世界上已知的棋譜作為訓練，因為人類對奕會受到雙方實力的影響，透過兩台對一的方式，他在與歐洲棋王對弈時，所使用的訓練組樣本只有3000萬個棋譜，但是在與李世石比賽時卻已經增加到1億。由於人類對奕動則數小時，但是AlphaGo間對奕可能就一秒完成數局，這種方式可以快速地累積出正確的評價樣本。

at Sun, Mar 13, 2016 11:12 AM