原址:Documenting the AI Era: Volume 3 of AlphaGo to Zero Arrives - American Go Association
原題:Documenting the AI Era: Volume 3 of AlphaGo to Zero Arrives
摘自:The news of American Go Association
作者:Chris Garlock
隨著備受期待的《AlphaGo to Zero》系列第三卷的發布,邁克爾·雷德蒙德和克里斯·加洛克繼續著他們對這場徹底重塑圍棋格局的人工智能革命的權威性記錄。
![]()
圖1 《AlphaGo to Zero》第3卷封面
初始版本的AlphaGo系統的核心架構包含四個協同工作的關鍵模塊:
策略網絡:該模塊以當前棋盤狀態作為輸入,通過深度神經網絡計算并輸出下一步棋在各個合法位置的概率分布,從而提供候選落子方案。
快速推演:此部分功能與策略網絡相似,旨在生成行棋序列,但采用簡化的計算模型,以顯著降低決策精度為代價,實現相比策略網絡數千倍的速度提升,用于快速勝負模擬。
價值網絡:此模塊同樣基于當前局面,利用神經網絡直接評估雙方勝率,輸出一個介于-1到1之間的評價值,用于判斷當前局面的優劣態勢。
蒙特卡洛樹搜索:作為系統的決策中樞,MCTS 框架將上述三個模塊有機整合。它通過反復模擬對弈過程,綜合策略網絡的選點建議、價值網絡的局面評估以及快速推演的終局勝率,以此進行自我博弈和策略優化,最終形成完整的決策系統。
此時的AlphaGo還不是純粹的機器深度強化學習,要依靠大量學習人類棋譜。系統通過分析人類歷史對弈數據來構建快速走子模型,并以此為基礎對策略網絡進行初步參數設置。隨后,策略網絡與估值網絡通過持續不斷的自我對弈進行協同訓練和優化。
需要指出的是,估值網絡并未直接采用人類棋譜作為訓練樣本。這是因為人類對局中時常存在較強的偶然性因素,局部階段的優勢未必能決定最終勝負,單一失誤就可能導致全局結果逆轉,使得棋譜數據中包含較多波折。
![]()
圖2 Alphago學習棋譜的過程簡圖
在模型迭代過程中,每當產生一個新版本,系統會將其與當前保存的最佳版本進行多輪對抗。只有在新版本的勝率穩定超過55%時,才會替換原有版本。這一機制能夠有效避免模型在自我博弈過程中陷入局部最優或產生策略退化,從而確保學習路徑的穩定與進步。
但是僅僅一年之內,AlphaGO Zero就橫空出世,AlphaGO Zero僅用36小時就超過了AlphaGo,并且占用的資源很少,只需要4個TPU。然后以100:0戰勝了之前的AlphaGo。
![]()
圖3 AlphaGo Zero和AlphaGo對比
《AlphaGo to Zero》第三卷,標題定為“杰作”,集中解讀了DeepMind正式發布的50盤AlphaGo自我對弈棋譜。這些對局首次向世人展示,在脫離人類棋譜約束后,AlphaGo如何理解圍棋。憑借更豐富的經驗與更先進的人工智能分析工具,作者對這些棋局進行了重新審視與全新評注,清晰闡釋了以往令人費解的內容:包括AlphaGo獨特的開局意圖、卓越的大局方向感與時機掌握、果斷的侵入戰術,以及精準的收官計算。
本書無意評判人類與人工智能的高下,而是致力于揭示這些棋步背后的取勝邏輯、其中蘊含的圍棋理念,以及它們如何預示了AlphaGo Zero更為顛覆性的策略。借助棋譜圖示、關鍵局部分析與深入淺出的解說,第三卷將這一系列傳奇般的自我對局編織成一條連貫的敘事線,既展現了人機圍棋對話的真正開端,也展望了這項運動未來的可能方向。
如今的圍棋AI仍然在不斷迭代,那怕是當今的最強AI距離真正的圍棋之神還有相當長的距離。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.