![]()
15,552個真實程序,98.78%直接生成可運行Python,零大語言模型參與。這組數字來自一家叫AGUELLID CODE的公司,他們上周剛用IBM的SAM1做完概念驗證,本周就把測試規模拉到了全球級別。
這不是實驗室玩具。測試樣本來自131個開源倉庫,橫跨挪威、法國、巴西、印度、日本、美國五個大洲,涵蓋商業COBOL、GnuCOBOL擴展、TypeCOBOL、大型機方言。沒有篩選,沒有精心挑樣,能找到的全扔進去了。
從96.84%到98.78%:兩周迭代做了什么
v5.6版本時,14,508個文件里有14,020個通過,成功率96.84%。v5.8e版本新增1,044個文件,總數15,552,通過數15,362,成功率98.78%。失敗數從488降到190,凈減少298個。
更細的數據:在v5.7的參考語料上,原本289個失敗案例,一次開發會話就修掉了180個,成功率沖到99.25%。
他們的"有效Python"定義極其苛刻——不是人工審閱,不是字符串比對,不是風格檢查,而是直接丟進Python的ast.parse()。通過就是通過,報SyntaxError就是失敗,沒有中間態。這種二進制判定連模型幻覺的空間都沒留。
190個硬骨頭:邊界在哪
剩下的190個失敗案例,AGUELLID CODE列得清清楚楚。TypeCOBOL的多級限定、REPLACE語句、類型表達式,約60個;GnuCOBOL的GUI、位運算、面向對象、SCREEN SECTION,約40個;非標準COBOL比如WebSocket、brainfuck解釋器、.NET GUI,約30個;STRING/UNSTRING的深度嵌套、多分隔符,約25個;大型機特有的CICS內聯、復雜EXEC SQL、嵌套copybook,約35個。
這些不是翻譯bug,是解析器本來就沒理解的構造。語義中間表示(semantic intermediate representation)再強,也沒法憑空生成沒見過的東西。
他們的技術路線很明確:COBOL先轉成語義中間表示,再生成行為等價而非逐行對應的Python。沒有神經網絡,沒有提示詞,沒有采樣隨機性。相同輸入永遠得到相同輸出,邏輯可審計,路徑可追溯。
2200億行COBOL的維護困境
全球約有2200億行COBOL在生產環境運行。寫這些代碼的工程師大多退休,文檔殘缺,系統行為成了"機構記憶編碼在語法里"。銀行、保險、政府系統想現代化,但"模型覺得自己對了"這種解釋在監管面前站不住腳。
AGUELLID CODE的賣點就在這里——確定性。不是更快,不是更聰明,是可解釋、可復現、可追責。這在需要留審計痕跡的領域是硬通貨。
測試覆蓋的131個倉庫、5個大洲、15,552個程序,本質上是在說:我們不是挑軟柿子捏。失敗案例公開分類,修復進度透明,這種打法在AI翻譯工具里少見。
190個失敗案例會降到多少?TypeCOBOL和大型機方言的支持時間表是什么?他們沒說。但98.78%這個數字本身已經構成一種挑釁——不用大模型,純規則驅動,能做到這個水平,那些押注LLM重寫COBOL的創業公司要怎么接招?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.