![]()
隨著端到端自動駕駛2.0方案的不斷涌現,強化學習的概念再次站到了舞臺中間。
借著這個機會,今天跟大家談一談智能的三種范式,以及模仿學習與強化學習的不同點。
古代先賢將天、地、人視為三才,看似渺小的人類可以與廣袤的天地并立,是因為人類具有其它物種不曾擁有的智能,發展出了改天換地的能力。
到了人工智能時代,碳基人類孵化出已經實現全知、正在邁向全能的硅基人類新物種,對這個新物種而言,其智能的獲得有規則編寫、模仿學習和強化學習三種方式。
![]()
從人工智能的三大流派來看,編寫規則屬于符號主義學派,模仿學習和強化學習屬于連接主義學派。
符號主義的核心思想是人類專家將知識和決策過程編寫為明確的邏輯規則,用各種符號來表達知識和概念之間的關聯。
該學派的典型代表作是專家系統,它將特定領域的知識編碼到知識庫中,推理引擎根據輸入的事實進行匹配并執行相應的規則,得出具體的結論。
![]()
連接主義的核心思想是智能來自于神經網絡及其連接機制,強調的是從數據中學習,構建由大量簡單的處理單元通過帶有權重的連接組成的人工神經網絡。
根據輸入數據自動調整網絡中的連接權重,以最小化網絡輸出和真實輸出之間的誤差,使得網絡學習輸入和輸出之間的復雜映射關系并具備泛化能力。
![]()
具體到自動駕駛領域,23年之前,頭部智駕企業實現了基于深度神經網絡的感知。
在駕駛策略決策上依賴天生牛馬的程序員編寫的程序,感知層踐行的是連接主義,決策層踐行的是符號主義,算是符號主義和連接主義的混合體。
![]()
24年之后,頭部智駕企業紛紛效法特斯拉轉型端到端方案,其核心轉變在于決策層由規則驅動的編碼轉向數據驅動的深度神經網絡,從學術流派上來看,則是全面轉向了連接主義。
成也蕭何,敗也蕭何。人是推動基于符號主義的人工智能系統智能水平提升的關鍵動力,也是拖累這類AI系統能力進步的關鍵因素。
就自動駕駛系統而言,如果還困守在規則編碼范式上,隨著其設計運行條件越來越寬泛,這種將人類復雜思維和業務邏輯映射為代碼形式的規則編碼系統將在維護和擴展上面臨越來越大的挑戰。
![]()
隨著自動駕駛從簡單的高速場景進入交通流復雜的城區場景,幾萬條甚至幾十萬條規則極其復雜地交織在一起,能夠handle得住這些復雜規則的程序員越來越少了。
一方面,高昂的認知復雜度和規則交互的不可預測性給系統的魯棒性、安全性帶來了很大的隱患。
另一方面,由于天才程序員極其稀少,規則系統的核心邏輯往往掌握在少數幾個極度資深的關鍵人物頭腦中,一旦他們離職或者調動,系統的維護就會面臨巨大的風險。
![]()
比技術本身的復雜性更加棘手的是人因問題。
當代碼的規模越來越大,原本依賴個人智慧的單兵突進開發方式迅速失效,轉向兵團作戰的開發方式時,為了克服開發和測試人員在理解、溝通、協作和維護規則代碼時存在的天然限制和水平差異,需要圍繞人因協作定義軟件活動、軟件開發流程和軟件體系,帶來了軟件工程難題。
![]()
自動駕駛算法轉型端到端范式之后,系統提升自身智能水平的途徑由符號主義的規則編碼轉向連接主義的數據驅動深度學習,自然而然地解決了規則代碼復雜性和人因的問題。
更重要的,端到端還解決了把錢花在人力上還是花在物力(算力卡)上的問題,見異思遷的人員可以自由流動,買來的算力卡卻不長腿,對于萬惡的資本家來說,哪種方式更加誘人是不言而喻的。
有人的地方就有江湖,有江湖的地方就有紛爭。
自動駕駛算法范式由傳統的端到端1.0向端到端2.0方案切換以來,基于強化學習的一段式端到端、VLA和世界行為模型這三種技術路線之間展開了你來我往的輿論大混戰,再次驗證了在競爭激烈的本土智能電動汽車江湖里,講的不是人情世故,而是打打殺殺。
![]()
說起來,這三種方案各有各的優點,各有各的缺陷,求同存異的話,它們都在訓練階段引入了強化學習,也就是說,它們的學習方式都由原來的模仿學習走向了模仿學習+強化學習的混合學習。
![]()
在自動駕駛領域,模仿學習的核心是讓司機Agent通過觀察專家司機在特定狀態下的動作,學習從感知傳感器輸入到動作輸出之間的映射策略,使得在遇到相同或相似的狀態時,系統能夠采取與老司機相似的動作。
這種學習方式可以直接利用現成的駕駛數據,無需與環境進行耗時且可能危險的交互,能夠快速獲得一個表現不錯的策略。
而且,由于模仿人類,其駕駛風格更加擬人,行為更加自然。
強化學習的核心是將駕駛問題建模為馬爾科夫決策過程,不斷進行“感知狀態-選擇動作-執行動作-獲得反饋-學習與更新”的重復循環,通過與環境的反復試錯交互,根據獲得的獎勵信號自主學習最優的策略。
![]()
模仿學習的缺點非常明顯,有樣學樣,模仿的人類專家水平就是這類模型的天花板,費心費力在這個賽道上投入了幾十萬億,人類對自動駕駛系統的期待肯定不能這么低。
強化學習解決了這個天花板問題,它通過自我的博弈和探索,可以發現人類未曾想到的更高效更安全的駕駛策略,做到了青出于藍而勝于藍!
目前,業界普遍采用融合模仿學習和強化學習的方案,先通過模仿學習將自動駕駛系統的水平高效率地提升到人類水平,再通過強化學習把人類老司機拍在沙灘上。 至于強化學習能將自動駕駛系統的智能水平提高到什么程度,特斯拉新推出的FSD V14給了非常驚艷的答案!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.