1月21日,微軟研究院推出首款機(jī)器人專屬 Rho-alpha 模型,該模型基于 Phi 系列視覺語言模型打造,可直接將自然語言指令轉(zhuǎn)化為控制信號(hào),實(shí)現(xiàn)多模態(tài)感知與端到端控制,當(dāng)然這不是重點(diǎn),重點(diǎn)是Rho-alpha 模型除了視覺與語言兩大基礎(chǔ)感知維度之外,創(chuàng)新性地加入了觸覺感知模塊,將機(jī)器人直接拉入物理智能的范疇。
![]()
要知道過去的幾十年間,人形機(jī)器人的研發(fā)重點(diǎn)一直圍繞結(jié)構(gòu)設(shè)計(jì)、新型材料、高性能電機(jī)和精密控制系統(tǒng)展開。而微軟的全新Rho-alpha模型,直接連接了機(jī)器人的感知、語言與動(dòng)作,成為了決定機(jī)器人能力上限的關(guān)鍵。
▍Rho-alpha是扎根物理世界的智能模型
按照微軟官方的定義,Rho-alpha是其首款專為機(jī)器人場(chǎng)景打造的模型。它的核心能力,是將人類發(fā)出的自然語言指令,直接轉(zhuǎn)化為機(jī)器人的控制信號(hào),以此完成雙手協(xié)同操作類任務(wù)。
![]()
這款模型的研發(fā)目標(biāo)十分明確,就是打破機(jī)器人只能在高度可控環(huán)境內(nèi)運(yùn)行的限制,推動(dòng)機(jī)器人走進(jìn)復(fù)雜且充滿不確定性的真實(shí)世界開展工作。這意味著機(jī)器人可以擺脫固定腳本的約束,依靠模型自主生成適配不同場(chǎng)景的動(dòng)作。
微軟將這種技術(shù)路徑命名為“Physical AI”,簡(jiǎn)單來說,就是讓人工智能從數(shù)字世界延伸到物理世界,實(shí)現(xiàn)與真實(shí)環(huán)境的直接交互。傳統(tǒng)大模型的優(yōu)勢(shì)集中在語言交互層面,而Rho-alpha的發(fā)力點(diǎn)在于解決機(jī)器人“動(dòng)手執(zhí)行”的實(shí)際問題。
▍對(duì)比其他模型微軟Rho-alpha模型有三個(gè)非常明顯的差異
當(dāng)前機(jī)器人領(lǐng)域的主流技術(shù)路線是VLA(視覺-語言-行動(dòng))模型,但這類模型大多停留在實(shí)驗(yàn)室階段,在真實(shí)世界的適應(yīng)能力存在明顯短板。Rho-alpha模型的主要能力提升在于三個(gè)維度。
首先是觸覺納入核心決策環(huán)節(jié),Rho-alpha在視覺與語言兩大基礎(chǔ)感知維度之外,創(chuàng)新性地加入了觸覺感知模塊,后續(xù)還計(jì)劃引入力覺等更多感知模態(tài)。這個(gè)改動(dòng)能夠讓機(jī)器人根據(jù)物理接觸產(chǎn)生的反饋,動(dòng)態(tài)調(diào)整自身動(dòng)作,不再單純依靠視覺信息進(jìn)行判斷。
這正是Rho-alpha與絕大多數(shù)VLA模型拉開差距的核心所在。當(dāng)下主流的機(jī)器人模型中,RT-2主打視覺與語言的融合,GPT-4o在此基礎(chǔ)上增加了音頻感知能力,多數(shù)VLA模型更是以視覺作為核心感知手段。微軟的做法,相當(dāng)于直接將“觸覺”推到了機(jī)器人決策的核心圈層。
觸覺對(duì)于機(jī)器人靈巧手的重要性不言而喻。視覺只能幫助機(jī)器人識(shí)別物體“是什么”,觸覺可以讓機(jī)器人判斷這個(gè)物體“能不能操作”,力覺則能進(jìn)一步明確操作時(shí)“該用多大力度”。人類操作物體的過程中,“手感”起到了決定性作用,Rho-alpha正是朝著這個(gè)方向邁進(jìn),成為少數(shù)真正面向“物理操作”的機(jī)器人模型。
這不是簡(jiǎn)單地給機(jī)器人外掛一個(gè)觸覺模塊,Rho-alpha從訓(xùn)練階段就將觸覺、視覺、語言和雙臂控制技術(shù)融合共訓(xùn),形成了一套完整的感知-動(dòng)作閉環(huán)系統(tǒng)。它能根據(jù)接觸過程中的力和力矩變化,實(shí)時(shí)微調(diào)操作角度和力度,有效避免動(dòng)作卡滯或者損壞物體的情況發(fā)生。
在官方演示中,UR5e雙臂機(jī)器人就借助這項(xiàng)技術(shù)完成了精準(zhǔn)插接任務(wù)。機(jī)器人左臂負(fù)責(zé)定位接口位置,右臂執(zhí)行推進(jìn)插入動(dòng)作。接觸過程中,機(jī)器人通過力覺、觸覺傳感信號(hào)捕捉阻力變化,模型再根據(jù)這些數(shù)據(jù)調(diào)整動(dòng)作策略,最終實(shí)現(xiàn)穩(wěn)定順暢的插入操作。
此外,Rho-alpha采用了一套全新的訓(xùn)練方案,將真實(shí)機(jī)器人演示數(shù)據(jù)、仿真任務(wù)數(shù)據(jù)和大規(guī)模視覺問答數(shù)據(jù)三者深度融合。
海量合成數(shù)據(jù)由運(yùn)行在Azure云平臺(tái)上的機(jī)器人仿真和強(qiáng)化學(xué)習(xí)流水線生成,再與商業(yè)數(shù)據(jù)集、開放數(shù)據(jù)集中的真實(shí)機(jī)器人數(shù)據(jù)整合使用。這種創(chuàng)新的訓(xùn)練方式,有效緩解了機(jī)器人領(lǐng)域長(zhǎng)期存在的數(shù)據(jù)稀缺難題。
值得一提的是,Rho-alpha擁有強(qiáng)大的持續(xù)學(xué)習(xí)能力,支持在實(shí)際部署后,通過人類反饋持續(xù)優(yōu)化自身行為表現(xiàn)。
當(dāng)機(jī)器人在操作過程中出現(xiàn)失誤時(shí),人類操作者可以借助3D輸入設(shè)備等直觀工具進(jìn)行干預(yù)糾正。系統(tǒng)會(huì)把這些糾正反饋納入后續(xù)的學(xué)習(xí)過程,讓機(jī)器人在實(shí)踐中不斷迭代升級(jí)。
▍人形機(jī)器人的技術(shù)重心正在向操作系統(tǒng)級(jí)迭代
值得關(guān)注的是,Rho-alpha已經(jīng)在雙臂機(jī)器人和人形機(jī)器人平臺(tái)上完成了評(píng)估測(cè)試。這一進(jìn)展,標(biāo)志著人形機(jī)器人的技術(shù)重心正在發(fā)生根本性轉(zhuǎn)移。
![]()
過去,人形機(jī)器人的核心競(jìng)爭(zhēng)力集中在硬件配置和控制算法層面。如今,模型正在逐漸成為人形機(jī)器人的“操作系統(tǒng)層”,成為新的競(jìng)爭(zhēng)核心。
當(dāng)前行業(yè)內(nèi)形成了三種不同的技術(shù)路線,特斯拉走的是“硬件+數(shù)據(jù)閉環(huán)”的路子,谷歌專注于“算法+頂級(jí)機(jī)器人本體”的研發(fā),微軟則另辟蹊徑,主打“基礎(chǔ)模型+云+生態(tài)”的技術(shù)布局。這三條路線的背后,是三種人形機(jī)器人技術(shù)棧的正面交鋒。
當(dāng)然我們也必須清醒地認(rèn)識(shí)到,Rho-alpha目前還處于研究階段,距離大規(guī)模商業(yè)化落地還有很長(zhǎng)的路要走。它還沒有攻克機(jī)器人領(lǐng)域的幾個(gè)核心難題,比如長(zhǎng)尾場(chǎng)景的泛化能力、成本控制與安全保障,以及大規(guī)模部署的技術(shù)可行性。
但不可否認(rèn)的是,Rho-alpha已經(jīng)改變了機(jī)器人行業(yè)的競(jìng)爭(zhēng)邏輯。過去,行業(yè)內(nèi)比拼的是誰能造出結(jié)構(gòu)更復(fù)雜、性能更強(qiáng)大的機(jī)器人本體。現(xiàn)在,越來越多的參與者開始思考,誰能定義下一代機(jī)器人的基礎(chǔ)模型。
隨著谷歌、微軟、特斯拉、OpenAI等科技巨頭紛紛入局,機(jī)器人行業(yè)也邁向了一個(gè)全新的發(fā)展階段。誰能夠構(gòu)建起基礎(chǔ)模型體系的話語權(quán),誰就能拿到未來的船票,讓我們拭目以待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.