![]()
![]()
優(yōu)必選百億參數(shù)基座的多模態(tài)大模型Thinker霸榜多項(xiàng)全球榜單。
作者 |許麗思
編輯 |漠影
機(jī)器人前瞻9月9日?qǐng)?bào)道,近日,在機(jī)器人感知與規(guī)劃領(lǐng)域三大國(guó)際權(quán)威基準(zhǔn)測(cè)試——分別由微軟、谷歌、香港大學(xué)等發(fā)起與提出的MS COCO Detection Challenge、RoboVQA與Egoplan-bench2中,優(yōu)必選自主研發(fā)的百億參數(shù)基座的多模態(tài)大模型Thinker,針對(duì)二十一個(gè)場(chǎng)景、四大類型的任務(wù)規(guī)劃等命題,奪得了四項(xiàng)全球榜單第一。
另外,參與本次排名的模型,還包括北京智源、英偉達(dá)ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。
01.
由微軟、谷歌、港大發(fā)起,
覆蓋工作、生活等多場(chǎng)景測(cè)試
MS COCO Detection Challenge 由微軟發(fā)起的,是全球最具影響力的計(jì)算機(jī)視覺評(píng)測(cè)之一,主要通過真實(shí)場(chǎng)景圖像驗(yàn)證模型對(duì)物體的精準(zhǔn)識(shí)別與定位能力,在全球?qū)W術(shù)界與工業(yè)界享有極高認(rèn)可度。
![]()
▲優(yōu)必選Thinker在MS COCO detection challenge - Segmentation Mask中排名第一
RoboVQA 由谷歌 DeepMind 提出的,是首個(gè)針對(duì)機(jī)器人的多模態(tài)長(zhǎng)程推理評(píng)測(cè),聚焦于驗(yàn)證模型能否將視覺信息、語言指令與物理常識(shí)結(jié)合,實(shí)現(xiàn)多步驟任務(wù)規(guī)劃與動(dòng)態(tài)決策。 RoboVQA關(guān)注模型的規(guī)劃、區(qū)分性能力、生成性能力、過去描述和未來預(yù)測(cè)能力等。
![]()
▲優(yōu)必選Thinker在MS COCO detection challenge - Bounding Box排名中并列第一
Egoplan-bench2由香港大學(xué)提出,是首個(gè)聚焦現(xiàn)實(shí)場(chǎng)景多模態(tài)規(guī)劃的基準(zhǔn)測(cè)試,通過第一人稱視角視頻模擬人類日常任務(wù),驗(yàn)證模型在動(dòng)態(tài)環(huán)境中的長(zhǎng)程決策能力。 Egoplan-bench2覆蓋了工作場(chǎng)景、日常生活場(chǎng)景、娛樂場(chǎng)景以及應(yīng)急與特殊場(chǎng)景等。
![]()
▲優(yōu)必選Thinker在RoboVQA與Egoplan-bench2中排名第一
02.
整合多項(xiàng)關(guān)鍵技術(shù),
提升機(jī)器人感知與推理規(guī)劃能力
優(yōu)必選的Thinker架構(gòu)與訓(xùn)練框架,通過多項(xiàng)關(guān)鍵技術(shù)創(chuàng)新性整合,系統(tǒng)化提升了人形機(jī)器人的感知與推理規(guī)劃能力。
自研視覺編碼器基座,構(gòu)建精準(zhǔn)環(huán)境感知
優(yōu)必選以ViT作為視覺編碼器原型,結(jié)合Co-DETR檢測(cè)頭,依托Object 365等開源數(shù)據(jù)在通用視覺任務(wù)上進(jìn)行預(yù)訓(xùn)練,并通過多階段模態(tài)對(duì)齊機(jī)制實(shí)現(xiàn)了視覺-語言模態(tài)的高效融合。最終,在優(yōu)必選機(jī)器人數(shù)據(jù)集上進(jìn)行微調(diào),顯著提升機(jī)器人在工業(yè)場(chǎng)景中對(duì)物體、障礙和操作上下文的識(shí)別能力,為復(fù)雜環(huán)境下穩(wěn)定可靠的多模態(tài)環(huán)境感知奠定了堅(jiān)實(shí)基礎(chǔ)。
超大規(guī)模參數(shù)架構(gòu),提供強(qiáng)大語義理解基礎(chǔ)
優(yōu)必選自研了具有百億參數(shù)的多模態(tài)大模型Thinker基座,實(shí)現(xiàn)視覺-語言-時(shí)間的跨域統(tǒng)一表征,使機(jī)器人能夠在多場(chǎng)景中準(zhǔn)確捕捉環(huán)境細(xì)節(jié)、理解任務(wù)指令并做出推理,為自動(dòng)化操作提供可靠的認(rèn)知基礎(chǔ)。
時(shí)序增強(qiáng)算法與強(qiáng)化學(xué)習(xí)方法,增強(qiáng)長(zhǎng)程任務(wù)規(guī)劃連貫可靠
通過大模型蒸餾技術(shù),將百億參數(shù)模型效果濃縮至7B參數(shù)模型中,在保持高性能的同時(shí)增強(qiáng)多步驟任務(wù)分解與連續(xù)決策能力。該優(yōu)化使模型可以在端側(cè)部署,用機(jī)器人自身搭載的算力就可實(shí)時(shí)自主拆解復(fù)雜流程,避免規(guī)劃中斷或邏輯混亂,在流程嚴(yán)格、環(huán)環(huán)相扣的工業(yè)場(chǎng)景中展現(xiàn)出關(guān)鍵價(jià)值,將有力保障生產(chǎn)連貫性和操作安全性。

03.
打造通用基礎(chǔ)能力,工業(yè)場(chǎng)景再進(jìn)行精調(diào)
優(yōu)必選采用了“通用基礎(chǔ)能力打造+工業(yè)場(chǎng)景精調(diào)”的微調(diào)策略,基于超200萬條視頻數(shù)據(jù)構(gòu)成的大規(guī)模訓(xùn)練集進(jìn)行預(yù)訓(xùn)練,隨后引入優(yōu)必選在工廠實(shí)訓(xùn)中積累的億級(jí)工業(yè)數(shù)據(jù)集進(jìn)行微調(diào),并對(duì)工業(yè)場(chǎng)景任務(wù)規(guī)劃數(shù)據(jù)加以清洗與整合,構(gòu)建高效多模態(tài)大模型學(xué)習(xí)閉環(huán)。
通過這一流程,模型能夠快速學(xué)習(xí)工業(yè)場(chǎng)景的視覺特征、任務(wù)規(guī)則與操作偏好,最終顯著提升人形機(jī)器人在工業(yè)場(chǎng)景中的理解準(zhǔn)確率、規(guī)劃適配性與決策可靠性,實(shí)現(xiàn)在多種復(fù)雜場(chǎng)景中的泛化性與穩(wěn)定性。
借助Thinker,Walker S2可精準(zhǔn)識(shí)別設(shè)備、物料與障礙物,深度理解場(chǎng)景語義及操作前后邏輯關(guān)聯(lián),提升長(zhǎng)周期任務(wù)的執(zhí)行穩(wěn)定性。在復(fù)雜流水線環(huán)境中,機(jī)器人展現(xiàn)出持續(xù)連貫的規(guī)劃能力,大幅降低對(duì)人工干預(yù)的依賴。
實(shí)際應(yīng)用數(shù)據(jù)顯示,相比僅基于通用數(shù)據(jù)微調(diào)的模型,采用工業(yè)數(shù)據(jù)集進(jìn)行二次微調(diào)后,Walker S2在拆碼垛規(guī)劃等典型任務(wù)的中的規(guī)劃精度提升超過 20%,相關(guān)技術(shù)報(bào)告將在arxiv上發(fā)布。

▲Walker S2在工業(yè)場(chǎng)景中自主規(guī)劃任務(wù)
04.
結(jié)語:人形機(jī)器人邁向大規(guī)模應(yīng)用,
還亟需開放協(xié)同的應(yīng)用生態(tài)
當(dāng)前,人形機(jī)器人正處于從技術(shù)驗(yàn)證到大規(guī)模應(yīng)用的關(guān)鍵拐點(diǎn),其發(fā)展亟需與開發(fā)者共同構(gòu)建開放、協(xié)同的應(yīng)用生態(tài)。
優(yōu)必選稱,后續(xù)將逐步開源一系列業(yè)界稀缺的工業(yè)場(chǎng)景數(shù)據(jù)集與通用基礎(chǔ)大模型,為全行業(yè)提供源自實(shí)際應(yīng)用一線的高質(zhì)量合規(guī)數(shù)據(jù)資源。開發(fā)者可基于優(yōu)必選多模態(tài)大模型Thinker,面向各類新場(chǎng)景開展精調(diào)與二次開發(fā),助力提升開發(fā)效率。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.