網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

國(guó)產(chǎn)人形機(jī)器人連奪四項(xiàng)全球第一，模型霸榜三大國(guó)際測(cè)評(píng)

2025-09-09 12:20:37　來源: 機(jī)器人前瞻

北京舉報(bào)

分享至

優(yōu)必選百億參數(shù)基座的多模態(tài)大模型Thinker霸榜多項(xiàng)全球榜單。

作者 |許麗思

編輯 |漠影

機(jī)器人前瞻9月9日?qǐng)?bào)道，近日，在機(jī)器人感知與規(guī)劃領(lǐng)域三大國(guó)際權(quán)威基準(zhǔn)測(cè)試——分別由微軟、谷歌、香港大學(xué)等發(fā)起與提出的MS COCO Detection Challenge、RoboVQA與Egoplan-bench2中，優(yōu)必選自主研發(fā)的百億參數(shù)基座的多模態(tài)大模型Thinker，針對(duì)二十一個(gè)場(chǎng)景、四大類型的任務(wù)規(guī)劃等命題，奪得了四項(xiàng)全球榜單第一。

另外，參與本次排名的模型，還包括北京智源、英偉達(dá)ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。

01.

由微軟、谷歌、港大發(fā)起，

覆蓋工作、生活等多場(chǎng)景測(cè)試

MS COCO Detection Challenge 由微軟發(fā)起的，是全球最具影響力的計(jì)算機(jī)視覺評(píng)測(cè)之一，主要通過真實(shí)場(chǎng)景圖像驗(yàn)證模型對(duì)物體的精準(zhǔn)識(shí)別與定位能力，在全球?qū)W術(shù)界與工業(yè)界享有極高認(rèn)可度。

▲優(yōu)必選Thinker在MS COCO detection challenge - Segmentation Mask中排名第一

RoboVQA 由谷歌 DeepMind 提出的，是首個(gè)針對(duì)機(jī)器人的多模態(tài)長(zhǎng)程推理評(píng)測(cè)，聚焦于驗(yàn)證模型能否將視覺信息、語言指令與物理常識(shí)結(jié)合，實(shí)現(xiàn)多步驟任務(wù)規(guī)劃與動(dòng)態(tài)決策。 RoboVQA關(guān)注模型的規(guī)劃、區(qū)分性能力、生成性能力、過去描述和未來預(yù)測(cè)能力等。

▲優(yōu)必選Thinker在MS COCO detection challenge - Bounding Box排名中并列第一

Egoplan-bench2由香港大學(xué)提出，是首個(gè)聚焦現(xiàn)實(shí)場(chǎng)景多模態(tài)規(guī)劃的基準(zhǔn)測(cè)試，通過第一人稱視角視頻模擬人類日常任務(wù)，驗(yàn)證模型在動(dòng)態(tài)環(huán)境中的長(zhǎng)程決策能力。 Egoplan-bench2覆蓋了工作場(chǎng)景、日常生活場(chǎng)景、娛樂場(chǎng)景以及應(yīng)急與特殊場(chǎng)景等。

▲優(yōu)必選Thinker在RoboVQA與Egoplan-bench2中排名第一

02.

整合多項(xiàng)關(guān)鍵技術(shù)，

提升機(jī)器人感知與推理規(guī)劃能力

優(yōu)必選的Thinker架構(gòu)與訓(xùn)練框架，通過多項(xiàng)關(guān)鍵技術(shù)創(chuàng)新性整合，系統(tǒng)化提升了人形機(jī)器人的感知與推理規(guī)劃能力。

自研視覺編碼器基座，構(gòu)建精準(zhǔn)環(huán)境感知

優(yōu)必選以ViT作為視覺編碼器原型，結(jié)合Co-DETR檢測(cè)頭，依托Object 365等開源數(shù)據(jù)在通用視覺任務(wù)上進(jìn)行預(yù)訓(xùn)練，并通過多階段模態(tài)對(duì)齊機(jī)制實(shí)現(xiàn)了視覺-語言模態(tài)的高效融合。最終，在優(yōu)必選機(jī)器人數(shù)據(jù)集上進(jìn)行微調(diào)，顯著提升機(jī)器人在工業(yè)場(chǎng)景中對(duì)物體、障礙和操作上下文的識(shí)別能力，為復(fù)雜環(huán)境下穩(wěn)定可靠的多模態(tài)環(huán)境感知奠定了堅(jiān)實(shí)基礎(chǔ)。

超大規(guī)模參數(shù)架構(gòu)，提供強(qiáng)大語義理解基礎(chǔ)

優(yōu)必選自研了具有百億參數(shù)的多模態(tài)大模型Thinker基座，實(shí)現(xiàn)視覺-語言-時(shí)間的跨域統(tǒng)一表征，使機(jī)器人能夠在多場(chǎng)景中準(zhǔn)確捕捉環(huán)境細(xì)節(jié)、理解任務(wù)指令并做出推理，為自動(dòng)化操作提供可靠的認(rèn)知基礎(chǔ)。

時(shí)序增強(qiáng)算法與強(qiáng)化學(xué)習(xí)方法，增強(qiáng)長(zhǎng)程任務(wù)規(guī)劃連貫可靠

通過大模型蒸餾技術(shù)，將百億參數(shù)模型效果濃縮至7B參數(shù)模型中，在保持高性能的同時(shí)增強(qiáng)多步驟任務(wù)分解與連續(xù)決策能力。該優(yōu)化使模型可以在端側(cè)部署，用機(jī)器人自身搭載的算力就可實(shí)時(shí)自主拆解復(fù)雜流程，避免規(guī)劃中斷或邏輯混亂，在流程嚴(yán)格、環(huán)環(huán)相扣的工業(yè)場(chǎng)景中展現(xiàn)出關(guān)鍵價(jià)值，將有力保障生產(chǎn)連貫性和操作安全性。

03.

打造通用基礎(chǔ)能力，工業(yè)場(chǎng)景再進(jìn)行精調(diào)

優(yōu)必選采用了“通用基礎(chǔ)能力打造+工業(yè)場(chǎng)景精調(diào)”的微調(diào)策略，基于超200萬條視頻數(shù)據(jù)構(gòu)成的大規(guī)模訓(xùn)練集進(jìn)行預(yù)訓(xùn)練，隨后引入優(yōu)必選在工廠實(shí)訓(xùn)中積累的億級(jí)工業(yè)數(shù)據(jù)集進(jìn)行微調(diào)，并對(duì)工業(yè)場(chǎng)景任務(wù)規(guī)劃數(shù)據(jù)加以清洗與整合，構(gòu)建高效多模態(tài)大模型學(xué)習(xí)閉環(huán)。

通過這一流程，模型能夠快速學(xué)習(xí)工業(yè)場(chǎng)景的視覺特征、任務(wù)規(guī)則與操作偏好，最終顯著提升人形機(jī)器人在工業(yè)場(chǎng)景中的理解準(zhǔn)確率、規(guī)劃適配性與決策可靠性，實(shí)現(xiàn)在多種復(fù)雜場(chǎng)景中的泛化性與穩(wěn)定性。

借助Thinker，Walker S2可精準(zhǔn)識(shí)別設(shè)備、物料與障礙物，深度理解場(chǎng)景語義及操作前后邏輯關(guān)聯(lián)，提升長(zhǎng)周期任務(wù)的執(zhí)行穩(wěn)定性。在復(fù)雜流水線環(huán)境中，機(jī)器人展現(xiàn)出持續(xù)連貫的規(guī)劃能力，大幅降低對(duì)人工干預(yù)的依賴。

實(shí)際應(yīng)用數(shù)據(jù)顯示，相比僅基于通用數(shù)據(jù)微調(diào)的模型，采用工業(yè)數(shù)據(jù)集進(jìn)行二次微調(diào)后，Walker S2在拆碼垛規(guī)劃等典型任務(wù)的中的規(guī)劃精度提升超過 20%，相關(guān)技術(shù)報(bào)告將在arxiv上發(fā)布。

▲Walker S2在工業(yè)場(chǎng)景中自主規(guī)劃任務(wù)

04.

結(jié)語：人形機(jī)器人邁向大規(guī)模應(yīng)用，

還亟需開放協(xié)同的應(yīng)用生態(tài)

當(dāng)前，人形機(jī)器人正處于從技術(shù)驗(yàn)證到大規(guī)模應(yīng)用的關(guān)鍵拐點(diǎn)，其發(fā)展亟需與開發(fā)者共同構(gòu)建開放、協(xié)同的應(yīng)用生態(tài)。

優(yōu)必選稱，后續(xù)將逐步開源一系列業(yè)界稀缺的工業(yè)場(chǎng)景數(shù)據(jù)集與通用基礎(chǔ)大模型，為全行業(yè)提供源自實(shí)際應(yīng)用一線的高質(zhì)量合規(guī)數(shù)據(jù)資源。開發(fā)者可基于優(yōu)必選多模態(tài)大模型Thinker，面向各類新場(chǎng)景開展精調(diào)與二次開發(fā)，助力提升開發(fā)效率。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.