![]()
機(jī)器之心報(bào)道
機(jī)器之心編輯部
當(dāng)前,AI 領(lǐng)域的研究者與開發(fā)者在關(guān)注 OpenAI、Google 等領(lǐng)先機(jī)構(gòu)最新進(jìn)展的同時(shí),也將目光投向了由前 OpenAI CTO Mira Murati 創(chuàng)辦的 Thinking Machines Lab。
今年早些時(shí)候,他們推出了首款產(chǎn)品 Tinker:這是一個(gè) API,用于幫開發(fā)者 / 研究人員微調(diào)語言模型。你只需要專注于訓(xùn)練數(shù)據(jù)和算法,而你不擅長的關(guān)于 Infra 的部分 —— 調(diào)度、調(diào)優(yōu)、資源管理和 Infra 可靠性 —— 統(tǒng)統(tǒng)由 Tinker 來搞定,從而大大簡化了 LLM 的后訓(xùn)練過程。
此前,Tinker 僅向研究人員和開發(fā)者開放內(nèi)部測試;而如今,Thinking Machines 宣布正式取消候選名單,所有用戶都可以直接使用 Tinker
除此以外,Tinker 還帶來了其他三項(xiàng)更新:
首先,更強(qiáng)推理能力:用戶現(xiàn)在可以在 Tinker 上對 Kimi K2 Thinking 進(jìn)行微調(diào)。 Kimi K2 擁有萬億參數(shù)規(guī)模,是 Thinking Machines 目前規(guī)模最大的模型,專為長鏈推理和工具調(diào)用場景而設(shè)計(jì)。
其次,兼容 OpenAI API 的全新推理接口:Tinker 提供了標(biāo)準(zhǔn)的推理接口,例如:
![]()
借助本次發(fā)布,Tinker 還新增了兼容 OpenAI API 的接口封裝,用戶只需通過指定模型路徑,即可對模型進(jìn)行快速采樣,即使模型仍處于訓(xùn)練過程中也可以使用。
這也意味著,Tinker 現(xiàn)在可以即插即用地接入任何兼容 OpenAI API 的平臺(tái)。
![]()
最后,Qwen3-VL 支持視覺輸入。Tinker 新增了兩款視覺模型:Qwen3-VL-30B-A3B-Instruct 和 Qwen3-VL-235B-A22B-Instruct。借助這些模型,用戶可以在多種應(yīng)用場景中處理圖片、截圖以及示意圖等視覺內(nèi)容。
![]()
這些視覺輸入開箱即用,可直接應(yīng)用于多種任務(wù)場景,包括監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)微調(diào)。
![]()
Tinker支持的模型
過去,開發(fā)者若想訓(xùn)練或微調(diào)前沿大模型,必須自行采購 GPU、搭建集群、處理 CUDA/NCCL 環(huán)境、維護(hù)分布式訓(xùn)練穩(wěn)定性,門檻極高且成本巨大。
而 Tinker 通過將所有訓(xùn)練基礎(chǔ)設(shè)施抽象為一個(gè) API,使開發(fā)者無需管理任何算力資源,只需準(zhǔn)備數(shù)據(jù)和算法即可訓(xùn)練模型。更重要的是,此次更新首次讓普通開發(fā)者能夠微調(diào)萬億參數(shù)的 Kimi K2 Thinking,這本來是只有頂級(jí)實(shí)驗(yàn)室才能掌握的能力,視覺輸入的加入進(jìn)一步降低了 VLM 應(yīng)用門檻。
對此,研究者紛紛表示:「能夠在無需自行管理 GPU 基礎(chǔ)設(shè)施的情況下訓(xùn)練自定義圖文數(shù)據(jù),對開發(fā)者來說是一項(xiàng)巨大的進(jìn)步。」
![]()
使用 Tinker 訓(xùn)練圖像分類模型
為了展示 Tinker 新增的視覺能力,Thinking Machines Lab 對 Qwen3-VL-235B-A22B-Instruct 進(jìn)行了微調(diào),并將其應(yīng)用于多項(xiàng)經(jīng)典圖像分類基準(zhǔn)測試中。
具體而言,研究團(tuán)隊(duì)選擇了四個(gè)常用的數(shù)據(jù)集進(jìn)行評估,包括:
- Caltech-101:包含 101 類常見物體的數(shù)據(jù)集
- Stanford Cars:涵蓋汽車品牌、型號(hào)和年份的數(shù)據(jù)集
- Oxford Flowers:花卉品種數(shù)據(jù)集
- Oxford Pets:寵物品種數(shù)據(jù)集
由于 Qwen3-VL 本質(zhì)上是語言模型,研究中將圖像分類任務(wù)建模為文本生成問題:給定一張圖片,模型直接輸出對應(yīng)的類別名稱。研究人員將這一方法與傳統(tǒng)的視覺基線方案 DINOv2 進(jìn)行了對比。
DINOv2 是一種通過自監(jiān)督方式訓(xùn)練的視覺 Transformer,常被用作純計(jì)算機(jī)視覺任務(wù)的 backbone。對于 DINOv2,研究中在其模型之上添加了一個(gè)分類頭,用于預(yù)測所有 N 個(gè)類別的概率分布。兩種模型均采用 LoRA 方式進(jìn)行微調(diào)。
![]()
圖中展示了經(jīng)過微調(diào)的 Qwen3-VL-235B-A22B 與 DINOv2 在簡單圖像分類任務(wù)上的性能對比。
在小樣本數(shù)據(jù)場景下,Qwen3-VL-235B-A22B 的表現(xiàn)優(yōu)于 DINOv2。這不僅是因?yàn)槠淠P鸵?guī)模更大,更重要的是,作為視覺語言模型(VLM),它天然具備語言知識(shí)(例如知道「向日葵」指代什么)。正是這種通用的語言與視覺聯(lián)合能力,使得 Qwen3-VL 在圖像分類之外,也能夠更方便地遷移到其他視覺任務(wù)中。
還沒體驗(yàn)的小伙伴,Tinker 絕對值得一試。
https://thinkingmachines.ai/tinker/
https://thinkingmachines.ai/blog/tinker-general-availability/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.