這是蒼何的第 438 篇原創!
大家好,我是蒼何。
太卷了啊。兄弟們。
字節又發布了最新的豆包視覺推理模型,叫 Doubao-Seed-1.6-vision/250815。
![]()
現在火山引擎的模型廣場就可以直接看到。
我也進行了深度參與測試,在視覺理解能力上提升很大。
為了方便測試,我接入了 API,并 vibe 了一個測試工具。
![]()
代碼和使用教程也在 GitHub 上開源了。
![]()
在放測試 case 之前,稍微介紹下這個視覺推理模型吧。
Doubao-Seed-1.6-vision 是全新升級的多模態大模型,適用于視頻理解、Grounding、GUI Agent等高復雜度的場景,支持 256k 上下文窗口,輸出長度支持最大 64k tokens。
最為亮眼的地方在于基于 Responses API 全新支持 image process build-in tools 能力。
也就是最思考推理時能自動調用圖像處理工具。目前內置四種圖像處理工具,分別是:grounding&crop、point&draw_line、zoom、rotate。
下面來看下幾個 case,感受下它的能力吧。
圖像旋轉
把這個圖像丟給 Doubao-Seed-1.6-vision,配合上提示詞:
白紙上寫了什么?
![]()
可以看到,它會思考過程中推理并調用工具rotate自動旋轉圖片然后做識別。
![]()
我錄了個視頻,展示了模型的思考和工具調用全鏈路。
同樣另外一個圖像旋轉的 case 是用它做書籍識別:
這是我的原始圖片:
![]()
提示詞:桌子上放了什么書?
模型先調用zoom工具放大細節:
![]()
然后調用rotate工具進行圖像旋轉:
![]()
最后推理分析得出結論:
![]()
我也錄了個全程的視頻,大家可以感受一下。
超市找人
這張超市里的圖片(素材來自網絡),我想讓它幫我找下穿綠色上衣的人。
![]()
模型會自動調用 zoom 工具放大細節,然后用 point 工具進行標記。
![]()
最后精準找到我們需要找的人并做標記,同樣全流程視頻如下:
清明上河圖找人
來個非常有挑戰的,我們知道清明上河圖上有非常多人物,姿勢動作各異,要想讓大模型在清明上河圖上精確找人,還是非常有難度的。
![]()
提示詞:在這幅《清明上河圖》的局部里,幫我找到正在激烈爭吵的兩個人,并用線連接他們,表示他們正在對話。
本身圖片就稍微模糊,要是人來找,估計也得廢個半天。
豆包 Doubao-Seed-1.6-vision 先是自動調用zoom工具來進行放大細節
![]()
經過多次對比分析,最后找出人物,全流程視頻如下:
歷史背景不合分析
![]()
這張圖片,讓 Doubao-Seed-1.6-vision 分析下不符合常理的地方。
提示詞:這張圖片描繪的場景在歷史準確性上存在什么問題?請解釋為什么這個細節不符合歷史背景。
它會調用一系列工具,推理分析圖片細節,找出不符合的地方。
![]()
全過程視頻如下:
安全隱患分析
VLM 視覺模型還有個非常實用的場景,就是可以對安全隱患進行分析。
![]()
提示詞:這張看似平常的家庭照片中,存在哪些潛在的安全隱患?請具體指出危險點,并說明可能導致的后果。以及標注出有隱患的點
模型會調用 point 等工具先進行一輪分析,然后自主推理,根據常識判斷是否會有安全隱患。
流程圖識別
對于流程圖的識別也不在話下。
![]()
這是我的創作流程,Doubao-Seed-1.6-vision 能很好的別別并給到我反饋。
醫療影像分析
VLM 視覺模型另外一個使用場景就是在對醫療影像進行分析,比如:
![]()
提示詞:這是一張胸部X光片,請檢查一下肺部是否有異常結節。如果發現可疑區域,請圈出來,并大致測量一下它的最大徑。另外,這張片子有點歪,請幫我把它旋轉扶正,讓脊柱保持垂直,看下效果。
Doubao-Seed-1.6-vision 就會依次自主調用工具,先是調用rotate進行旋轉,
![]()
然后調用 zoom 工具進行局部多次放大:
![]()
![]()
視頻如下:
影視劇查找
一些精彩的片頭,總是想不出是哪部影視劇了,現在就可以借助 Doubao-Seed-1.6-vision 來分析。
![]()
提示詞:這是哪部劇?
可以看到,它能精確找出影視劇的名字。
細節感知
這個 case 能看到 Doubao-Seed-1.6-vision 能自動進行圖片的放大,并做翻譯處理。
![]()
當一張照片模糊到看不清的時候,也可以借助 Doubao-Seed-1.6-vision 來進行細節放大。
![]()
這一點非常有用,對于放大細節來說,場景可太豐富了。
圖例判斷
這個 case,考察模型能否根據圖片的細節,推理出在哪個城市。
![]()
根據標識牌推理在哪個國家。
![]()
路徑選擇
![]()
![]()
多題解答
![]()
好了,搞完這些 case,我人直接麻了。
講真的,AI 的發展速度已經快到讓人有點窒息了。
最恐怖的地方在于,它不再是簡單地「看懂」圖片,而是在「思考」如何更好地去理解。通過調用旋轉、縮放、標記這些工具,它就像一個真正的人,在想方設法地解決問題。
從在復雜的《清明上河圖》里找人,到分析X光片的細節,這些以前我們想都敢想的場景,現在正一個個變成現實。
我們正處在一個技術爆炸的奇點,每天都有新的可能性誕生。今天我們還在驚嘆它能找人,明天它可能就成了我們生活里離不開的眼睛。
這種感覺,真讓人無比興奮。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.