<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      南洋理工等提出Puffin:像攝影師一樣思考,統一相機理解與生成

      0
      分享至

      文章來源:我愛計算機視覺(ID:aicvml)

      最近,AI在空間感知和內容生成方面的能力又有了新突破。來自新加坡南洋理工大學、商湯科技、密西根大學和馬普所的研究者們聯手,帶來了一個名為 Puffin 的統一多模態模型。它巧妙地將兩個看似獨立的任務——從圖像中理解相機參數(比如拍攝角度、焦距)和根據相機參數生成圖像——融合在了一起。這讓AI不僅能“看懂”一張照片是怎么拍的,還能化身“攝影師”,從任意指定的視角“拍”出新照片。

      這篇論文的核心亮點在于提出了一種“用相機思考(Thinking with Camera)”的新范式。簡單來說,就是把原本冰冷的、數字化的相機參數(比如旋轉角度、視野大小)翻譯成攝影師口中的“行話”(比如“荷蘭角傾斜”、“廣角鏡頭”、“低角度拍攝”)。這樣一來,大型語言模型就能更好地理解和推理這些空間信息,像一個經驗豐富的攝影師一樣思考,從而在理解和生成任務上都表現得更出色。



      • 論文標題 : Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

      • 作者 : Kang Liao, Size Wu, Zhonghua Wu, Linyi Jin, Chao Wang, Yikai Wang, Fei Wang, Wei Li, Chen Change Loy

      • 機構 : 新加坡南洋理工大學,商湯科技,密西根大學、Max-Planck Institute for Informatics

      • 論文地址 : https://arxiv.org/abs/2510.08673

      • 項目主頁 : https://kangliao929.github.io/projects/puffin/

      • 代碼倉庫 : https://github.com/kangliao929/puffin

      背景:從“各自為戰”到“統一戰場”

      在過去,AI處理與相機相關的問題時,通常是“兵分兩路”。

      一條路是 相機為中心的理解(Camera-Centric Understanding),比如計算機視覺里的相機姿態估計,它的任務是從一張給定的圖片中,反推出拍攝這張照片時相機的位置、朝向、焦距等參數。這對于三維重建、AR/VR等應用至關重要。

      另一條路是 相機為中心的生成(Camera-Centric Generation),比如計算機圖形學和AIGC里的可控圖像生成。我們給模型指定一個虛擬的相機位姿,讓它生成該視角下的圖像。這在電影特效、游戲場景生成、虛擬試衣等領域大有可為。

      雖然這兩個任務都圍繞“相機”展開,但它們就像一枚硬幣的兩面,長期以來被分開研究,各自發展。研究者們敏銳地意識到,如果能將兩者統一起來,不僅能讓模型的能力更全面,還能讓理解和生成任務相互促進,實現“1+1>2”的效果。Puffin模型正是在這樣的背景下應運而生。


      方法:“像語言一樣思考相機”

      Puffin模型的核心思想是構建一個統一的框架,能夠同時學習相機理解和生成任務。下面我們來看看它是如何實現的。


      “用相機思考”范式

      CV君認為,這篇論文最有趣和最具啟發性的地方,就是這個“用相機思考”的范式。傳統方法通常直接處理數值化的相機參數,或者學習它們的幾何表示,但這些對于大型語言模型(LMM)來說并不“友好”。

      Puffin另辟蹊徑,它將相機參數與專業的攝影術語聯系起來。例如,它不直接處理-45°到45°的相機側傾角(Roll),而是將其映射為“荷蘭角(Dutch Angle)”;不直接處理視野(FoV),而是將其映射為“標準”、“廣角”、“長焦”等術語。通過這種方式,模型在進行相機參數預測時,實際上是在進行一種空間推理:它會分析圖像中的視覺線索(比如地平線的傾斜、物體的透視關系),然后像人類一樣思考“嗯,這張圖看起來有點歪,應該是用了荷蘭角拍攝”,最終在 標簽中記錄推理過程,并在 標簽中給出具體的參數預測。


      這種方法巧妙地將LMM強大的語言推理能力引入到幾何問題中,讓模型不僅知其然(預測出參數),更知其所以然(理解參數背后的視覺表現)。

      Puffin-4M:大規模訓練數據

      為了訓練Puffin這樣強大的模型,一個大規模、高質量的數據集必不可少。為此,研究者們構建了 Puffin-4M 數據集,它包含了 400萬個“視覺-語言-相機”三元組。這個數據集覆蓋了各種場景和相機配置,為模型提供了豐富的學習素材。


      數據集的構建流程也很有意思,它結合了現有的多個360°全景數據集,通過渲染生成帶有精確相機參數的圖像,并利用大型語言模型自動生成描述性文本和前文提到的“思考過程”文本。


      與之前的數據集相比,Puffin-4M在規模、多樣性以及是否包含空間推理文本方面,都有著顯著優勢。


      統一的訓練策略

      Puffin在一個統一的框架中,混合了多種訓練任務,包括相機參數理解、可控圖像生成、圖像描述等。通過精心設計的訓練配方,模型在各項能力上都得到了充分的鍛煉。


      實驗效果:全面超越專用模型

      是騾子是馬,拉出來遛遛。Puffin在相機理解和可控生成兩個核心任務上,都表現出了卓越的性能,甚至超越了許多為單一任務專門設計的模型。

      相機理解能力

      在MegaDepth、TartanAir等多個公開基準數據集上,Puffin在預測相機內參(焦距)和外參(旋轉、平移)方面,其誤差都顯著低于之前的方法。這證明了“用相機思考”范式的有效性。


      可控生成能力

      在相機可控的圖像生成任務上,Puffin同樣表現出色。給定文本描述和目標相機參數,它生成的圖像不僅內容準確,而且相機視角也控制得非常精準。從下圖的誤差圖(Error Map)可以看出,Puffin生成的圖像在相機姿態上與目標真值的偏差(Median Error)遠小于其他多模態模型。


      定量結果也證實了這一點,無論是在相機參數的直接對比還是在圖像相似度指標上,Puffin都取得了最佳或次佳的成績。


      下圖直觀地展示了Puffin生成的相機參數分布與真實值(Ground Truth)的分布高度吻合,而之前的方法則有較大偏差。


      豐富的應用潛力

      得益于其統一的設計和強大的指令遵循能力,Puffin還能解鎖許多有趣的應用:

      • 空間想象 :給定一張圖片,想象從不同視角(比如更高、更左)看會是什么樣子。

      • 世界探索 :像玩FPS游戲一樣,在場景中“走動”,從不同位置生成連續的視圖,甚至可以用于三維重建。

      • 攝影指導 :分析一張照片,并給出如何改進構圖和拍攝參數的建議。

      • 3D對象植入 :準確預測出真實照片的相機參數,從而可以將虛擬的3D模型無縫地植入到場景中。

      總結

      總而言之,Puffin模型通過“用相機思考”這一創新范式,成功地統一了相機為中心的理解與生成任務,為實現更全面的空間智能AI邁出了堅實的一步。作者已經開源了代碼和數據集構建流程,這無疑將極大地推動相關領域的研究。

      你覺得這個技術未來會用在哪些場景?一起來聊聊吧!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      自律,C羅現在的身材與十年前幾乎沒什么區別

      自律,C羅現在的身材與十年前幾乎沒什么區別

      懂球帝
      2025-12-20 12:37:05
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      彈劾賴清德當天,5名大法官下場力挺,藍白震怒,大V:斗爭太慘烈

      王姐懶人家常菜
      2025-12-20 16:38:37
      深度揭秘?|?“規劃女王”高楊,把自己“規劃”到了監獄——一個“技術官僚”的腐敗折疊

      深度揭秘?|?“規劃女王”高楊,把自己“規劃”到了監獄——一個“技術官僚”的腐敗折疊

      一分為三看人生
      2025-12-20 00:10:11
      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      白崇禧之子,一生無妻無兒,相伴38年高中同學死后,他公開性取向

      墨說古今
      2025-12-16 23:10:42
      Anbernic安伯尼克RG477V掌機發布,可模擬Wii U、PS2游戲

      Anbernic安伯尼克RG477V掌機發布,可模擬Wii U、PS2游戲

      IT之家
      2025-12-21 09:44:48
      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      上海財大校長劉元春直言:不是老百姓不花錢,是錢沒到他們手上!

      小濤叨叨
      2025-12-20 12:05:37
      石破茂的預言開始應驗,中方還沒有發力,日本企業就已經撐不住了

      石破茂的預言開始應驗,中方還沒有發力,日本企業就已經撐不住了

      來科點譜
      2025-12-21 08:57:41
      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

      八斗小先生
      2025-07-17 15:12:37
      楊鳴:這賽季聯賽可能是歷史上最激烈的,末節很容易出現逆轉

      楊鳴:這賽季聯賽可能是歷史上最激烈的,末節很容易出現逆轉

      懂球帝
      2025-12-20 21:45:12
      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發現…

      到底是什么肉?消費者:必勝客實物牛排與菜單差距大,口感奇怪;暗訪發現…

      上觀新聞
      2025-12-19 14:17:05
      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      我開了8年車,勸普通家庭別碰30萬級汽車,這些隱性成本真扛不住

      李子櫥
      2025-12-20 16:48:52
      浙江金華一校花好漂亮 172cm 仙姿玉色貌美如花 絕世佳人不過如此

      浙江金華一校花好漂亮 172cm 仙姿玉色貌美如花 絕世佳人不過如此

      戶外小阿隋
      2025-12-20 11:01:02
      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      就在今天!12月21日凌晨,傳來全紅嬋、張家齊新消息

      皮皮觀天下
      2025-12-21 05:04:19
      普京喊話呂特:“為何執意要跟我們打仗?”

      普京喊話呂特:“為何執意要跟我們打仗?”

      參考消息
      2025-12-20 21:25:31
      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      萬萬沒想到,釋永信全家被扒,原來他才是那個“冰山一角”!

      智慧生活筆記
      2025-12-21 08:58:19
      女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

      女留學生染指上千外國男子,拍成視頻走紅網絡,父母與她斷絕關系

      阿胡
      2024-06-16 11:06:11
      若人類全部滅絕,數億年后,地球上有可能再次進化出人類嗎?

      若人類全部滅絕,數億年后,地球上有可能再次進化出人類嗎?

      心中的麥田
      2025-12-19 20:24:22
      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      黃埔名將胡璉:晚年絕口不提粟裕,死前讓子孫拿紙筆畫下一幅地圖

      宅家伍菇涼
      2025-12-21 09:30:03
      官方辟謠深圳西站正式開工拆遷

      官方辟謠深圳西站正式開工拆遷

      黃河新聞網呂梁頻道
      2025-12-20 11:04:11
      2025-12-21 10:44:49
      算法與數學之美 incentive-icons
      算法與數學之美
      分享知識,交流思想
      5271文章數 64595關注度
      往期回顧 全部

      科技要聞

      生態適配已超95% 鴻蒙下一關:十萬個應用

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      頭條要聞

      愛潑斯坦案最新文件公布 有記錄顯示來電人為特朗普

      體育要聞

      我開了20年大巴,現在是一名西甲主帥

      娛樂要聞

      鹿晗關曉彤戀愛期間毫不避諱?

      財經要聞

      百年老店陷貼牌爭議 同仁堂必須作出取舍

      汽車要聞

      -30℃,標致508L&凡爾賽C5 X冰雪"大考"

      態度原創

      旅游
      房產
      數碼
      公開課
      軍事航空

      旅游要聞

      【外眼看云南】緬甸網紅沉浸式體驗傈僳族闊時節,在怒江邂逅“詩與遠方”

      房產要聞

      廣州有態度,一座國際化社區給出的城市答案

      數碼要聞

      IDC:受內存超級周期沖擊,明年PC價格將普漲15%-20%

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基:前線局勢愈發艱難

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲每日更新| 香蕉av福利精品导航 | 国产精品夜间视频香蕉| 少妇高潮喷水惨叫久久久久电影| 北条麻妃无码视频| 亚洲AV综合网| 国产麻花豆剧传媒精品mv在线| 免费又黄又爽1000禁片| 91无码| 两个人xxx性爱视频| 铁牛TV尤物| 国内av网站| 精品国产污污免费网站 | 中日韩精品视频一区二区三区| 精品久久久久中文字幕无码油 | 熟女[21p]| 国产精品xxxx| 陇南市| 97人妻人人揉人人躁人人| 又大又长粗又爽又黄少妇视频| 日韩精品一区二区蜜臀av| 国产VA视频| 天天躁日日躁狠狠躁喷水| 国产无吗一区二区三区在线欢| 亚洲国产韩国欧美在线| 日韩a级?a级| 亚洲无码2| 欧美三级午夜理伦三级| 永久免费在线观看蜜桃视频| 老司机久久影院| 首页日韩精品在线页| 国产极品美女到高潮| 中文字幕日韩国产精品| 国产成人精品777777| 久久久www成人免费精品| 欧洲熟妇性色黄| 人妻系列中文字幕精品| 吉安县| 国产成人无码综合亚洲日韩| 国产麻豆91网在线看| 91热|