據京東黑板報4月7日消息,京東探索研究院正式開源了自研的JoyAI-Image-Edit圖像模型。據快科技報道,這是業內首個將“空間智能”刻進骨子里的開源模型,其空間理解與編輯能力達到世界一流水平。模型的推理代碼已全部開放,開發者可直接調用。
傳統AI修圖的核心痛點在于無法理解三維空間結構。據京東官方技術解讀,傳統AI僅在平面像素層面操作,移動物體時易變形、改變視角后透視關系錯亂、調整物體前后關系時遮擋混亂。JoyAI-Image-Edit深度貼合真實世界空間規律,從空間位置關系、多視角一致性、相機感知到場景推理等維度全面建模,實現了相機坐標視角變換、物體空間位移旋轉、幾何結構精準控制等多項技術突破。
該模型具備三大核心空間編輯能力,據IT之家整理,其一是視角變換,用戶通過自然語言指定相機的偏航角、俯仰角及縮放程度,模型在保持場景幾何一致性的前提下生成新視角圖像;其二是空間漫游,支持連續的視角移動,生成在三維空間中邏輯連貫的多視角圖像序列;其三是物體空間關系操控,在保持場景整體結構穩定的前提下對特定物體進行位移、縮放等空間變換,同時確保遮擋與光影關系自然合理。據京東官方披露,該模型打破了AI“理解圖像”和“生成圖像”的壁壘,編輯過程中能穩定保持主體形象與場景結構完整,多視角空間布局高度一致。在實現空間突破的同時,據京東黑板報披露,JoyAI-Image-Edit全面兼容15類通用編輯能力,涵蓋物體的替換、刪除、添加、整體風格遷移及細節精修等操作,在長文本精準渲染、多視角一致性生成等行業高難度任務中表現卓越。應用場景方面,據京東官方介紹,模型可廣泛應用于電商內容生產、創意設計制作、智能圖像處理、3D模型重建及具身智能視覺感知等領域。在電商場景中,可為商品圖生成多角度展示;在具身智能領域,空間理解能力是機器人“理解世界”的核心基礎,該模型可為相關技術研發提供關鍵的底層能力。據新京報貝殼財經報道,京東高級副總裁何曉冬表示,通用人工智能有兩大方向:一是多模態,大模型必須具有視覺能力;二是走向具身智能,包括機器人、機械臂、無人車等,讓通用人工智能走向物理世界。
近期京東在AI領域動作頻頻。據快科技報道,過去一個月內,京東宣布首次開源基礎大模型JoyAI-LLM Flash;京東云“龍蝦”系列產品上線,Token調用量周環比增長達455%;京東還宣布將建成全球最大的具身數據采集中心,持續推動AI與產業深度融合。
京東探索研究院在開源公告中表示,JoyAI-Image-Edit的開源標志著AI圖像編輯技術從“平面處理”邁向“三維空間重塑”,是京東在AI多模態領域的重要戰略落子。模型推理代碼已全面開放,開發者可通過官方渠道獲取,應用
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.