網易首頁 > 網易號 > 正文申請入駐

京東開源圖像模型：讓AI從“平面P圖”進階“懂空間”

2026-04-10 23:10:15　來源: 藍鯊財經社

江蘇舉報

分享至

據京東黑板報4月7日消息，京東探索研究院正式開源了自研的JoyAI-Image-Edit圖像模型。據快科技報道，這是業內首個將“空間智能”刻進骨子里的開源模型，其空間理解與編輯能力達到世界一流水平。模型的推理代碼已全部開放，開發者可直接調用。

傳統AI修圖的核心痛點在于無法理解三維空間結構。據京東官方技術解讀，傳統AI僅在平面像素層面操作，移動物體時易變形、改變視角后透視關系錯亂、調整物體前后關系時遮擋混亂。JoyAI-Image-Edit深度貼合真實世界空間規律，從空間位置關系、多視角一致性、相機感知到場景推理等維度全面建模，實現了相機坐標視角變換、物體空間位移旋轉、幾何結構精準控制等多項技術突破。

該模型具備三大核心空間編輯能力，據IT之家整理，其一是視角變換，用戶通過自然語言指定相機的偏航角、俯仰角及縮放程度，模型在保持場景幾何一致性的前提下生成新視角圖像；其二是空間漫游，支持連續的視角移動，生成在三維空間中邏輯連貫的多視角圖像序列；其三是物體空間關系操控，在保持場景整體結構穩定的前提下對特定物體進行位移、縮放等空間變換，同時確保遮擋與光影關系自然合理。據京東官方披露，該模型打破了AI“理解圖像”和“生成圖像”的壁壘，編輯過程中能穩定保持主體形象與場景結構完整，多視角空間布局高度一致。在實現空間突破的同時，據京東黑板報披露，JoyAI-Image-Edit全面兼容15類通用編輯能力，涵蓋物體的替換、刪除、添加、整體風格遷移及細節精修等操作，在長文本精準渲染、多視角一致性生成等行業高難度任務中表現卓越。應用場景方面，據京東官方介紹，模型可廣泛應用于電商內容生產、創意設計制作、智能圖像處理、3D模型重建及具身智能視覺感知等領域。在電商場景中，可為商品圖生成多角度展示；在具身智能領域，空間理解能力是機器人“理解世界”的核心基礎，該模型可為相關技術研發提供關鍵的底層能力。據新京報貝殼財經報道，京東高級副總裁何曉冬表示，通用人工智能有兩大方向：一是多模態，大模型必須具有視覺能力；二是走向具身智能，包括機器人、機械臂、無人車等，讓通用人工智能走向物理世界。

近期京東在AI領域動作頻頻。據快科技報道，過去一個月內，京東宣布首次開源基礎大模型JoyAI-LLM Flash；京東云“龍蝦”系列產品上線，Token調用量周環比增長達455%；京東還宣布將建成全球最大的具身數據采集中心，持續推動AI與產業深度融合。

京東探索研究院在開源公告中表示，JoyAI-Image-Edit的開源標志著AI圖像編輯技術從“平面處理”邁向“三維空間重塑”，是京東在AI多模態領域的重要戰略落子。模型推理代碼已全面開放，開發者可通過官方渠道獲取，應用

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.