9 月 27 日消息,蘋果正在研發(fā)一款名為 Manzano 的新圖像模型,旨在同時(shí)具備圖像理解與圖像生成兩大能力。
不過(guò)目前 Manzano 尚未正式發(fā)布,也沒(méi)有演示 Demo,只有一篇作者絕大多數(shù)都是華人的預(yù)印本論文(包括已經(jīng)跳槽到 Meta 的龐若鳴),還展示了部分低分辨率圖像樣例,涵蓋較復(fù)雜的提示場(chǎng)景。
圖片
蘋果表示,這一雙重功能長(zhǎng)期以來(lái)是技術(shù)難點(diǎn),使得大多數(shù)開(kāi)源模型在綜合表現(xiàn)上落后于 OpenAI 和 Google 等商業(yè)系統(tǒng)。
蘋果將其與 DeepSeek Janus Pro 等 AI 模型進(jìn)行了對(duì)比,結(jié)果顯示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代號(hào) Nano Banana)。
圖片
蘋果指出,大多數(shù)開(kāi)源模型在圖像處理上存在取舍:要么擅長(zhǎng)圖像分析,要么擅長(zhǎng)圖像生成,而商業(yè)系統(tǒng)通常能兼顧。尤其在涉及大量文本的任務(wù)(如文檔閱讀、圖表解讀)時(shí),現(xiàn)有模型表現(xiàn)不佳。問(wèn)題根源在于圖像處理方式:連續(xù)數(shù)據(jù)流更適合理解,而離散符號(hào)則更適合生成,多數(shù)模型為這兩類任務(wù)分配不同工具,易引發(fā)沖突。
為此,Manzano 采用了混合圖像分詞器。其共享編碼器可輸出兩類標(biāo)記:連續(xù)標(biāo)記(用于圖像理解,以浮點(diǎn)數(shù)形式表達(dá))和離散標(biāo)記(用于圖像生成,按固定類別劃分)。由于二者源自同一編碼器,因此其任務(wù)沖突顯著減少。
圖片
Manzano 的整體架構(gòu)包括三部分:混合分詞器、統(tǒng)一語(yǔ)言模型,以及獨(dú)立的圖像解碼器。蘋果為解碼器構(gòu)建了三個(gè)版本,參數(shù)規(guī)模分別為 9 億、17.5 億和 35.2 億,支持 256 像素至 2048 像素分辨率。
訓(xùn)練過(guò)程分為三個(gè)階段,使用 23 億對(duì)圖像-文本樣本(來(lái)自公開(kāi)和內(nèi)部數(shù)據(jù)),以及 10 億對(duì)文本-圖像樣本,總計(jì)處理 1.6 萬(wàn)億標(biāo)記。部分訓(xùn)練數(shù)據(jù)來(lái)自合成生成,如 DALL-E3 和 ShareGPT-4o。
在內(nèi)部測(cè)試中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基準(zhǔn)上表現(xiàn)優(yōu)異,尤其在圖表和文檔分析等文字密集型任務(wù)中,300 億參數(shù)版本成績(jī)突出。擴(kuò)展測(cè)試顯示,模型性能隨規(guī)模提升而持續(xù)改善,例如 30 億參數(shù)版本在部分任務(wù)中比最小模型高出 10 分以上。