一级黄色录像毛片,yjizz国产,日韩精品中午字幕

9 月 27 日消息，蘋果正在研發(fā)一款名為 Manzano 的新圖像模型，旨在同時(shí)具備圖像理解與圖像生成兩大能力。

不過(guò)目前 Manzano 尚未正式發(fā)布，也沒(méi)有演示 Demo，只有一篇作者絕大多數(shù)都是華人的預(yù)印本論文（包括已經(jīng)跳槽到 Meta 的龐若鳴），還展示了部分低分辨率圖像樣例，涵蓋較復(fù)雜的提示場(chǎng)景。

圖片

蘋果表示，這一雙重功能長(zhǎng)期以來(lái)是技術(shù)難點(diǎn)，使得大多數(shù)開(kāi)源模型在綜合表現(xiàn)上落后于 OpenAI 和 Google 等商業(yè)系統(tǒng)。

蘋果將其與 DeepSeek Janus Pro 等 AI 模型進(jìn)行了對(duì)比，結(jié)果顯示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation（IT之家注：原代號(hào) Nano Banana）。

圖片

蘋果指出，大多數(shù)開(kāi)源模型在圖像處理上存在取舍：要么擅長(zhǎng)圖像分析，要么擅長(zhǎng)圖像生成，而商業(yè)系統(tǒng)通常能兼顧。尤其在涉及大量文本的任務(wù)（如文檔閱讀、圖表解讀）時(shí)，現(xiàn)有模型表現(xiàn)不佳。問(wèn)題根源在于圖像處理方式：連續(xù)數(shù)據(jù)流更適合理解，而離散符號(hào)則更適合生成，多數(shù)模型為這兩類任務(wù)分配不同工具，易引發(fā)沖突。

為此，Manzano 采用了混合圖像分詞器。其共享編碼器可輸出兩類標(biāo)記：連續(xù)標(biāo)記（用于圖像理解，以浮點(diǎn)數(shù)形式表達(dá)）和離散標(biāo)記（用于圖像生成，按固定類別劃分）。由于二者源自同一編碼器，因此其任務(wù)沖突顯著減少。

圖片

Manzano 的整體架構(gòu)包括三部分：混合分詞器、統(tǒng)一語(yǔ)言模型，以及獨(dú)立的圖像解碼器。蘋果為解碼器構(gòu)建了三個(gè)版本，參數(shù)規(guī)模分別為 9 億、17.5 億和 35.2 億，支持 256 像素至 2048 像素分辨率。

訓(xùn)練過(guò)程分為三個(gè)階段，使用 23 億對(duì)圖像-文本樣本（來(lái)自公開(kāi)和內(nèi)部數(shù)據(jù)），以及 10 億對(duì)文本-圖像樣本，總計(jì)處理 1.6 萬(wàn)億標(biāo)記。部分訓(xùn)練數(shù)據(jù)來(lái)自合成生成，如 DALL-E3 和 ShareGPT-4o。

在內(nèi)部測(cè)試中，Manzano 在 ScienceQA、MMMU 和 MathVista 等基準(zhǔn)上表現(xiàn)優(yōu)異，尤其在圖表和文檔分析等文字密集型任務(wù)中，300 億參數(shù)版本成績(jī)突出。擴(kuò)展測(cè)試顯示，模型性能隨規(guī)模提升而持續(xù)改善，例如 30 億參數(shù)版本在部分任務(wù)中比最小模型高出 10 分以上。

蘋果探索自研多模態(tài) AI 大模型 Manzano：兼具理解與生成能力

資源分享更多>>