技術(shù)
導(dǎo)讀:上海人工智能實(shí)驗(yàn)室(上海 AI 實(shí)驗(yàn)室)宣布開(kāi)源通用多模態(tài)大模型書(shū)生?萬(wàn)象 3.5(InternVL3.5),其推理能力、部署效率與通用能力全面升級(jí)。
9 月 3 日消息,上海人工智能實(shí)驗(yàn)室(上海 AI 實(shí)驗(yàn)室)宣布開(kāi)源通用多模態(tài)大模型書(shū)生?萬(wàn)象 3.5(InternVL3.5),其推理能力、部署效率與通用能力全面升級(jí)。
InternVL3.5 本次開(kāi)源有 9 種尺寸的模型,參數(shù)涵蓋 10 億-2410 億,可滿足各場(chǎng)景需求。其中,旗艦?zāi)P?InternVL3.5-241B-A28B 在多學(xué)科推理基準(zhǔn) MMMU 中獲 77.7 分,為開(kāi)源模型中最高分;多模態(tài)通用感知能力超越 GPT-5,文本能力領(lǐng)跑主流開(kāi)源多模態(tài)大模型。
與 InternVL3.0 相比,InternVL3.5 在圖形用戶界面(GUI)智能體、具身空間感知、矢量圖像理解與生成等多種特色任務(wù)上實(shí)現(xiàn)顯著提升。
本次升級(jí),上海 AI 實(shí)驗(yàn)室研究團(tuán)隊(duì)重點(diǎn)強(qiáng)化了 InternVL3.5 面向?qū)嶋H應(yīng)用的智能體與文本思考能力,在 GUI 交互、具身空間推理和矢量圖形處理等多個(gè)關(guān)鍵場(chǎng)景實(shí)現(xiàn)從“理解”到“行動(dòng)”的跨越,并得到多項(xiàng)評(píng)測(cè)驗(yàn)證。
GUI 交互部分,InternVL3.5 在 ScreenSpot-v2 元素定位任務(wù)以 92.9 分超越同類模型,同時(shí)支持 Windows / Ubuntu 自動(dòng)化操作,并在 WindowsAgentArena 任務(wù)大幅領(lǐng)先 Claude-3.7-Sonnet。
在具身智能體測(cè)試中,InternVL3.5 表現(xiàn)出理解物理空間關(guān)系并規(guī)劃導(dǎo)航路徑的能力,在 VSI-Bench 以 69.5 分超過(guò) Gemini-2.5-Pro。
在矢量圖形理解與生成方面,InternVL3.5 在 SGP-Bench 以 70.7 分刷新開(kāi)源紀(jì)錄,生成任務(wù) FID 值也優(yōu)于 GPT-4o 和 Claude-3.7-Sonnet。
具體來(lái)看,InternVL3.5 可跨 Windows、Mac、Ubuntu、Android等多個(gè)平臺(tái),識(shí)別界面元素并自主執(zhí)行鼠標(biāo)、鍵盤(pán)操作,實(shí)現(xiàn)恢復(fù)已刪除文件、導(dǎo)出 PDF、郵件添加附件等任務(wù)的自動(dòng)化。
InternVL3.5 具備更強(qiáng)的 grounding 能力,可以泛化到全新的復(fù)雜大量小樣本的具身場(chǎng)景,配合抓取算法,支持可泛化的長(zhǎng)程物體抓取操作,助力機(jī)器人更高效地完成物品識(shí)別、路徑規(guī)劃與物理交互。
作為上海 AI 實(shí)驗(yàn)室書(shū)生大模型體系的重要組成部分,InternVL 聚焦視覺(jué)模型技術(shù),InternVL 全系列全網(wǎng)下載量已突破 2300 萬(wàn)次。