導讀:百度智能云千帆正式推出全新視覺理解模型 ——Qianfan-VL,并全面開源。
9月 22 日消息,百度智能云千帆正式推出全新視覺理解模型 ——Qianfan-VL,并全面開源。該系列包含 3B、8B 和 70B 三個尺寸版本,是面向企業(yè)級多模態(tài)應用場景,進行了深度優(yōu)化的視覺理解大模型。官方稱,Qianfan-VL 不僅具備出色的基礎通用能力,還針對產(chǎn)業(yè)落地中的高頻需求,如 OCR 和教育垂直場景做了專項強化,使其在實際應用中表現(xiàn)更加卓越。
Qianfan-VL 現(xiàn)已開源,即日起至 10 月 10 日,企業(yè)用戶和開發(fā)者可在百度智能云千帆平臺免費體驗 8B、70B 模型。
附模型官方介紹如下:
Qianfan-VL 系列模型是由百度智能云千帆模型研發(fā)團隊,基于開源模型進行開發(fā),并在百度自研昆侖芯 P800 上完成全流程計算任務。昆侖芯 P800 提供了強大的算力支撐,確保模型能夠高效處理海量數(shù)據(jù)與復雜算法,同時支持單任務 5000 卡規(guī)模的并行計算。這一結合不僅優(yōu)化了模型計算的效率,更使得模型在性能表現(xiàn)上達到了新的高度,在通用和垂類任務評測中展現(xiàn)出 SOTA 水平。Qianfan-VL 模型具備三大特點:
● 多尺寸模型滿足不同場景需求:提供 3B、8B、70B 三種規(guī)格的模型,讓不同規(guī)模的企業(yè)和開發(fā)者都能找到合適的解決方案。
● 提供思考推理能力:8B 和 70B 模型支持通過特殊 token 激活思維鏈能力,覆蓋復雜圖表理解、視覺推理、數(shù)學解題等多種場景。
● OCR 與文檔理解能力增強:主打 OCR 全場景識別和復雜版面文檔理解兩大特色能力,在多項基準測試中表現(xiàn)優(yōu)異,為企業(yè)級應用提供高精度的視覺理解解決方案。
模型性能與效果
>> 通用能力基準測試表現(xiàn)
在通用能力基準測試中,Qianfan-VL 系列模型(3B、8B、70B)展現(xiàn)出顯著核心優(yōu)勢。從視覺理解到專業(yè)領域問答,模型性能隨參數(shù)規(guī)模增大提升顯著,體現(xiàn)出很好的 Scaling 趨勢。在 ScienceQA 等專業(yè)問答測試中,精準度表現(xiàn)突出;多模態(tài)任務如 RefCOCO 等,物體識別與關聯(lián)能力優(yōu)異;同時,在各類通用基準測試里,相較主流模型,整體表現(xiàn)也頗為亮眼,充分彰顯出在視覺理解通用能力上的出色實力,為不同場景下的智能應用提供了有力支撐。
>>OCR 與文檔理解基準測試表現(xiàn)
Qianfan-VL 系列模型(3B、8B、70B)在 OCR 與文檔理解領域盡顯卓越實力。一方面,具備 OCR 全場景識別能力,能精準識別手寫體、數(shù)學公式、自然場景文字,還可對卡證票據(jù)信息進行結構化提??;另一方面,復雜版面文檔理解能力突出,可自動分析版面元素,精準解析表格、圖表,實現(xiàn)文檔智能問答與結構化解析。從基準測試表現(xiàn)看,在 OCRBench、各類專業(yè)測試中,相較于主流模型,成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好,為企業(yè)級應用提供了高精度的視覺理解解決方案,有力推動文檔智能處理場景的高效落地。
>> 數(shù)學解題基準測試表現(xiàn)
Qianfan-VL 系列的 8B 和 70B 模型,在思考推理能力方面表現(xiàn)卓越。它們支持通過特殊 token 激活思維鏈能力,能覆蓋復雜圖表理解、視覺推理、數(shù)學解題等多類場景。這類任務需結合視覺信息與外部知識進行組合推理,而模型通過融合大量視覺類、文本類推理數(shù)據(jù)并用于后訓練,從 benchmark 表現(xiàn)來看,推理計算相關任務效果顯著提升。
在核心推理應用場景上,復雜圖表理解與推理方面,可從復雜圖表提取關鍵信息,進行數(shù)據(jù)分析、趨勢預測、關聯(lián)推理及統(tǒng)計計算;數(shù)學解題與視覺推理領域,能實現(xiàn)幾何推理、公式識別、分步求解與邏輯推斷。從數(shù)學解題基準測試表現(xiàn)看,在 MathVista-mini、MathVision 等多項測試中,相較于主流模型,成績優(yōu)異且隨參數(shù)規(guī)模提升持續(xù)向好,為復雜推理場景下的應用提供了強力支持。
模型架構設計與技術特色
Qianfan-VL 通過先進的多模態(tài)架構設計,憑借持續(xù)預訓練和三大技術創(chuàng)新,實現(xiàn)了領域增強的通用視覺-語言能力。
● 能力增強訓練方案:創(chuàng)新的四階段訓練策略,在保持通用能力基礎上實現(xiàn)領域能力顯著提升。
● 高精度數(shù)據(jù)合成管線:構建面向多模態(tài)任務的大規(guī)模數(shù)據(jù)合成管線,涵蓋文檔識別、數(shù)學解題、圖表理解、表格識別、公式識別、自然場景 OCR 等核心任務,通過精細化的管線設計和中間過程數(shù)據(jù)構造,實現(xiàn)高質量訓練數(shù)據(jù)的規(guī)模化生產(chǎn)。
● 昆侖芯驅動大模型高效計算:基于百度自研昆侖芯 P800 芯片,構建了業(yè)界領先的超大規(guī)模(5000 卡)分布式計算系統(tǒng),通過創(chuàng)新的并行策略和算子優(yōu)化,顯著提升大模型任務的處理性能與運行效率。
模型應用案例
>>OCR 識別場景
>> 文檔理解場景
除上述場景應用案例外,Qianfan-VL 同樣可應用在圖表分析、視頻理解等場景中,均呈現(xiàn)出卓越的模型效果。
Qianfan-VL 系列模型的開源,對百度智能云千帆來說,更像是“把模型放進真實生產(chǎn)力場景”的一小步;未來,百度智能云將秉持對技術的執(zhí)著追求與對應用場景的深度洞察,不斷推出全新的產(chǎn)業(yè)級模型,全方位助力 AI 技術在各行業(yè)落地。