商傳媒|葉安庭/綜合外電報導
麻省理工學院的研究人員,與湯瑪士·J·華生研究中心(MIT-IBM Computing Research Lab)合作,成功開發出一個名為「ChartNet」的創新資料集。這個資料集旨在提升人工智慧模型對圖表的理解能力,解決了過去AI在整合視覺、數字與文字資訊時所面臨的挑戰。透過ChartNet訓練的開源AI模型,其在資料提取與圖表摘要等任務上的表現,甚至超越了規模更大的商業模型,這對於降低人工智慧應用門檻具有重要意義。
現今的人工智慧模型在處理自然語言和理解一般圖像方面已取得巨大進展,但對於圖表中複雜的多模式資料( multimodal data )——也就是同時包含文字、圖片和數字等多種形式的資訊——的解讀能力仍有不足。主要原因是缺乏高品質的訓練資料,使得視覺語言模型(VLM,能同時理解圖片和文字的AI模型)難以準確判讀圖表。
為了克服這項挑戰,麻省理工學院電機工程與電腦科學系研究生,同時也是此研究論文主要作者的 Jovana Kondic 表示,ChartNet資料集就像一個「圖表理解的一站式商店」,涵蓋了AI模型訓練所需的一切。ChartNet包含超過一百萬張經過精心設計的多元圖表圖像,每張圖表都編碼了其視覺、語言和數字構成要素。這些資料點還配有問答對,用以教導模型如何正確回答與圖表相關的問題。
該研究團隊建立了一套兩步驟的合成資料( synthetic data )生成流程來打造ChartNet。首先,一個自動化系統能將現有圖表圖像轉換成程式碼;接著,這個程式碼會被反覆修改增強,以變更圖表的各種元素。透過這種方式,單一「種子圖表」便能生成數百種不同版本,最終累積成百萬張以上的多樣化圖像。同時,團隊也採用自動化品質檢查流程,確保合成資料的準確性和可用性。此外,ChartNet亦收錄了由人類專家標註的部分圖表資料,提供更多圖表類型和經驗證的數據支持。
研究人員透過IBM的 Granite Vision 系列模型及其他開源模型進行測試,評估它們在圖表重構、資料提取、摘要和問答等任務上的表現。結果顯示,ChartNet顯著提升了所有受測模型的準確度。一位來自IBM研究院的資深研究人員指出,金融業高度仰賴圖表,若視覺語言模型能有效從圖表中提取資訊,例如趨勢描述,將大幅優化後續的工作流程。Jovana Kondic也表示,期望這項工作能激勵研究人員,運用較小的模型和有限的運算資源,達到最先進的AI性能。未來,研究團隊將持續擴充ChartNet,納入更複雜的資料,並採納研究社群的回饋建議。







