為了建構台灣自主的AI評測體系並與國際接軌,在數位發展部指導下,由國家資通安全研究院(簡稱:資安院)與工研院合作設立的AI產品與系統評測中心(AIEC),日前公布針對生成式AI語言模型的評測基準與初步結果,為台灣AI產業的健全發展立下新的里程碑。
工研院資通系統與資安組組長王邦傑首先說明,AIEC的目標是建立一套符合國際規範的評測系統與環境,協助台灣業者開發出值得信賴的AI產品。為此,AIEC積極鏈結國際標準組織,如美國國家標準暨技術研究院(NIST)、法國國家計量與測試實驗室(LNE)及國際標準化組織(ISO),確保台灣的評測體系能與全球同步。
在組織架構上,AIEC扮演制度推動的核心,下設由工研院執行的「AI測試實驗室」與資安院負責的「AI驗證機構」,未來將分別依循ISO/IEC 17025與ISO/IEC 17065規範,目標在2026年與2027年通過財團法人全國認證基金會(TAF)認證,使其出具的報告具備國際公信力。目前評測服務已進入概念驗證(PoC)階段,針對語言模型提供準確性、可靠性、公平性、隱私及資安等五大面向的檢測服務,並透過與送測廠商的深度交流,提供改善建議,形成正向的產業循環。
針對AIEC日前發布的在地化評測指標,資安院副院長龔化中說明,國際主流的語言模型雖功能強大,但其訓練語料來自全球網路,未必能精準反映台灣的社會文化與價值觀。為彌補此缺口,AIEC除了導入國際通用基準,更特別發展了具台灣特色的評測項目。評測內容涵蓋近五年的「高中學測國文科」與「高中學測社會科」試題,並建立一套獨特的「台灣價值觀」題庫。
資安院副院長龔化中(右)與工研院資通系統與資安組組長王邦傑(左)為AIEC評測中心發布語言模型基準評測結果。
在針對42個主流語言模型的評測結果中,龔化中分享了幾項重要發現。在小於130億參數的小模型群組中,由國科會開發的TAIDE模型(Gemma-3-TAIDE-12b)在各項指標中名列前茅,尤其在「台灣價值觀」項目上獲得84分的高分,顯著優於其所基於的Google Gemma-3(68分),證明在地化優化的重要性。
龔化中也觀察到,部分中國開發的模型亦在台灣價值觀項目獲得不錯分數,推斷可能因為採用了「蒸餾技術」,即以歐美較佳模型的輸出作為訓練資料。數位發展部正積極推動建置「台灣主權AI語料庫」,以提供具在地價值的訓練資料。同時也持續完善評測方法,為台灣打造安全、可靠且具在地特色的AI生態系。