隨著人工智慧（AI）應用日益普及，如何確保其安全性與可信任度，已成為全球共同關注的焦點議題。

為了建構台灣自主的AI評測體系並與國際接軌，在數位發展部指導下，由國家資通安全研究院（簡稱：資安院）與工研院合作設立的AI產品與系統評測中心（AIEC），日前公布針對生成式AI語言模型的評測基準與初步結果，為台灣AI產業的健全發展立下新的里程碑。

工研院資通系統與資安組組長王邦傑首先說明，AIEC的目標是建立一套符合國際規範的評測系統與環境，協助台灣業者開發出值得信賴的AI產品。為此，AIEC積極鏈結國際標準組織，如美國國家標準暨技術研究院（NIST）、法國國家計量與測試實驗室（LNE）及國際標準化組織（ISO），確保台灣的評測體系能與全球同步。

在組織架構上，AIEC扮演制度推動的核心，下設由工研院執行的「AI測試實驗室」與資安院負責的「AI驗證機構」，未來將分別依循ISO/IEC 17025與ISO/IEC 17065規範，目標在2026年與2027年通過財團法人全國認證基金會（TAF）認證，使其出具的報告具備國際公信力。目前評測服務已進入概念驗證（PoC）階段，針對語言模型提供準確性、可靠性、公平性、隱私及資安等五大面向的檢測服務，並透過與送測廠商的深度交流，提供改善建議，形成正向的產業循環。

針對AIEC日前發布的在地化評測指標，資安院副院長龔化中說明，國際主流的語言模型雖功能強大，但其訓練語料來自全球網路，未必能精準反映台灣的社會文化與價值觀。為彌補此缺口，AIEC除了導入國際通用基準，更特別發展了具台灣特色的評測項目。評測內容涵蓋近五年的「高中學測國文科」與「高中學測社會科」試題，並建立一套獨特的「台灣價值觀」題庫。

資安院副院長龔化中（右）與工研院資通系統與資安組組長王邦傑（左）為AIEC評測中心發布語言模型基準評測結果。

在針對42個主流語言模型的評測結果中，龔化中分享了幾項重要發現。在小於130億參數的小模型群組中，由國科會開發的TAIDE模型（Gemma-3-TAIDE-12b）在各項指標中名列前茅，尤其在「台灣價值觀」項目上獲得84分的高分，顯著優於其所基於的Google Gemma-3（68分），證明在地化優化的重要性。

龔化中也觀察到，部分中國開發的模型亦在台灣價值觀項目獲得不錯分數，推斷可能因為採用了「蒸餾技術」，即以歐美較佳模型的輸出作為訓練資料。數位發展部正積極推動建置「台灣主權AI語料庫」，以提供具在地價值的訓練資料。同時也持續完善評測方法，為台灣打造安全、可靠且具在地特色的AI生態系。