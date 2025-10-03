AI產品與系統評測中心（Artificial Intelligence Evaluation Center，以下簡稱AIEC）首次公布語言模型基準評測結果，期能推動我國AI在地化評測與第三方驗證，強化產業AI信任發展。

本次評測依語言模型規模進行系統性檢測國內外模型表現，除採用「高中學測國文科」及「高中學測社會科」指標外，更納入「臺灣價值觀」評測指標，以符合國際AI主權發展趨勢，並作為未來建構在地模型或調校國際模型的重要基準。

本次共評測42項語言模型，可以觀察到由國內開發的TAIDE(Gemma-3-TAIDE-12b)在小模型(13b以下)中表現名列前茅，比所使用之原基礎模型Google(Gemma-3-12b-it)表現更佳，展現臺灣AI研發實力。在大模型中(13b以上)，則以OpenAI GPT-5整體表現最佳，其中Google Gemini 2.5 Flash在「臺灣價值觀」的評測上表現優異，顯示其對臺灣主流價值觀具備較高的理解與對應能力。另外也觀察到，部分中國語言模型在「臺灣價值觀」評測項目也表現不錯，研判可能其模型所使用的「蒸餾技術」，係以歐美基礎模型的輸出作為訓練資料。

整體而言，部分歐美語言模型如果沒有使用到臺灣繁體中文語料進行訓練，在「臺灣價值觀」的評測上表現較差，此突顯推動本土化語料建置之重要性。數位發展部積極推動臺灣主權AI語料庫，提供具在地語境與本土價值的繁體中文資料，作為語言模型訓練的重要基礎，確保AI發展符合臺灣社會價值與語言文化。AIEC並將廣泛徵求各界專家提供評測題目，經審查後，將有機會納入未來的評測題庫。

AIEC未來將針對不同產品、系統與應用領域，持續推動國內自行研發AI評測工具，同時對接國際評測方法、規範或標準，強化我國AI產品的市場適用性與全球化發展，以實現安全、穩健與可信賴的AI評測體系。