加強資料治理確保品質　生成式AI模型建模干擾少

2024-02-20

黃于珊

中研院在2023年10月間推出類似ChatGPT的繁體中文語言模型CKIP-Llama-2-7b，許多網友實測後卻發現，該系統對於國家相關問題，回覆內容竟然都是中國資訊，不僅引發民眾熱議，更讓中研院院長因此到立法院接受質詢，最後只能匆促下架。

中研院在去年10月間推出類似ChatGPT的繁體中文語言模型「CKIP-Llama-2-7b」，許多網友實測後卻發現，該系統對於國家相關問題，回覆內容竟然都是中國資訊，包括「我的國籍是中國」、「國慶日是10月1日」、「國歌是義勇軍進行曲」、「領導人是習近平」等，不僅引發民眾熱議，更讓中研院院長因此到立法院接受質詢，最後只能匆促下架。

「CKIP-Llama-2-7b」語言模型之所以引發這場風暴，是因為其所使用的訓練資料中有大量來自中國的資料，包含中國AI研究單位的COIG-PC資料集以及以簡體中文知識問答對話為主的dolly-15k資料集，導致該AI模型的學習結果受到大量中國資料的影響，而發生回覆內容都是中國資訊的結果。

資料治理

資料治理（Data Governance）是資料管理的一部分，目的在增加資料的價值，同時將資料相關的風險與成本最小化，對此，資料管理協會（DAMA）將資料治理定義為「資料、資料使用及資料來源管理的規劃、監督和控管」，也就是對資料蒐集、處理、存取與運用的生命週期進行規劃管理，並建立一套查核和監控的機制，包含策略、角色與權限，使資料在組織內發揮最大的價值。

首先，關於資料之蒐集及處理，應著重於資料的品質及合法性。其中，資料的品質，除須注意所蒐集之資料是否符合該系統之建置目的外，亦須重視資料來源網站、資料庫及期刊論文之聲譽，以及所蒐集之資料的準確性、時效性、完整性及可信性，避免資料蒐集時的缺失或偏差並降低錯誤比例。至於資料的合法性，除應確保所蒐集的個人資料，係取得當事人的同意並符合個人資料保護法之相關規定外，並應注意該資料是否受著作權或其他智慧財產權所保護，若屬受保護之資料，則應注意是否已取得權利人之授權或符合合理使用之相關規定。此外，若使用爬蟲程式抓取競爭者公司資料作為蒐集資料之方法時，亦須注意該行為是否會構成公平交易法之違反。基此，有助於企業或組織能從整體性觀點蒐集、管理資料，並確保該資料的品質及合法性。

其次，關於資料之存取，則應注意資料安全及存取速度。企業或組織將資料蒐集處理後，須透過儲存安全、網路安全及存取安全來確保資料安全，其中儲存安全係透過資料儲存環境（實體空間）、儲存設備、資料備份與作業流程之規劃與設計，來確保資料儲存之安全，而網路安全則透過網路系統之規劃與建置、網路設備及網路監測與管理，來確保資料存取之網路安全。至於存取安全，則可透過權限控管、資料加密及數位簽章等制度，來決定何人、何時、透過何管道、使用何資料等，以確保資料傳輸及存取之安全。基此，確保企業或組織所蒐集處理的資料能安全地被管理與快速地被存取應用，以發揮其價值與效用。

最後，關於資料生命週期，因為資料並非存在於單一時點，而會經過蒐集、清理、儲存、分析、備份、銷毀等程序，因此資料治理應為資料生命週期的每一階段制定政策與程序，所以應瞭解企業或組織蒐集資料或建置系統的目的，以及各法規關於資料蒐集、處理、利用、保存和銷毀的相關規定，以建立不同類型資料之定義、蒐集、處理、利用、保存與銷毀等作業程序，並透過資料的整理與盤點，確保企業或組織所蒐集的資料能依該程序進行蒐集、管理、使用與銷毀，以獲得高品質且安全、合法之資訊。

資料治理與AI發展

生成式AI興起後，因其可能產生假新聞、偏見或歧視性內容、侵害隱私、資料外洩、侵害智慧財產權等問題，因而引發社會及倫理之爭議，亦引起全球主要國家的高度重視。尤其，生成式AI是以巨量資料蒐集為基礎，進行訓練後，所產生的大型語言模型或圖像生成模型，因此訓練資料的品質與合法性、資料存取的安全性，都是造成前述問題的重要因素。

由前面關於「資料治理」的說明可知，資料治理是透過制定資料蒐集、處理、利用、保存和銷毀等各個生命週期的作業程序，來決定何人、何時、透過何管道、使用何資料，以及各資料的保存及銷毀方法，不僅可確保生成式AI訓練資料的品質、避免偏見，又可確保資料的合法性與安全性，因此成為生成式AI快速發展下，各國政府或企業極力推展的資料管理方法。

除生成式AI外，其他監督式學習的AI模型，也須高度依賴訓練資料，因此資料治理對於AI發展係具有高度重要性。由G7國家所倡議，於2020年正式成立的全球人工智慧合作夥伴關係（Global Partnership on Artificial Intelligence，GPAI），因體認資料治理對AI發展的重要，故設立一個以資料治理為核心任務的工作小組（Working Group on Data Governance），聚集全球各領域專家，深入研究，並定期提出工作報告，以促使為AI所使蒐集、處理、利用、刪除之資料，能符合人權、包容與多元、創新與經濟成長、社會公益等價值，並實現聯合國永續發展之目標。

綜上可知，透過資料治理來擬訂資料蒐集管理策略，以確保資料的品質與安全性、合法性，已成為當前各國政府與企業組織在使用巨量資料發展AI技術時，所積極採取的方法，台灣除台北市政府於2020年成立資料治理委員會，負責規劃北市府資料的蒐集、運用及個人資料保護外，企業界如中國信託亦於2021年成立數據治理委員會，而中華電信則於2022年頒布資料治理策略，這都顯示在這大數據及AI技術快速發展的時代，如何取得高品質且安全合法的資料，已成為各界所高度重視的問題，而資料治理似乎此一問題的重要解方。

＜本文作者：黃于珊目前為執業律師，輔仁大學圖書資訊與資訊管理雙學士，交通大學科技法律研究所碩士，美國華盛頓大學智慧財產權法碩士，曾擔任系統工程師、專利工程師。專攻領域為智慧財產權法、個人資料保護法、高科技產業議題及資訊通訊法等。＞