生成式AI有賴資料訓練　創新莫輕忽數據取得風險

2023-11-30

黃于珊

生成式AI是藉由深度學習來達成，藉由將大量的訓練資料提供給AI程式，使AI程式從訓練資料中歸納出自己的規則，而產生大型語言模型或圖像生成模型，之後再利用這些模型自己生成文字對話或圖片，因此訓練資料的數量多寡以及品質優劣，會嚴重影響其生成資料的正確性，然而這些訓練資料的取得可能會涉及機密資料外洩、個人資料保護及著作權侵害等法律問題。

生成式AI的浪潮從2022年底開始席捲全球，不僅聊天機器人ChatGPT在發表後短短2個月就累積破億人註冊使用，文字生成圖像的Midjurney、Jasper Art 、DALL-E2等軟體也吸引全世界眾多使用者，他們使用後更爭相在社群軟體上分享這些由AI所生成的圖片，引發另一波討論及分享的熱潮。

生成式AI是藉由深度學習來達成，而深度學習則是奠基於巨量的資料以及強大的計算能力，藉由將大量的訓練資料提供給AI程式，使AI程式從訓練資料中歸納出自己的規則，而產生大型語言模型或圖像生成模型，之後再利用這些模型自己生成文字對話或圖片，因此訓練資料的數量多寡以及品質優劣，會嚴重影響其生成資料的正確性，然而這些訓練資料的取得可能會涉及機密資料外洩、個人資料保護及著作權侵害等法律問題。

機密資料上傳訓練恐遭外洩

使用者若在生成式AI的對話框中輸入機密資料，這些機密資料就可能被上傳到生成式AI的伺服器中而成為他的訓練資料，因此當其他使用者詢問相關問題時，即可能造成這些機密資料被外洩。

南韓媒體Economist今年3月間報導，南韓三星公司員工為了工作上的便利，曾將半導體設備量測資料庫程式碼、生產∕瑕疵設備相關軟體及公司會議文字紀錄摘要等資訊，複製到ChatGPT的對話中，而使這些三星公司的機密資料被上傳到ChatGPT伺服器成為其訓練資料，因此若有使用者在ChatGPT上提出相關問題時，即有可能導致三星公司的機密資料被外洩，三星公司因此緊急啟動資訊保護指施，並限縮員工對於ChatGPT的使用。

此外，企業生成式AI平台Writer在今年5月所發布的一份報告顯示，有46%的公司高階主管懷疑有員工不小心將公司內部資料外流給ChatGPT，因此已有許多公司禁止在工作場所使用生成式AI，而Open AI公司也在網站的FAQ中警告使用者，不要在ChatGPT對話中分享機敏資訊。

須符規各國個資保護規定

當使用者為使用生成式AI而進行註冊，或在對話框中輸入個人資料時，系統會自動將個人資料上傳到伺服器中，除進行個人資料的蒐集及儲存外，亦會將該資料作為生成式AI的訓練資料，然而生成式AI對於個人資料的蒐集、處理及利用，仍應符合各國個人資料保護法的相關規定。

義大利資料保護主管機關（Garante）於今年3月底，即以ChatGPT使用者未收到隱私權聲明、缺乏法律依據證明ChatGPT大規模蒐集及儲存個人資料以作為其訓練資料的合理性、雖禁止13歲以下的未成年人使用但未執行年齡審查機制、提供不正確資訊等理由，暫時禁止OpenAI公司處理義大利使用者的個人資料，直到OpenAI公司於今年4月表示，將提供更具能見度的隱私權政策並提供工具驗證義大利使用者的註冊時年齡後，Garante才同意恢復ChatGPT的使用。

歐洲資料保護委員會（European Data Protection Board，EDPB）亦於今年4月13日表示，將針對生成式AI相關議題成立一個專門工作小組，以整合區域內的資料保護機構，並促進歐盟不同國家間的合作，並交換執法政策制定上的經驗。

可能涉及重製、公開傳輸而構成著作權侵害

生成式AI是以巨量資料蒐集為基礎，從網路上或其他大型資料庫蒐集大量資料進行訓練，產生大型語言模型或圖像生成模型。然而這些訓練資料中若包含受著作權保護的內容，則未事先取得著作權人的同意，即將這些內容提供給生成式AI進行訓練，即可能涉及重製、公開傳輸而構成著作權侵害。

多名程式設計師於2022年11月在加州北區地方法院對微軟公司、GitHub及OpenAI公司提出著作權侵害訴訟，主張他們所發表的GitHub Copilot服務違反美國著作權法等規定，請求90億美金的損害賠償。這些程式設計師表示GitHub Copilot及OpenAI Codex是以大量公開程式碼作及自然語言作為訓練資料，但不僅未取得授權，亦未標示其出處來源，更未包含著作權聲明及授權條款，因此構成著作權侵害。

而後，Karla Ortiz、Kelly Mckernan、Sarah Anderson 等三位藝術家亦於2023年1月23日在舊金山聯邦地方法院對Stability AI、Midjourney及DevianArt等公司提起著作權侵害訴訟，指控這些公司在未取得授權的情況下，即從網路取得約50億張圖片來訓練來訓練AI圖像生成平台進行「二次創作」，因而侵害他們及其他「數百萬名」藝術家的智慧財產權。

對此，歐盟於「人工智慧法案（Artificial Intelligence Act）」所增加的「AI基礎模型提供者」條款中規定，在不損害歐盟或成員國或其聯盟有關著作權法之情形下，生成式AI的基礎模型提供者，應記錄並公開使用受著作權保護之訓練資料的詳細摘要，否則會被處以4千萬歐元或該公司前一年全球營業額7%的罰款，以高者為準。

結語

行政院為因應生程式AI的所引起的熱潮，避免其大量蒐集資料可能對智慧財產權、人權或業務機密產生的侵害，於今年8月31日通過的「行政院及所屬機關（構）使用生成式AI參考指引（草案）」，揭示各機關人員使用生成式AI時，應秉持負責任及可信賴之態度，掌握自主權與控制權，並秉持安全性、隱私性與資料治理、問責等原則，不得恣意揭露未經公開之公務資訊、不得分享個人隱私資訊及不可完全信任生成資訊，並規定「不得向生成式AI提供涉及公務應保密、個人及未經機關（構）同意公開之資訊，亦不得向生成式AI詢問可能涉及機密業務或個人資料之問題」及「應遵守資通安全、個人資料保護、著作權與相關資訊使用規定，並注意其侵害智慧財產權與人格權之可能性」等內容，希望在使用生成式AI提升行政效率的同時，也能避免其對國家安全、資訊安全、人權、隱私、倫理及法律可能產生的風險。

＜本文作者：黃于珊目前為執業律師，輔仁大學圖書資訊與資訊管理雙學士，交通大學科技法律研究所碩士，美國華盛頓大學智慧財產權法碩士，曾擔任系統工程師、專利工程師。專攻領域為智慧財產權法、個人資料保護法、高科技產業議題及資訊通訊法等。＞