搜尋引擎 爬蟲軟體 網路爬蟲排除標準 Robots協議

搜尋爬蟲軟體收集資料 自律規範兼顧權益及合理使用

網路爬蟲排除協議初探 資料擷取仍有法可循

2020-10-20
在網際網路時代,資料或資訊的重要性已無須說明,但要落實資料經濟,該如何找到所需或有用的內容,也需要協助。因此,在技術上,不斷發展出許多擷取資訊的工具,包含常見之搜尋引擎或爬蟲軟體等,如Googlebot。在兼顧權益保障及合理使用等,遂發展出類似自律規範之網路爬蟲排除標準(Robots Exclusion Protocol,或稱Robots協議)。

 

在網際網路時代內,相關資料(Data,或有稱數據)或資訊(Information)的重要性已無須說明。但要落實資料經濟,企業或個人在思索創造價值前,都面臨資料從哪來、怎麼分析與後續運用等議題,尤其是豐富的網頁資訊、眾多的使用者行為等等,如入寶山、豈能空手而回?又或資訊量過多、過雜,該如何找到所需或有用的內容,也需要協助。也因此,在技術上,不斷發展出許多擷取資訊的工具,包含常見之搜尋引擎或爬蟲軟體等,如Googlebot。

然而,網頁或使用者行為等資訊,係屬於網站經營者或自然人,理應不屬於使用搜尋引擎或爬蟲軟體之行為人;但相關資訊又是研究或商業運用等所必要的素材,在兼顧權益保障及合理使用等,遂發展出類似自律規範之網路爬蟲排除標準(Robots Exclusion Protocol,或稱Robots協議)。

Robots協議與可能之法律議題

Robots協議係以robots.txt方式呈現,該文字檔案通常會放置在網站的根目錄下,對外(主要是對搜尋引擎或爬蟲軟體)說明該網站之網頁資訊,那些可以擷取、那些不行。惟因Robots協議並不具法規或標準之強制力,搜尋引擎或爬蟲軟體之行為人,若有:

(1)未依robots.txt內容,擷取非允許之資訊。

(2)因使用爬蟲軟體,影響原網站正常運作。

(3)雖依robots.txt內容,但取得依法須保護之資訊,如個人資料,都可能會衍生爭議。

由於網站管理者可以隨時變更robots.txt內容,且網路爬蟲(Web Crawler,或稱Spider)軟體之運作可能包含:拜訪或讀取資訊、擷取資訊(又可分為擷取後下載至使用者端,或於記憶體內運算後僅儲存統計資訊……)相關流程。除可另討論robots.txt之時效及協議內容是否須經存證外,為瞭解擷取資訊可能涉及之法律議題,茲以前述三項情形為基礎,初步研析如下:

著作權法

在上述(1)情形,因網站或網頁相關資訊,凡符合著作權法定義如具原創性之著作,像是文字、圖片,原則上會受到著作權法保護。非經權利人同意,不可擷取或使用。如果只是單純拜訪網頁,觀看相關資訊,並不會構成侵權。或透過軟體模仿自然人的行為,廣泛或大量地拜訪與觀看網頁資訊,或使用超連結而不涉資訊之擷取,應未違法。倘若爬蟲軟體未依robots.txt內容、亦未獲授權,逕自擷取非允許之著作時,違者可能會有著作權法第91條以下之法律責任。如未獲授權之重製,恐處三年以下有期徒刑、拘役,或科或併科新臺幣七十五萬元以下罰金。

此外,值得注意的是,著作權之認定非以網站或網頁為單一客體,而係每一篇文章、每一張照片、圖片等,都可能有獨立之權利,侵權時亦會個別計算。故建議應依robots.txt或取得授權為之,以避免造成不必要之損失。

刑法

如上述(1)情形,爬蟲軟體之行為人未依robots.txt內容、未經授權或逾應有權限等,擷取非允許之資訊,在刑法上還可能涉及妨害電腦使用罪。因依刑法第10條定義,稱電磁紀錄者,謂以電子、磁性、光學或其他相類之方式所製成,而供電腦處理之紀錄。以(1)情形為例,由於搜尋引擎或爬蟲軟體之目的,係獲得資料或資訊,無論最終取得的是何形式之檔案或格式,該客體應符合電磁紀錄之範圍。

而如刑法第358條之規定,無故輸入他人帳號密碼、破解使用電腦之保護措施或利用電腦系統之漏洞,而入侵他人之電腦或其相關設備者,可能處以三年以下有期徒刑、拘役或科或併科三十萬元以下罰金。甚至因此致生損害於公眾或他人者,更可能被處五年以下有期徒刑、拘役或科或併科二十萬元以下罰金。

公平交易法

如上述(2)情形,因公平交易法規範限制競爭與不公平競爭二類行為,前者主要規範獨占、結合或聯合行為,涉及市場占有率等;後者為虛偽不實、仿冒行為、其他欺罔或顯失公平行為,如搭便車。因此,要注意的是,取得資訊雖在協議範圍內,但若搜尋引擎或爬蟲軟體之行為人擷取資訊或加工後,甚至影響原網站之正常運作,此時可能涉及不公平競爭之規範。以公平交易委員會對顯失公平之認定為例,在「榨取他人努力成果」(涉及公平交易法第25條規定),如利用網頁之程式設計,不當使用他人表徵,增進自身網站到訪率;或抄襲他人投入相關努力建置之網站資料,混充為自身網站或資料內容,藉以增加自身交易機會等,恐有違法之虞。

個人資料保護法

至於上述(3)情形,網站或網頁資訊涉及個人資料,如有姓名、地址、電話、電子信箱等,還會有個人資料保護法之適用。依不同情境,尚可進一步細分為:(a)符合Robots協議,原則上應在特定目的內可利用個資。但爬蟲軟體之行為人有特定目的外之利用,如發送行銷資訊;或未依該法第27條及施行細則第12條規範,落實執行安全維護措施,致個人資料被竊取、竄改、毀損、滅失或洩漏等。或(b)未取得授權、或違法蒐集或處理,甚至意圖為行為人自己或第三人不法之利益、或損害他人之利益,而違反相關規定,此二情形可能分別會有民事、刑事與行政責任。

結語

許多開發人員都秉持技術是中立的,應不涉及相關價值判斷。惟隨著資料經濟等崛起,透過工具擷取、規劃運用相關資料或資訊,除考量人力、時間、成本或效益等經濟因素,更不可忽視其可能帶來的風險,其中法令遵循就是關鍵議題之一。

為避免後續造成不必要的困擾或損失,除研發、企劃等人員外,建議也應有法律專業人士加入,從開始時就參與技術研發,以落實風險管理。

<本文作者:陳宏志,目前服務於資策會,專注於資料治理議題,如資安、個資政策或法令及管理實務,並協助零售、物流、智慧財產權等規劃區塊鏈應用。>

 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!