將此篇文章跟 Facebook 上的朋友分享將此篇文章跟 Plurk 上的朋友分享將此篇文章跟 Twitter 上的朋友分享列印轉寄
2017/6/12

中文解析技術發展日趨成熟 逐步融入各式應用情境

語意分析成人工智慧要角 本土軟體業者逆勢翻紅

洪羿漣
聊天機器人、虛擬語音助理等應用正當紅,背後的人工智慧(AI)其實涵蓋了許多種類的技術,其中「語意解析」更是相當重要的一環。語意解析技術的區域化差異性相當大,往往在不同語文區甚至同一國家內部都有地區差異,考驗著廠商的在地化技術。也因此,累積了豐富經驗的台灣相關軟體廠商,包括垃圾郵件過濾、搜尋引擎、文件管理、知識管理、資料外洩預防、個資盤點、歸檔調閱方案的業者,便成為人工智慧新應用時代的關鍵技術供應商,也為產業帶來全新的發展契機。






中文字之所以難以辨識,主要在於沒有明確的字詞分界,例如英文可藉由空格來辨識單字,而中文字通常在各自獨立時,並不具備意義,至少兩個字以上的組合,才會產生詞性,也才得以進行語意分析。Openfind(網擎資訊)產品研發副總葉慶章指出,這也是歐美國家所研發的技術,推展到中文環境後,往往難以突破之處,未必有能力理解簡短一句話經過拆解、再組合的意思,可說有相當高的門檻。

基於搜尋熱門關鍵字學習新詞

對於中文語意分析來說,首先,必須要有能力斷詞,因此通常需搭配龐大的詞庫,協助從句子中精準地切割有意義的字詞。但是詞庫最大的挑戰,即在於新詞的處理能力,最典型的即是人名與公司名,不大可能採用字典方式列舉所有組合。因此針對新詞,以往常見是以自建方式補足更新;另一種則是統計學派的作法,計算出最近哪些字詞較常出現,分析出大致的原則。

中文字詞習慣上是以兩個字為基礎切分,之後再予以排列組合,找到彼此之間的關連性,藉此建立新詞。葉慶章說明,其實這門學科,大約在二十多年前的資訊檢索(Information Retrieval)領域就已有深入研究,實際上也是自然語言分析的分支,持續不斷地發展至今,新詞學習技術已屆成熟。

▲ Openfind產品研發副總葉慶章觀察,人工智慧本就持續不斷地發展,近兩年之所以成為各界關注的焦點,主要是商業模式所推動,市場預期將帶動新商機。
完成新詞的定義之後,緊接著要標註詞性,例如動詞、名詞、形容詞等特性。但複雜的是,中文詞性會隨著句子結構而改變,舉例,「分析」在詞庫中原為動詞,套用在「語意分析」則可能是名詞,諸如此類的句子拆解與判斷,正是處理中文語句最複雜之處,因此標註詞性領域也是門學問,大多數是依據詞庫,來判斷前、後文的關係。斷詞、新詞學習、標註,各個環節皆必須具備高精準度,才有能力解析中文句子的前、後文語意,進而實際被應用在人工智慧、聊天機器人(Chatbot)等商業領域。

以往在搜尋引擎常見的中文語意解析技術,如今開始被應用在對話場景,所要求的精準度差異極大。畢竟搜尋引擎平台僅為提供資料,透過關鍵字搜尋文章時,前三篇的關聯度極高即可,不需要達到精準的程度;但對話式應用,若定義瑕疵則往往會出現「雞同鴨講」的狀況,根本無法實踐互動、查詢等新體驗。

因此,對於找新詞的方式,Openfind主要是運用既有的搜尋引擎產品中,統計熱門搜尋關鍵字功能進行實作。葉慶章說明,搜尋引擎是全文檢索,詞庫中是否有關鍵字並不重要,同樣可以找到所需的文章,再把最常出現的關鍵字納入詞庫,藉此學習新詞;若採用傳統統計學計算,畢竟難免有誤差,況且現代人已習慣透過搜尋引擎找資料,輸入的關鍵字也愈來愈準確,即可直接納入成為新詞。

以溝通平台為基礎 擴展內部流程便利性

近年來人工智慧之所以再次掀起浪潮,葉慶章觀察,主要原因是機器學習與深度學習演算法較以往進步很多,搭配現代運算速度的提升,才讓應用得以開始被實踐在各式新興領域。

隨著人工智慧的發展,大家又會開始關注中文語意解析技術。二十年前的中文語意解析,主要應用場景是藉此自動分類、從關鍵字找到文章、搜尋更快等方面。當然Openfind研發團隊也持續不斷地發展中文語意分析,應用到郵件系統。例如撰寫郵件,經過機器學習演算法發現內文中有許多情緒用語,即可觸發拉長延遲發送的時間,甚至系統可主動提醒使用者將延緩發送,藉此讓使用者有後悔的機會。

除了應用於輔助判斷情緒,以避免使用者做出錯誤的決策,另一方面,則是協助郵件分析。葉慶章說明,在公司內部,郵件內文不論是善意或惡意皆會被轉發分享,以稽核的角度,必須有所掌握,以免商業機密四處流傳;若為專案團隊,則是可藉由搜尋引擎,尋找公司過去所承接的專案,在往來的郵件與內部檔案中,取得參考資訊。這類應用場景即可透過語意分析、自然語言分析輔助處理。

至於Openfind下一步的研發方向,葉慶章透露,主要是基於既有的訊息溝通平台,透過API介接中文斷詞、詞性的知識庫,讓企業內部系統開發者,可藉此予以整合,發展更便利的應用模式。例如把郵件、訊息溝通的流程,串接內部請假系統的流程,如此一來,員工請假時,可能只需要開啟即時通訊軟體,輸入請病假的關鍵字,即可自動觸發請假系統新增單據,並通知單位主管。讓同仁得以較以往更便利的方式使用差勤系統。

輿情分析與網路社群 口碑資料庫新應用

▲ 意藍資訊董事總經理楊立偉認為,技術的價值關鍵在於找到商業應用模式,本土廠商過去十多年來打下厚實的基礎,正可在行動裝置普及、社群媒體興起的時代,擴展更多應用模式,帶動整體的成長。
另一家也是本土老牌的中文搜尋引擎技術供應商龍捲風科技,自2007年併入意藍資訊後,成功地基於搜尋引擎、自然語言分析(NLP)已累積17年的技術能量,開拓出輿情分析與網路社群口碑資料庫新應用。

為了提升新詞學習效率,意藍資訊開始採用新的機器學習演算法,稱為無詞庫學習。意藍資訊董事總經理楊立偉自信地表示,「我們的無詞庫學習發展,可以說是本土廠商中最成功,因為我們所建立的無詞庫學習,主要是透過公開網路上所蒐集的大量『語料』或稱『語料庫』,從中學習上文與下文之間的關係。一段時間後,即可自行判斷最小可切割斷詞的組合單位。」

他進一步說明,過去對於新詞的學習方式比較偏重於以正規資料庫為基礎;現代所談的學習模式,則完全採用訓練方式,只要以大量的語料搭配演算法,即可建立主動辨識文字之間關係,以及最小組合字詞與意義,同時提升準確度。意藍資訊的輿情分析,每天在台灣的公開網路上「爬」回的資料量,大約近六十億個中文字,再透過演算法學習,才能在最快時間內學習到新的人名、熱門議題或事件等資訊。之後再透過已相當成熟的自動摘要技術,挑出重要的字詞與句子重新組合,來產生一篇具參考價值的文章。

就應用案例而言,最常見的是財務部門,每天需撰寫產業分析報告或投資分析報告,如今已可運用機器自動產出,或許文詞還不夠通順,但只要先自動產生出摘要後,再交由專業人力加以潤飾與修正,可能十分鐘即可完成,大幅提升產出效率。

另一種相當有助於提升商業價值的應用,即為文字情緒解析。畢竟網路上每天產生的文字量相當龐大,內含的正面、負面評價,或是無須處理的中立評價,機器都可以先行過濾,再透過機器學習演算法,發展出可自動根據文章上下文語意,判斷是正面與負面評價。

在斷詞與未知詞性的學習技術成熟後,接下來拓展的文字情緒解析,最大的挑戰即是演算法執行速度與精準度。前者必須仰賴軟硬體整合架構協助處理;後者則是基於大規模的語料讓機器持續學習,精準度才會逐漸提升。當然,機器學習演算法訓練的模型剛開始可能不夠準確,隨著每天持續增長的龐大資料量匯入,進步的速度實際上相當快。

「文字情緒解析如今已是意藍資訊社群口碑資料庫的核心,經過多年發展下,已經擁有超過九成的精準度。」楊立偉強調。因為客戶還會不斷地回饋分析結果的對或錯,機器會再進行回饋式學習,稱之為「加強式適應學習法」,如此一來即可進步快速,錯誤率變得相當低。

依據行業應用需求 訓練立即可用的演算模型

其實意藍資訊最早的演算法核心技術,也就是搜尋引擎、語意分析引擎,本來只有提供引擎技術,之後為了再精進,才開始發展大規模蒐集台灣社群媒體的資料。楊立偉說明,最初蒐集社群資料並非計畫推出輿情分析,單純只為訓練自家演算模型,來提升精準度。但開始實作後發現,龐大的資料量源源不絕,語料庫也隨著持續更新,尤其是現在的網友稱讚或謾罵用語變化速度相當快,必須得跟上變化腳步,才得以理解文字內涵。

「擁有了引擎技術、語料庫之後,本來是打算以此為產品與服務銷售,讓客戶自行訓練演算模型。但實際接觸客戶後發現,大多期望取得已經訓練好的演算法模型,介接後立即可執行商務應用。因此才依據應用需求發展出情緒分析、文章自動摘要模型,甚至還有各種不同產業的文字分析模型,例如專門適用於過濾廣告信的文章、處理客服與客訴服務等已經過訓練的模型。」

現階段正在訓練的是金融業所需的語意分析模型。楊立偉舉例,網路上的社群媒體經常有網民爆料,可能直指特定公司的財務或法律出現危機,將面臨倒閉的風險,恐爆發罷工或勞動糾紛,對於銀行放款部門而言,根本無力如同記者時時關注社群媒體的言論,對此,即可運用語意分析引擎,來建立社群風險模型,自動從每天產出的六十億字數中,依據風險型態,可能是針對勞動、財務、經營層等方面,取出跳票、被起訴等攸關營運危機的關鍵字,整理成為可供放款部門參考的資料。

這篇文章讓你覺得滿意不滿意
送出
相關文章
team+ 8.0 首創企業私有雲外部溝通
激增運算力促成資料革命 智慧分析釋放數據價值
造就智慧機房 DCIM扮幕後推手
資料中心實踐物聯網 感測到分析全面自動化
平台式架構整合軟硬體 全方位掌握監控維運
留言
顯示暱稱:
留言內容:
送出