雖然大型語言模型(LLM)在AI領域引發廣泛討論,但其高昂的成本也讓許多企業望而卻步。Sophos即將發表的研究指出一條嶄新的方向,讓資安公司在預算內同樣能發揮AI的強大效益:導入小型AI模型。
透過間歇性地使用LLM來更有效地訓練小型模型,Sophos成功打造了一系列速度快、效率高,而且可以實際用於商業應用的小型AI模型,這些模型在分類惡意網站等任務上,準確度幾乎可媲美 LLM,甚至在某些情境中表現更佳。
此方法的關鍵在於三大技術:知識蒸餾(Knowledge Distillation)、半監督式學習(Semi-Supervised Learning)以及合成資料生成(Synthetic Data Generation):
- 知識蒸餾:透過大型模型將已學會的知識傳授給小型模型,提升其效能,同時避免大規模部署所帶來的龐大負擔。這在標籤雜訊不容忽視、無法完全手動重新標註的情境下,這種方法特別實用。
- 半監督式學習:利用大型模型為未標記資料自動加註標籤,進而擴充訓練小型模型所需的資料集深度。
- 合成資料生成:由大型模型產出新的合成樣本,進一步強化小型模型的訓練與韌性。