人工智慧（AI）的快速發展讓Transformer模型被廣泛部署在雲端基礎建設中。儘管有效，但也帶來成本、延遲和資料隱私等相關挑戰，尤其在語音轉文字和摘要生成等即時應用中。雲端推論同時也仰賴網路連線和中央資源，這未必能滿足使用者對即時性或可控性的要求。隨著市場對「更貼近使用者、可在本地運作的AI」需求持續攀升，在消費性裝置上進行本地推論，正逐漸成為可擴展且更具彈性的替代方案。

搭載NPU的Intel AI PC正是為因應此類需求而設計。近期，專注於隱私導向AI會議助理Slipbox的開發團隊Fluid Inference，已成功地在Intel Core Ultra處理器上部署多項Transformer模型，包括Whisper v3 Turbo、Qwen3與Phi-4-mini。

這些模型如今可在裝置端完全執行，提供即時處理且不必依賴雲端。相同的NPU優化模型也已整合至一家財富100強企業正在開發的下一代硬體原生AI應用中，Fluid Inference團隊亦與其合作開發。

透過Intel AI PC運行優化的Transformer模型

轉錄模型Whisper v3 Turbo以及LLMs Qwen3和Phi-4-mini等大型語言模型，通常被視為需要雲端環境與大量GPU資源才能運行的Transformer模型。這些模型如今已可在消費型筆電上獨立運行，並由Intel NPU提供運算支援。Whisper v3 Turbo同時具備即時轉錄與語音聽寫能力。Qwen3（LLM）和Phi-4-mini（SLM）則可用於語意理解任務，例如摘要、推理和問答。

Slipbox是首批在Intel AI PC上搭載這些模型的應用程式之一。Fluid Inference與英特爾合作，將這些最先進的模型應用於本地端使用，進而在裝置上實現即時轉錄、講者辨識和智慧摘要等功能。

透過裝置端推論實現原生AI應用程式

現代AI應用程式越來越依賴大型Transformer模型，但直到最近，這些模型大多還難以在裝置端環境中運行。開發人員普遍認為涉及轉錄、推理或摘要的應用程式需要雲端基礎架構或獨立GPU，這對要求隱私、回應速度或低功耗的使用情境造成挑戰。這些問題在即時線上會議尤為明顯。

Intel Core Ultra處理器導入強大的整合式NPU，能夠在本機加速AI工作負載。然而，Whisper v3 Turbo和Phi-4-mini等最新的開源模型，尚未針對此硬體進行優化。

Fluid Inference團隊在開發Slipbox的Windows版本時，直接面臨了這項生態系統落差。他們必須在不依賴雲端服務、也不以CPU/GPU推論造成功耗過高的前提下，依然提供高效能的運作。

針對Intel NPU優化Transformer模型

為了彌補生態系統的差距，Fluid Inference與英特爾合作，將這些Transformer模型優化為可在裝置端高效執行。使用OpenVINO工具包，這些模型得以在Intel NPU上高效運行。基準測試顯示，與CPU基準相比，延遲可降低達40%，且推論準確度可與GPU的推論相當，包括即時音訊處理，且轉錄品質沒有受影響。這些優化使Slipbox能夠在裝置端本地運行，提供隱私優先的AI，同時不影響回應速度或續航力。

相同的NPU優化模型亦部署於另一項實際應用：一家財富100強企業為其下一代裝置開發的AI原生應用程式。該企業級應用對隱私保護、高吞吐量與順暢的消費者體驗有嚴格要求，而上述能力透過英特爾硬體支援的裝置端推論得以實現。

Intel AI PC：本地、可擴展AI的平台

這些成功的Transformer模型部署證明，Intel AI PC已能運行過去依賴雲端運算的複雜AI工作負載。像Whisper和Phi-4-mini這樣的Transformer模型，現在可以原生運行在筆電和桌機上，為尋求將AI直接帶到邊緣裝置應用的開發人員和企業開闢了新的可能性。

這些部署背後的工程由Fluid Inference主導，這是一家專注於為邊緣裝置實現進階模型優化的應用AI實驗室。他們針對Intel NPU所進行的模型轉換與調整，使Slipbox與這家財富100強企業的AI部署得以在數週內順利完成。

工作內容：優化AI以供本地使用

為實現裝置端AI部署，Fluid Inference於2025年5月與6月間與英特爾展開合作，旨在縮短先進Transformer模型與具NPU能力硬體之間的落差。雙方合作流程涵蓋五個主要階段：

1. 模型選擇：選擇Whisper v3 Turbo用於即時語音轉錄，而Qwen3和Phi-4-mini則用於摘要生成、問答和推理等任務。

2. 模型調適：使用OpenVINO，將模型轉換和優化，使其能在Intel NPU上實現低延遲、高能效的推論。

3. 效能驗證：基準測試證實延遲降低最高可達40%，功耗更低並且實現即時處理，準確度並沒有受影響。

4. 部署：優化後的模型已整合至兩款生產級應用中：Slipbox的Windows版本（封閉測試期）以及一家財富100強企業的原生AI應用程式，後者正在量產化，預計2026年展開部署。

5. 開源發布：NPU優化模型已公開在Hugging Face，同時正在開發其他開發人員工具，包括一個原生.NET函式庫，以支援.NET應用程式中的生成式AI（GenAI）工作負載。

此次合作在多個部署環境中都取得了具體成果。Whisper v3 Turbo實現了即時轉錄，準確度與GPU推論持平，延遲降低約40%（從每段0.31秒降至0.19秒）；透過針對Intel NPU優化的PyAnnote和WeSpeake模型，成功實現了講者辨識功能；語言模型Qwen3與Phi-4-mini在裝置端的表現強勁，在摘要與事實型問答任務中達到約70～75%的GPT-4水準，且記憶體占用量小，足以在典型消費型硬體上運行。

憑藉這些成果，Fluid Inference推出Slipbox的Windows測試版，而財富100強企業也完成其原生AI應用的概念驗證。兩個應用程式皆可全程離線運行，展現了在Intel AI PC上本地化AI部署的重大進展。

Slipbox目前在Windows上處於封閉測試階段，可在Intel AI PC上直接提供即時轉錄、講者辨識和摘要功能，完全不依賴網路。開發和研究人員可透過Hugging Face存取底層的NPU優化模型，Fluid Inference在該平台上維護一個用於AI加速器優化模型的公開模型儲存庫。此外，包括原生.NET函式庫（持續開發中）在內的開源工具，亦可用於支援Windows AI PC上的生成式AI部署。

＜本文作者：王宗業，美商英特爾公司網路暨邊緣運算事業群平台研發協理，負責Intel Edge AI平台生態系統的推廣，帶領過智慧零售、智慧製造、智慧交通與智慧醫療等專案的開發。在20多年的軟硬體開發、推廣、客戶支援經驗中，含括嵌入式系統、智慧型手機、物聯網、Linux及開源軟體、AI硬體加速器在影像與自然語言處理等領域，並擔任過台灣人工智慧學校經理人班、技術領袖班與Edge AI專班的講師，以及大專院校的深度學習課程業師。＞