AI Intel CoreUltra NPU OpenVINO Whisper Qwen Slipbox HuggingFace

更貼近使用者可在筆電運作 生成模型部署回歸本地推論

雲延遲隱私連線費用高 AI落地用戶裝置端成解方

2026-01-21
AI的快速發展讓Transformer模型被廣泛部署在雲端基礎建設中,儘管有效但也帶來延遲、資料隱私等相關挑戰。而隨著市場對「更貼近使用者、可在本地運作的AI」需求持續攀升,在消費性裝置上進行本地推論,正逐漸成為可擴展且更具彈性的替代方案。

人工智慧(AI)的快速發展讓Transformer模型被廣泛部署在雲端基礎建設中。儘管有效,但也帶來成本、延遲和資料隱私等相關挑戰,尤其在語音轉文字和摘要生成等即時應用中。雲端推論同時也仰賴網路連線和中央資源,這未必能滿足使用者對即時性或可控性的要求。隨著市場對「更貼近使用者、可在本地運作的AI」需求持續攀升,在消費性裝置上進行本地推論,正逐漸成為可擴展且更具彈性的替代方案。

搭載NPU的Intel AI PC正是為因應此類需求而設計。近期,專注於隱私導向AI會議助理Slipbox的開發團隊Fluid Inference,已成功地在Intel Core Ultra處理器上部署多項Transformer模型,包括Whisper v3 Turbo、Qwen3與Phi-4-mini。

這些模型如今可在裝置端完全執行,提供即時處理且不必依賴雲端。相同的NPU優化模型也已整合至一家財富100強企業正在開發的下一代硬體原生AI應用中,Fluid Inference團隊亦與其合作開發。

透過Intel AI PC運行優化的Transformer模型

轉錄模型Whisper v3 Turbo以及LLMs Qwen3和Phi-4-mini等大型語言模型,通常被視為需要雲端環境與大量GPU資源才能運行的Transformer模型。這些模型如今已可在消費型筆電上獨立運行,並由Intel NPU提供運算支援。Whisper v3 Turbo同時具備即時轉錄與語音聽寫能力。Qwen3(LLM)和Phi-4-mini(SLM)則可用於語意理解任務,例如摘要、推理和問答。

Slipbox是首批在Intel AI PC上搭載這些模型的應用程式之一。Fluid Inference與英特爾合作,將這些最先進的模型應用於本地端使用,進而在裝置上實現即時轉錄、講者辨識和智慧摘要等功能。

透過裝置端推論實現原生AI應用程式

現代AI應用程式越來越依賴大型Transformer模型,但直到最近,這些模型大多還難以在裝置端環境中運行。開發人員普遍認為涉及轉錄、推理或摘要的應用程式需要雲端基礎架構或獨立GPU,這對要求隱私、回應速度或低功耗的使用情境造成挑戰。這些問題在即時線上會議尤為明顯。

Intel Core Ultra處理器導入強大的整合式NPU,能夠在本機加速AI工作負載。然而,Whisper v3 Turbo和Phi-4-mini等最新的開源模型,尚未針對此硬體進行優化。

Fluid Inference團隊在開發Slipbox的Windows版本時,直接面臨了這項生態系統落差。他們必須在不依賴雲端服務、也不以CPU/GPU推論造成功耗過高的前提下,依然提供高效能的運作。

針對Intel NPU優化Transformer模型

為了彌補生態系統的差距,Fluid Inference與英特爾合作,將這些Transformer模型優化為可在裝置端高效執行。使用OpenVINO工具包,這些模型得以在Intel NPU上高效運行。基準測試顯示,與CPU基準相比,延遲可降低達40%,且推論準確度可與GPU的推論相當,包括即時音訊處理,且轉錄品質沒有受影響。這些優化使Slipbox能夠在裝置端本地運行,提供隱私優先的AI,同時不影響回應速度或續航力。

相同的NPU優化模型亦部署於另一項實際應用:一家財富100強企業為其下一代裝置開發的AI原生應用程式。該企業級應用對隱私保護、高吞吐量與順暢的消費者體驗有嚴格要求,而上述能力透過英特爾硬體支援的裝置端推論得以實現。

Intel AI PC:本地、可擴展AI的平台

這些成功的Transformer模型部署證明,Intel AI PC已能運行過去依賴雲端運算的複雜AI工作負載。像Whisper和Phi-4-mini這樣的Transformer模型,現在可以原生運行在筆電和桌機上,為尋求將AI直接帶到邊緣裝置應用的開發人員和企業開闢了新的可能性。

這些部署背後的工程由Fluid Inference主導,這是一家專注於為邊緣裝置實現進階模型優化的應用AI實驗室。他們針對Intel NPU所進行的模型轉換與調整,使Slipbox與這家財富100強企業的AI部署得以在數週內順利完成。

工作內容:優化AI以供本地使用

為實現裝置端AI部署,Fluid Inference於2025年5月與6月間與英特爾展開合作,旨在縮短先進Transformer模型與具NPU能力硬體之間的落差。雙方合作流程涵蓋五個主要階段:

1. 模型選擇:選擇Whisper v3 Turbo用於即時語音轉錄,而Qwen3和Phi-4-mini則用於摘要生成、問答和推理等任務。

2. 模型調適:使用OpenVINO,將模型轉換和優化,使其能在Intel NPU上實現低延遲、高能效的推論。

3. 效能驗證:基準測試證實延遲降低最高可達40%,功耗更低並且實現即時處理,準確度並沒有受影響。

4. 部署:優化後的模型已整合至兩款生產級應用中:Slipbox的Windows版本(封閉測試期)以及一家財富100強企業的原生AI應用程式,後者正在量產化,預計2026年展開部署。

5. 開源發布:NPU優化模型已公開在Hugging Face,同時正在開發其他開發人員工具,包括一個原生.NET函式庫,以支援.NET應用程式中的生成式AI(GenAI)工作負載。

此次合作在多個部署環境中都取得了具體成果。Whisper v3 Turbo實現了即時轉錄,準確度與GPU推論持平,延遲降低約40%(從每段0.31秒降至0.19秒);透過針對Intel NPU優化的PyAnnote和WeSpeake模型,成功實現了講者辨識功能;語言模型Qwen3與Phi-4-mini在裝置端的表現強勁,在摘要與事實型問答任務中達到約70~75%的GPT-4水準,且記憶體占用量小,足以在典型消費型硬體上運行。

憑藉這些成果,Fluid Inference推出Slipbox的Windows測試版,而財富100強企業也完成其原生AI應用的概念驗證。兩個應用程式皆可全程離線運行,展現了在Intel AI PC上本地化AI部署的重大進展。

Slipbox目前在Windows上處於封閉測試階段,可在Intel AI PC上直接提供即時轉錄、講者辨識和摘要功能,完全不依賴網路。開發和研究人員可透過Hugging Face存取底層的NPU優化模型,Fluid Inference在該平台上維護一個用於AI加速器優化模型的公開模型儲存庫。此外,包括原生.NET函式庫(持續開發中)在內的開源工具,亦可用於支援Windows AI PC上的生成式AI部署。

<本文作者:王宗業,美商英特爾公司網路暨邊緣運算事業群平台研發協理,負責Intel Edge AI平台生態系統的推廣,帶領過智慧零售、智慧製造、智慧交通與智慧醫療等專案的開發。在20多年的軟硬體開發、推廣、客戶支援經驗中,含括嵌入式系統、智慧型手機、物聯網、Linux及開源軟體、AI硬體加速器在影像與自然語言處理等領域,並擔任過台灣人工智慧學校經理人班、技術領袖班與Edge AI專班的講師,以及大專院校的深度學習課程業師。>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!