F5 NVIDIA AI AI工廠 Agentic AI

F5 與 NVIDIA 攜手加速 AI 推論 共同提升 AI 工廠的經濟效益

2026-06-17
F5 BIG-IP Next for Kubernetes與BlueField DPU的整合,可提升token吞吐量、降低每個token的成本,並支援安全的多租戶AI基礎架構,推動AI工廠邁向代理化時代。

F5宣布擴展與NVIDIA的合作,加速並優化AI推論的基礎設施。結合F5 BIG-IP Next for Kubernetes與NVIDIA BlueField-3 DPU的整合式解決方案,打造具備智慧型、感知遙測的基礎架構層,可提升token吞吐量(throughput)、優化GPU使用率、降低延遲,並支援更大規模的多租戶AI平台部署。

在AI系統中,token是AI輸出的可測量單位,也就是在推論過程中所產生與處理的文字、符號或資料片段。token的產出量與產出速度,最終決定了使用者體驗、基礎架構效率,以及每個GPU所能支援的服務規模與商業效益。

隨著企業與GPU-as-a-Service供應商競相將AI貨幣化並從AI實驗階段邁向可創造營收的服務,基礎架構效率已成為關鍵衡量指標。成功與否的評量標準,已不再單純取決於所部署的GPU容量,而是進一步聚焦於token經濟學(Token Economics)、持續性token吞吐量、首個token回應時間(Time to First Token,TTFT)、每token成本,以及每個GPU加速器所創造的營收。F5與NVIDIA的聯合解決方案,正是專為直接因應上述各項指標而設計。

透過智慧型AI基礎架構優化token經濟學

從以應用為中心的推論,轉向以agent驅動的AI工作流程,需要全新的架構方法來優化token吞吐量並降低成本。BIG-IP Next for Kubernetes現已整合NVIDIA NIM統計數據(NIM statistics)、Dynamo執行時期訊號(Dynamo Runtime signals),以及GPU遙測數據,在執行前即可做出具備推論感知能力的動態路由決策。透過即時將工作負載導向最適合的GPU資源或推論服務節點,該解決方案在提升持續性使用率的同時,也有效降低延遲與重複運算的發生。

F5首席產品長(CPO)Kunal Anand表示,AI基礎架構已不再只是關乎GPU的存取或擴展部署規模,而是進一步演進為如何最大化每個加速器的經濟產出。我們與NVIDIA攜手合作,協助AI工廠將token產出視為可測量的商業指標。BIG-IP Next for Kubernetes 提供了所需的智慧能力與治理機制,能夠提升GPU產出效益、降低每token的成本,並自信地擴展共享AI平台。

經驗證的基礎架構效率:結構性提升

效能數據表現優異。根據Tolly Group驗證的測試結果,搭載NVIDIA BlueField-3 DPU加速的BIG-IP Next for Kubernetes,token吞吐量最高提升達40%、首個token回應時間(TTFT)加快61%,整體請求延遲則降低34%。

這些並非漸進式的提升。BIG-IP Next for Kubernetes將網路、TLS/加密、AI感知負載平衡和流量管理等任務卸載到NVIDIA BlueField-3 DPU,從而節省了主機CPU資源,使GPU能夠專注於其真正的核心功能:持續、大規模地進行高吞吐量推理。最終成果提升GPU使用率、佇列延遲減少、token產出增加,並在固定的基礎架構規模下,實現更低的每token成本。至關重要的是,此方案無須對模型進行任何修改,使這些效益能夠立即部署於現有的AI工廠基礎架構。對於在token經濟學上相互競爭的企業與新世代雲端(NeoCloud)供應商而言,這正是「限制AI產出」「加速AI產出」的基礎架構之間的關鍵差異。

NVIDIA網路事業部資深副總裁Kevin Deierling表示,NVIDIA加速運算基礎架構結合F5具備AI感知能力的應用交付與安全平台,解鎖了卓越的AI工廠token經濟效益,在無需更動任何模型的前提下,實現可擴展且具成本效益的推論。F5與NVIDIA攜手合作,協助企業以高效且經濟的方式擴展AI工廠推論能力。

專為代理驅動AI與多租戶AI平台而生

現代AI工作負載日益朝向代理驅動、持續運行且具備情境感知的方向演進,對傳統負載平衡所無法提供的智慧流量控制有著迫切需求。強化後的BIG-IP Next for Kubernetes解決方案現可支援:

  • 針對代理式AI工作流程的推論感知路由
  • 與NVIDIA DOCA平台框架(DPF)整合,簡化NVIDIA BlueField DPU的部署和生命週期管理。
  • 支援動態VRF的EVPN-VXLAN,實現安全的網路級多租戶。
  • 在Kubernetes AI環境中整合安全性、token治理和可觀測性。
  • 這些功能協助企業和NeoCloud供應商,能在業務部門或外部客戶之間安全地共享GPU基礎設施,同時保持效能隔離和可預測的服務等級。

AI工廠經濟效益的控制平面

F5與NVIDIA為企業提供經驗證的工具與最佳實務,以優化推論架構。隨著技術的強化,BIG-IP Next for Kubernetes正逐步定位為AI工廠經濟學的策略性控制平台,用於管理代幣消耗、優化流量並最大化基礎設施投資回報率。

企業無需再經由過度配置來彌補效率不足,而是可以從每個已投入生產的GPU中挖掘更大的經濟價值。提高每GPU的收入、降低營運成本,並建立可擴展的AI服務,以支援持續成長。藉由結合NVIDIA的基礎架構遙測與DPU加速能力,以及F5的流量智慧與資安防護能力,兩家公司正協助企業將AI工廠轉型為高效、可獲利的平台,迎接代理式時代的全面到來。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!