全面定義大模型長時運行與混沌負載特征,推進行業分工與消費端質量監控標準化
北京2026年6月11日 /美通社/ -- 2026年以來,隨著Claude Code、OpenClaw等智能體(AI Agent)技術的全面破圈,AGI正式邁入新紀元。正如黃仁勛在GTC 2026主題演講中所強調的:大語言模型(LLM)正從簡單的對話機器人,加速演進為能夠自主規劃、推理并采取行動以達成復雜目標的長時運行系統。這一趨勢下,大模型推理算力需求呈井噴式增長,"Token工廠"概念躍升為資本、產業與技術界的核心焦點。
然而,智能體(Agentic)的工作負載與傳統的人類對話交互在結構上截然不同。它通常呈現為長周期的多輪循環,在"推理階段"和"行動階段"之間高頻切換。隨著AI從"對話式生成"全面駛入"自主智能體"的深水區,算力基礎設施的生產、度量與消耗標準迎來解構性變革。
今日,軟通動力正式宣布,其首個標桿示范項目——"北京壹號詞元工廠" 正式投入運行,并同步向全球發布并開源"軟通動力詞元工廠性能基準"。這標志著大模型算力消耗正式告別粗放式的吞吐量比拼,步入標準化、工業化的"Token流水線"時代。
北京壹號詞元工廠:面向智能體時代的"新型電廠"
作為軟通動力AI戰略的重要組成部分,北京壹號詞元工廠聚焦Agentic Serving(智能體服務)場景,通過極限工程化手段壓榨硬件性能,集成前沿算力調度與KV Cache極致復用算法,以確定性的服務質量與極致的性價比,向全社會輸出標準化的"數字燃料"——Token,為智算時代提供確定性、高彈性的供應保障。
北京壹號詞元工廠項目負責人表示:"北京作為全國AI創新高地,集聚了最多的大模型公司和智能體應用團隊,對新型算力服務的需求最迫切、最前沿。建設與之匹配的'Token工廠'是北京打造'全球數字經濟標桿城市'的必然要求。Agentic Serving帶來了天然復雜的業務邏輯。一個簡單的最終指令背后,可能是模型內部數十次推理循環、工具調用與自我反思的疊加。這種極度的不確定性,使得傳統的靜態壓測指標完全失效。行業陷入'指標迷霧':底層建設者不知如何針對長上下文優化架構,算力運營者難以預估動態波動下的并發水位,企業級使用者缺乏明確的SLA作為采購依據,最終用戶則頻繁遭遇首字延遲不可控和推理中途斷線的糟糕體驗。我們發布這一基準,正是為了打造統一的'標桿之鏡'。"
同步發布:開源詞元工廠性能基準
為了精準捕捉并復現智能體服務環境中的極端壓力,軟通動力在發布會上宣布:正式開源詞元工廠性能基準,該基準不是單一工具,而是一個三層遞進的完整評測體系,遵循"一個基準(刻畫方法)",采用"三類測試方法",構建"分領域標準數據集" ,實現對算力集群真實服務能力的精準評估與公平對比。
軟通動力對基于大模型發展初期行業通用的MLPerf LoadGen進行了深度重構,實現了從靜態并發注入到動態行為仿真的跨越,發展出了 LoadGen 2.0。其核心突破在于:成功在測試環境中定義并重現了真實的"混沌局面",它定義了"大家共識的混沌系統如何刻畫和重現"——這是所有評測的根基。
以此為根基,軟通動力構建了三層遞進的完整評測體系:
LoadGen 2.0已完全開源(GitHub: github.com/issair/loadgen2)。
軟通動力的核心能力
隨著技術成熟,大模型行業正復制傳統工業的發展軌跡——模型算法研發、算力基礎設施運營(Token生產)、智能體路由分發以及垂直場景應用逐步解耦。專業的Token工廠需要具備"軟硬一體"的全棧能力。
軟通動力在以下方面形成了差異化能力
目前,軟通動力正深度參與平潭兩岸融合算力中心、韶關公共算力服務平臺等國家一體化算力網絡重點項目建設,并依托睿動智能體平臺,打造連接國際云廠商與國產AI新勢力的全球化AI雙向樞紐。北京壹號詞元工廠的啟動,是公司推進AI基礎設施布局、構建Token生態體系的重要實踐。
未來,軟通動力將持續推進"Token工廠"建設,并從消費者視角出發推出"實時監測"等一系列質量監控方法——如同在城市自來水管網中部署實時純凈度探針一般,在運行端動態監控Token生成的幻覺率、語義一致性及毫秒級延遲波動。這將幫助用戶更直觀地了解所使用算力服務的真實質量,推動行業建立更加透明、可信的評測體系。