![]()
出品|虎嗅科技組
作者|韋雯
編輯|苗正卿
頭圖|Tiiny AI提供
“我們沒想到端側AI會火的這么快。”
3月末,Tiiny AI副總裁兼商業化負責人Eco Lee向虎嗅復盤了這款在Kickstarter上迅速爆火的項目時感慨道。
3月中旬,Tiiny AI Pocket Lab小盒子在Kickstarter上線,售價1399美金起,上線僅5小時眾籌突破100萬美元。上一次在該平臺跑出同等速度的,還是2022年的拓竹Bambu Lab X1。短短四年間,拓竹已經是營收百億的獨角獸公司。截至發稿日,Tiiny AI項目已經眾籌295萬美元,擁有2093名支持者。
有意思的點是,AI PC市場尚未成熟之前,這個外接盒子先火了。
筆者認為用戶買單的核心原因是,針對搭建本地AI助手的需求,Tiiny AI Pocket Lab給了一個簡單、直接的解決辦法。當用戶認為額外單獨買一臺AI PC太貴,部署大模型太麻煩,依賴云端不夠私密,算力又需要每月計算token的時候。它不負責用戶的日常辦公、不負責娛樂,只是一個負責AI需求的外接盒子。
這有些類似,當于我們的電腦、手機內存不夠,額外買一個移動硬盤的邏輯。Tiiny AI這款產品不做通用計算,只做100B級別模型本地推理,解決了用戶離線隱私、一鍵部署、本地算力的三個最重要的需求。但這個答案究竟是新品類,還是當下時代的補丁產品,現在還不能下定論。
想擁有Jarvis,卻找不到合適的硬件
眾籌火爆之下,Eco幾乎每周都能收到20家投資機構邀約。
虎嗅獲悉,Tiiny AI背后公司國內主體為本智激活,孵化自上海交通大學并行與分布式系統研究所(IPADS)。2025年完成數千萬人民幣種子輪融資,由光啟資本領投、BV百度風投、光源L2F創業者基金跟投。團隊2024年在GitHub上的PowerInfer(推理加速引擎)開源項目得到了9100個star。Tiiny AI項目正是從這個明星項目孵化而來。
![]()
截圖自GitHub官網
為什么Tiiny AI Pocket Lab會在這個時間節點火爆?不得不提及的是近期的“龍蝦熱”。OpenClaw等開源項目的火爆,Ollama下載量的暴增,都在表明,火爆的Jarvis需求和消費者能買到的合適的硬件產品中間,存在著一條市場縫隙。
在漫威電影《鋼鐵俠》中,托尼·斯塔克有一個無所不能的AI助手Jarvis。它能對話,控制整棟別墅的設備,處理海量信息,還能輔助完成最復雜的技術工作。現在來看,無論是企業級用戶,還是極客玩家、專業用戶,甚至部分大眾用戶,都在搭建屬于自己的“Jarvis”。
Eco Lee向虎嗅表示,TiinyAI的團隊看到了這一需求(Local AI)的爆發,所以決定下場做一款硬件產品。
具體而言,這款硬件產品猜中三個重要的市場縫隙,并同時指向共同的用戶痛點:云端成本和隱私焦慮;少折騰、低成本的本地AI入口。
首先,云端API足夠方便,但長期成本和隱私是問題。許多的金融、法律、科研從業者等職業用戶的隱私和敏感數據無法上云。他們強依賴網絡環境,但Agent連續工作場景不穩定,因此對Local AI的需求十分強烈。
其次,AI PC越來越普及,但并不是專門服務本地大模型的設備。
比方說極客用戶需求已經出現,但現有方案太別扭。他們已經有一臺高性能電腦,既要處理日常任務又要運行大模型。電腦的內存和算力被大量占用,即便搭載了AMD銳龍AI Max 395處理器、64GB內存(國內售價14999-17499元),如果運行了大模型,打開網頁都是一件困難的事情。他們需要額外一臺專門為本地大模型推理服務的設備,讓主力電腦回歸自己的主業。
再者,樹莓派和Jetson雖然也能跑起來,但是離消費級體驗還有一段距離。
譬如一些已經依賴AI助手的用戶關注持續token消耗能力以及長本文積累能力,已經嘗試了樹莓派,但是算力嚴重不足,能跑卷積模型(主要用于圖像識別等任務的神經網絡模型),但跑大模型基本不可用;使用過專為邊緣計算設計的NVIDIA Jetson系列,但高性能如64GB版的AGX Orin,開發板本身在美國市場官方定價為1999美元,國內商城報價約17599元人民幣,還需要自己額外買SSD存儲,價格十分高昂。
綜合來看,具備一定的算力和內存、一鍵部署本地模型、還需要有性價比的Agent Box,才能滿足當下用戶群體的急切需求。
因此,Tiiny AI做了減法,Eco Lee向虎嗅表示,Pocket Lab只運行本地LLM,系統完全為AI推理服務,不去預裝任何macOS、Linux或Windows等傳統操作系統。但同時,在算力上做加法,Pocket Lab的參數能夠媲美AI PC。官方參數190TOPS(INT8)AI 峰值算力,已達到當前主流桌面級專業 AI 顯卡的性能水平。
在操作簡易性方面,Tiiny AI Pocket Lab能夠一鍵下載并運行100B以下所有主流開源模型及各類開源AI應用。無論手頭的電腦是Mac、Windows還是自組臺式機,只需插入Tiiny設備,下載Tiiny OS客戶端就可以使用。
換句話說,Tiiny AI的這款產品并不與與AI PC、Mac mini等產品直接競爭。它搶到的是產品類目的真空地帶,它不是電腦,僅提供了一個類似移動硬盤的外接接口,先針對性高敏感數據用戶和高頻Agent玩家的本地AI需求。這更像是一個個人AI工作站(類Jarvis)的早期雛形。
Tiiny AI用軟件彌補硬件
Tiiny AI這款產品聰明之處在于,它將一個AI算力硬件包裝成了消費級產品。讓用戶好理解,100B,即插即用。也因此,讓用戶減少購買決策時間。
在這背后,Tiiny AI團隊在技術上的核心思考是:什么樣的模型能力才能真正滿足這些核心用戶的使用場景?
10B以下的模型價值有限,最多做本地信息檢索、短字符匯總,能力大致相當于初高中生水平;30B-70B模型(如Llama-3-70B、Qwen-30B)能勝任每日數據分析匯總,甚至簡單代碼生成;70B級別模型能力介于大學生與研究生之間,可進行長文本創作、深度調查,并且已經具備了邏輯推理,工具調用的能力,可執行24小時不間斷運行的Agent任務。而300B以上模型,目前仍需依賴云端算力。
所以Tiiny AI選擇了“讓100B級別的模型在本地運行”為這款產品的核心目標。主要原因是,100B參數參考了GPT-OS 120B,這是OpenAI推出的第一款開源權重模型,其benchmark表現與閉源的GPT-4o相當。行業普遍認為,GPT-4o開始,AI才真正具備了解決實際問題的能力。
從商業化角度考慮,沒有那么多用戶有預算購買4090或5090這類售價高達幾萬塊的高端顯卡。因此,Tiiny AI需要用價格盡可能低的硬件資源,運行這樣大的模型。
解法并非直接采購Nvidia或AMD的芯片適配已有的infra生態。這涉及到Tiiny AI最核心的技術PowerInfer,一個面向端側異構算力的推理加速引擎。
簡單來說。PowerInfer技術是在大模型推理過程中,將不同的參數用不同的芯片存儲、調用。參數激活模式會分為兩類:“熱激活參數”(每次與模型交互都會調用的核心參數,約占20%)和“冷激活參數”(僅在用戶問到醫學、法律等特定領域問題時激活)。這種冷熱激活的特性,恰好適合在端側異構算力架構下優化分配。
其中,GPU(圖形處理器)算力強、速度快,但成本高、功耗大;而CPU(即系統級芯片SoC中的通用計算單元)算力相對較弱,但功耗和硬件要求更低。Tiiny的策略是將冷激活參數放在SoC(Armv9.2 CPU+NPU 30TOPS)中處理,將熱激活參數放在dNPU(160TOPS)中處理。Tiiny AI采用的dNPU是專門為Transformer架構設計的ASIC(專用集成電路),去除了圖形渲染等無關電路,專為大模型推理優化。
![]()
虎嗅獲悉一組實測數據:120B模型下,prefill(預填充階段,即AI“思考”)速度可達300 tokens/s,decoding (解碼輸出階段,即AI“說話”)跑到20tokens/s;35B模型下,prefill約2000 tokens/s,decoding可達45 tokens/s。作為參照,人類閱讀速度僅8-12token/s。從參數表現來看,這套方案已能媲美高端AI工作站的運行效率。
這套方案的核心邏輯是軟件調度優于硬件堆料,聰明的軟件,能夠彌補硬件的不足。Eco Lee解釋,這些屬于AI Infra層面的技術積累。從芯片層到Agent調度層,再到模型訓練層,都需要深厚的knowhow支撐。相比軟件實力,硬件在這個賽道已經不算門檻。
當功耗變小,它的體積自然變小。但是30W的TDP對于300g的金屬機身來說,通常需要小型風扇進行主動散熱;如果是純被動散熱,表面溫度可能會超過60℃,導致長期使用燙手。對此,Tiiny AI在眾籌界面解釋,專門定制了薄至1.0mm VC 125*45mm + 雙胞胎風扇,其FIN與FAN是搭接一體化設計,更利于解決局域化散熱,靜音(35db以內)。
從下圖可以看到Tiiny這款產品中增加了勻熱片配合散熱模組一同進行風冷散熱。不過目前虎嗅也尚未接觸產品實物,尚不清楚其具體表現。
![]()
一些質疑聲
在這些參數背后,筆者注意到,海外行業觀察者從傳統dense模型和單一算力指標的角度提出疑問:
例如,Tiiny宣傳“120B大模型”,但該模型實際為MoE架構,每個token僅激活約51億參數。嚴格來說,這與“運行1200億參數模型”的技術含義存在距離;其次,關于算力宣傳,190TOPS的AI算力,可能是將NPU、GPU等不同計算單元的理論峰值簡單相加得出的,不同架構的算力不宜直接累加對外宣傳。
當然,這些問題僅僅涉及MoE、異構計算的市場營銷表述層面,這類表述已經成為行業慣例,并非否定Tiiny的技術價值。在兩個月前的美國CES展,Tiiny AI團隊已經展現出技術實力,將Pocket Lab通過USB-C接口,連接到一臺2011年生產的老舊電腦。完全離線的情況下,在這臺“電子古董”的屏幕上,GPT-OSS-120B(int4)以20tokens/s的速度跑起來了。
再者,關于內存配置。80GB內存分布在dNPU和SoC兩個不同芯片上,并非全部可用于模型推理的統一內存池。主要原因是,質疑者認為,80GB內存分布在兩個芯片上,受PCIe帶寬限制會影響性能。
![]()
對此,Tiiny AI在Kickstarter上進行了回復:針對“內存帶寬可能成為性能瓶頸”的質疑,Tiiny AI解釋,將熱激活參數(運行在NPU)與冷激活參數(運行在SoC)進行合并的過程,并不受PCIe帶寬的限制。
通俗來講,PCIe相當于芯片之間傳輸數據的“高速公路”,PCIe Gen4 x4這條“路”的限速約為8 GB/s。但Tiiny指出,這個限速只適用于大批量數據傳輸的場景。而冷熱激活參數的合并,實際傳輸的數據量極小。Tiiny AI以GPT-OSS-120B為例解釋,這個模型每次需要跨PCIe傳輸的數據僅約5.625 KB,傳輸耗時只有毫秒級的一小部分。由于數據量遠低于帶寬上限,PCIe鏈路并不會成為合并過程的瓶頸。
另外的質疑聲來自交付時間。關于為何在8月才能交付,Eco Lee向虎嗅解釋,從有Tiiny的想法到3月眾籌上線,已經研發了13個月了,等眾籌結束后馬上能進入量產狀態;其次,在這期間公司還有一道“認證”的坎要過。比如美國一定要配備的認證FCC ,加拿大的ISED、歐洲的CE以及RoHS、REACH等認證。公司從1月起就在籌備TIiny的認證和合規,預估在6月底前能完全具備產品交付的合規資質。
在生產制造環節, Tiiny AI的合作伙伴是全球PC制造頭部廠商LCFC,今年 5 月會在越南LCFC生產。Tiiny AI向虎嗅介紹,LCFC 認可 Tiiny 的產品形態及其代表的端側 AI 設備發展方向,也正因為有他們成熟的品控和制造能力在,才能穩穩保證Tiiny產品的交付質量。
總的來看,Tiiny AI這個小盒子證實了個人AI工作站的真實需求,也摸清了用戶場景,本地AI不會先成為大眾硬件,而是先成為專業用戶的生產工具;AgentBox或許只是窗口期品類,但已經切中了高敏感數據用戶和高頻Agent玩家的迫切需要,成為今年AI硬件行業的確定性趨勢。
![]()
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4848076.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.