網易首頁 > 網易號 > 正文申請入駐

5小時眾籌破百萬美金，Tiiny AI為什么能賣爆

2026-04-04 23:09:16　來源: 虎嗅APP

北京舉報

分享至

出品｜虎嗅科技組

作者｜韋雯

編輯｜苗正卿

頭圖｜Tiiny AI提供

“我們沒想到端側AI會火的這么快。”

3月末，Tiiny AI副總裁兼商業化負責人Eco Lee向虎嗅復盤了這款在Kickstarter上迅速爆火的項目時感慨道。

3月中旬，Tiiny AI Pocket Lab小盒子在Kickstarter上線，售價1399美金起，上線僅5小時眾籌突破100萬美元。上一次在該平臺跑出同等速度的，還是2022年的拓竹Bambu Lab X1。短短四年間，拓竹已經是營收百億的獨角獸公司。截至發稿日，Tiiny AI項目已經眾籌295萬美元，擁有2093名支持者。

有意思的點是，AI PC市場尚未成熟之前，這個外接盒子先火了。

筆者認為用戶買單的核心原因是，針對搭建本地AI助手的需求，Tiiny AI Pocket Lab給了一個簡單、直接的解決辦法。當用戶認為額外單獨買一臺AI PC太貴，部署大模型太麻煩，依賴云端不夠私密，算力又需要每月計算token的時候。它不負責用戶的日常辦公、不負責娛樂，只是一個負責AI需求的外接盒子。

這有些類似，當于我們的電腦、手機內存不夠，額外買一個移動硬盤的邏輯。Tiiny AI這款產品不做通用計算，只做100B級別模型本地推理，解決了用戶離線隱私、一鍵部署、本地算力的三個最重要的需求。但這個答案究竟是新品類，還是當下時代的補丁產品，現在還不能下定論。

想擁有Jarvis，卻找不到合適的硬件

眾籌火爆之下，Eco幾乎每周都能收到20家投資機構邀約。

虎嗅獲悉，Tiiny AI背后公司國內主體為本智激活，孵化自上海交通大學并行與分布式系統研究所（IPADS）。2025年完成數千萬人民幣種子輪融資，由光啟資本領投、BV百度風投、光源L2F創業者基金跟投。團隊2024年在GitHub上的PowerInfer（推理加速引擎）開源項目得到了9100個star。Tiiny AI項目正是從這個明星項目孵化而來。

截圖自GitHub官網

為什么Tiiny AI Pocket Lab會在這個時間節點火爆？不得不提及的是近期的“龍蝦熱”。OpenClaw等開源項目的火爆，Ollama下載量的暴增，都在表明，火爆的Jarvis需求和消費者能買到的合適的硬件產品中間，存在著一條市場縫隙。

在漫威電影《鋼鐵俠》中，托尼·斯塔克有一個無所不能的AI助手Jarvis。它能對話，控制整棟別墅的設備，處理海量信息，還能輔助完成最復雜的技術工作。現在來看，無論是企業級用戶，還是極客玩家、專業用戶，甚至部分大眾用戶，都在搭建屬于自己的“Jarvis”。

Eco Lee向虎嗅表示，TiinyAI的團隊看到了這一需求（Local AI）的爆發，所以決定下場做一款硬件產品。

具體而言，這款硬件產品猜中三個重要的市場縫隙，并同時指向共同的用戶痛點：云端成本和隱私焦慮；少折騰、低成本的本地AI入口。

首先，云端API足夠方便，但長期成本和隱私是問題。許多的金融、法律、科研從業者等職業用戶的隱私和敏感數據無法上云。他們強依賴網絡環境，但Agent連續工作場景不穩定，因此對Local AI的需求十分強烈。

其次，AI PC越來越普及，但并不是專門服務本地大模型的設備。

比方說極客用戶需求已經出現，但現有方案太別扭。他們已經有一臺高性能電腦，既要處理日常任務又要運行大模型。電腦的內存和算力被大量占用，即便搭載了AMD銳龍AI Max 395處理器、64GB內存（國內售價14999-17499元），如果運行了大模型，打開網頁都是一件困難的事情。他們需要額外一臺專門為本地大模型推理服務的設備，讓主力電腦回歸自己的主業。

再者，樹莓派和Jetson雖然也能跑起來，但是離消費級體驗還有一段距離。

譬如一些已經依賴AI助手的用戶關注持續token消耗能力以及長本文積累能力，已經嘗試了樹莓派，但是算力嚴重不足，能跑卷積模型（主要用于圖像識別等任務的神經網絡模型），但跑大模型基本不可用；使用過專為邊緣計算設計的NVIDIA Jetson系列，但高性能如64GB版的AGX Orin，開發板本身在美國市場官方定價為1999美元，國內商城報價約17599元人民幣，還需要自己額外買SSD存儲，價格十分高昂。

綜合來看，具備一定的算力和內存、一鍵部署本地模型、還需要有性價比的Agent Box，才能滿足當下用戶群體的急切需求。

因此，Tiiny AI做了減法，Eco Lee向虎嗅表示，Pocket Lab只運行本地LLM，系統完全為AI推理服務，不去預裝任何macOS、Linux或Windows等傳統操作系統。但同時，在算力上做加法，Pocket Lab的參數能夠媲美AI PC。官方參數190TOPS（INT8）AI 峰值算力，已達到當前主流桌面級專業 AI 顯卡的性能水平。

在操作簡易性方面，Tiiny AI Pocket Lab能夠一鍵下載并運行100B以下所有主流開源模型及各類開源AI應用。無論手頭的電腦是Mac、Windows還是自組臺式機，只需插入Tiiny設備，下載Tiiny OS客戶端就可以使用。

換句話說，Tiiny AI的這款產品并不與與AI PC、Mac mini等產品直接競爭。它搶到的是產品類目的真空地帶，它不是電腦，僅提供了一個類似移動硬盤的外接接口，先針對性高敏感數據用戶和高頻Agent玩家的本地AI需求。這更像是一個個人AI工作站（類Jarvis）的早期雛形。

Tiiny AI用軟件彌補硬件

Tiiny AI這款產品聰明之處在于，它將一個AI算力硬件包裝成了消費級產品。讓用戶好理解，100B，即插即用。也因此，讓用戶減少購買決策時間。

在這背后，Tiiny AI團隊在技術上的核心思考是：什么樣的模型能力才能真正滿足這些核心用戶的使用場景？

10B以下的模型價值有限，最多做本地信息檢索、短字符匯總，能力大致相當于初高中生水平；30B-70B模型（如Llama-3-70B、Qwen-30B）能勝任每日數據分析匯總，甚至簡單代碼生成；70B級別模型能力介于大學生與研究生之間，可進行長文本創作、深度調查，并且已經具備了邏輯推理，工具調用的能力，可執行24小時不間斷運行的Agent任務。而300B以上模型，目前仍需依賴云端算力。

所以Tiiny AI選擇了“讓100B級別的模型在本地運行”為這款產品的核心目標。主要原因是，100B參數參考了GPT-OS 120B，這是OpenAI推出的第一款開源權重模型，其benchmark表現與閉源的GPT-4o相當。行業普遍認為，GPT-4o開始，AI才真正具備了解決實際問題的能力。

從商業化角度考慮，沒有那么多用戶有預算購買4090或5090這類售價高達幾萬塊的高端顯卡。因此，Tiiny AI需要用價格盡可能低的硬件資源，運行這樣大的模型。

解法并非直接采購Nvidia或AMD的芯片適配已有的infra生態。這涉及到Tiiny AI最核心的技術PowerInfer，一個面向端側異構算力的推理加速引擎。

簡單來說。PowerInfer技術是在大模型推理過程中，將不同的參數用不同的芯片存儲、調用。參數激活模式會分為兩類：“熱激活參數”（每次與模型交互都會調用的核心參數，約占20%）和“冷激活參數”（僅在用戶問到醫學、法律等特定領域問題時激活）。這種冷熱激活的特性，恰好適合在端側異構算力架構下優化分配。

其中，GPU（圖形處理器）算力強、速度快，但成本高、功耗大；而CPU（即系統級芯片SoC中的通用計算單元）算力相對較弱，但功耗和硬件要求更低。Tiiny的策略是將冷激活參數放在SoC（Armv9.2 CPU+NPU 30TOPS）中處理，將熱激活參數放在dNPU（160TOPS）中處理。Tiiny AI采用的dNPU是專門為Transformer架構設計的ASIC（專用集成電路），去除了圖形渲染等無關電路，專為大模型推理優化。

虎嗅獲悉一組實測數據：120B模型下，prefill（預填充階段，即AI“思考”）速度可達300 tokens/s，decoding （解碼輸出階段，即AI“說話”）跑到20tokens/s；35B模型下，prefill約2000 tokens/s，decoding可達45 tokens/s。作為參照，人類閱讀速度僅8-12token/s。從參數表現來看，這套方案已能媲美高端AI工作站的運行效率。

這套方案的核心邏輯是軟件調度優于硬件堆料，聰明的軟件，能夠彌補硬件的不足。Eco Lee解釋，這些屬于AI Infra層面的技術積累。從芯片層到Agent調度層，再到模型訓練層，都需要深厚的knowhow支撐。相比軟件實力，硬件在這個賽道已經不算門檻。

當功耗變小，它的體積自然變小。但是30W的TDP對于300g的金屬機身來說，通常需要小型風扇進行主動散熱；如果是純被動散熱，表面溫度可能會超過60℃，導致長期使用燙手。對此，Tiiny AI在眾籌界面解釋，專門定制了薄至1.0mm VC 125*45mm + 雙胞胎風扇，其FIN與FAN是搭接一體化設計，更利于解決局域化散熱，靜音（35db以內）。

從下圖可以看到Tiiny這款產品中增加了勻熱片配合散熱模組一同進行風冷散熱。不過目前虎嗅也尚未接觸產品實物，尚不清楚其具體表現。

一些質疑聲

在這些參數背后，筆者注意到，海外行業觀察者從傳統dense模型和單一算力指標的角度提出疑問：

例如，Tiiny宣傳“120B大模型”，但該模型實際為MoE架構，每個token僅激活約51億參數。嚴格來說，這與“運行1200億參數模型”的技術含義存在距離；其次，關于算力宣傳，190TOPS的AI算力，可能是將NPU、GPU等不同計算單元的理論峰值簡單相加得出的，不同架構的算力不宜直接累加對外宣傳。

當然，這些問題僅僅涉及MoE、異構計算的市場營銷表述層面，這類表述已經成為行業慣例，并非否定Tiiny的技術價值。在兩個月前的美國CES展，Tiiny AI團隊已經展現出技術實力，將Pocket Lab通過USB-C接口，連接到一臺2011年生產的老舊電腦。完全離線的情況下，在這臺“電子古董”的屏幕上，GPT-OSS-120B（int4）以20tokens/s的速度跑起來了。

再者，關于內存配置。80GB內存分布在dNPU和SoC兩個不同芯片上，并非全部可用于模型推理的統一內存池。主要原因是，質疑者認為，80GB內存分布在兩個芯片上，受PCIe帶寬限制會影響性能。

對此，Tiiny AI在Kickstarter上進行了回復：針對“內存帶寬可能成為性能瓶頸”的質疑，Tiiny AI解釋，將熱激活參數（運行在NPU）與冷激活參數（運行在SoC）進行合并的過程，并不受PCIe帶寬的限制。

通俗來講，PCIe相當于芯片之間傳輸數據的“高速公路”，PCIe Gen4 x4這條“路”的限速約為8 GB/s。但Tiiny指出，這個限速只適用于大批量數據傳輸的場景。而冷熱激活參數的合并，實際傳輸的數據量極小。Tiiny AI以GPT-OSS-120B為例解釋，這個模型每次需要跨PCIe傳輸的數據僅約5.625 KB，傳輸耗時只有毫秒級的一小部分。由于數據量遠低于帶寬上限，PCIe鏈路并不會成為合并過程的瓶頸。

另外的質疑聲來自交付時間。關于為何在8月才能交付，Eco Lee向虎嗅解釋，從有Tiiny的想法到3月眾籌上線，已經研發了13個月了，等眾籌結束后馬上能進入量產狀態；其次，在這期間公司還有一道“認證”的坎要過。比如美國一定要配備的認證FCC ，加拿大的ISED、歐洲的CE以及RoHS、REACH等認證。公司從1月起就在籌備TIiny的認證和合規，預估在6月底前能完全具備產品交付的合規資質。

在生產制造環節， Tiiny AI的合作伙伴是全球PC制造頭部廠商LCFC，今年 5 月會在越南LCFC生產。Tiiny AI向虎嗅介紹，LCFC 認可 Tiiny 的產品形態及其代表的端側 AI 設備發展方向，也正因為有他們成熟的品控和制造能力在，才能穩穩保證Tiiny產品的交付質量。

總的來看，Tiiny AI這個小盒子證實了個人AI工作站的真實需求，也摸清了用戶場景，本地AI不會先成為大眾硬件，而是先成為專業用戶的生產工具；AgentBox或許只是窗口期品類，但已經切中了高敏感數據用戶和高頻Agent玩家的迫切需要，成為今年AI硬件行業的確定性趨勢。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4848076.html?f=wyxwapp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.