![]()
出品|虎嗅科技組
作者|SnowyM
編輯|陳伊凡
頭圖|AI生成
“AI原生100”是虎嗅科技組推出針對AI原生創(chuàng)新欄目,這是本系列的第「32」篇文章。
在今天這個AI“淘金熱”的時代,所有人的目光都聚焦在那些更智能、更強大的大語言模型上。
然而,大多數(shù)人都忽略了一個房間里的大象:如果AI吃的是“垃圾”,那么它吐出的也必然是“垃圾”。
在B端企業(yè)中往往會有超過80%的數(shù)據(jù),被“鎖”在PDF、掃描件、表格和演示文稿這些“混亂”的非結構化文檔中。
傳統(tǒng)的OCR工具在處理這些文件時,會“弄亂”布局、破壞表格,導致下游的LLM產生“幻覺”。這在金融、醫(yī)療或法律等嚴肅場景中往往是不可被業(yè)界接受的。
而在硅谷,一個可能會終結“垃圾進,垃圾出”問題的初創(chuàng)企業(yè),叫 Reducto AI。
這家公司在沒有任何營銷的基礎上,用了 18 個月就融資 1.08 億美元,約合人民幣7.6億元,而其快速的融資速度,即便是在爆火的AI熱潮下,都十分少見。
嘉和資本CEO袁子恒告訴虎嗅,文檔解析類產品,能做和做好的差別很大,因為B端客戶需要的是高精度,特別是文檔布局的表格、復雜公式識別。這也是Reducto AI能夠迅速脫穎而出的優(yōu)勢。從產業(yè)鏈定位來看,非結構化數(shù)據(jù)解析平臺偏infra層。也就是說,更像是個“賣鏟人”。無論AI營銷、AI客服、AI財務、AI研發(fā)、AI HR,AI供應鏈等等,都離不開底層的結構化數(shù)據(jù)。所以市場規(guī)模很大,全球市場超千億美金,還在以超過40%的速度高速增長,因為企業(yè)的數(shù)據(jù)80%以上是非結構化數(shù)據(jù),還在持續(xù)增長,這些非結構化數(shù)據(jù)都需要處理成高質量、結構化、AI可以使用的數(shù)據(jù)。而從用戶需求來看,數(shù)據(jù)沒有AI-Ready是目前國內外企業(yè)落地AI和構建自有知識庫的最大障礙,“痛點很迫切”。
瘋狂增長
Reducto AI成立于2023年1月,起初只是一家兩人團隊的初創(chuàng)公司,在短短18個月內,它相繼獲得了硅谷“名人堂”的重注(虎嗅注:硅谷工程師協(xié)會(SVEC)于1989年成立,該協(xié)會自1990年開始設置硅谷名人堂。 硅谷工程名人堂旨在記錄那些在專業(yè)領域取得了杰出成就的工程師和技術領袖們。 從1990年以來,有超過97個人入選該榜單。 最近一次是NVIDIA 的首席科學家 Bill Dally。 他在斯坦福大學工程學院的流處理研究成果幫助推動了 GPU 計算的發(fā)展,掀起了 AI 革命。)
從2024年起,Reducto憑借其API優(yōu)先(API-first)的文檔AI平臺便開始吸引全球頂級投資機構的目光。
頂級VC們在極短時間內接力領投,反映了他們對這樣一個“品類定義者”公司的極度FOMO(恐慌情緒)。其A輪(2025年4月)和B輪(2025年10月)之間僅隔5-6個月,還觸發(fā)了B輪領投方(a16z)的“搶先下注”(Pre-emptive Round)。First Round(頂級種子)、Benchmark(頂級A輪)和a16z(頂級B輪)這三家風格頂尖的機構相繼成為Reducto的“第一大外部股東”。
到2025年10月,Reducto的累計融資額已達到1.08億美元。
這里有個很好的小故事,足以證明Reducto的融資速度,其CEO Adit Abraham曾在播客采訪中透露,當Reducto還只是一個兩人團隊時,Benchmark的Chetan Puttagunta就主動與他們溝通,建議進行A輪融資。
這種“反向推銷”的現(xiàn)象,充分反映了Reducto在硅谷的影響力。
解決文檔解析痛點,為企業(yè)提供真實來源
Reducto到底造出了什么,能讓全美最大的孵化器——YC社區(qū)的早期用戶驚呼“比亞馬遜的AWS還好”?
Reducto的產品形態(tài)是一個API優(yōu)先的文檔AI平臺,輔以一個名為“Reducto Studio”的交互式工作區(qū),供團隊構建、評估和部署數(shù)據(jù)管道。
它不是一個單一的工具,而是面向開發(fā)者的“工具箱”。其核心API矩陣構成了一個完整的工作流,大致由 4 種 API 組成,我們做了整理:
Parse API(解析):作為Reducto的基礎,Parse API將復雜文檔(如PDF、圖像、表格)轉換為包含文本、表格、圖形及布局信息的結構化輸出。
Extract API(提取):基于Parse API,允許用戶通過提供JSON Schema或自然語言提示,從文檔中精確提取結構化字段。
Split API(拆分):將長文檔(如1000頁PDF)智能拆分為語義上有意義的“塊”,為下游RAG應用優(yōu)化上下文。
Edit API(編輯):Reducto的“核心”,是行業(yè)首個AI文檔編輯API,允許AI“回寫”或填寫文檔中的空白、復選框和表格。
![]()
在API層之上是Reducto最核心的Agentic OCR框架。
由于Reducto的技術哲學是“像人類一樣閱讀”,采用“視覺優(yōu)先”方法,將PDF視為包含豐富上下文的視覺對象,而非純文本流,所以他們創(chuàng)新性地采用了Agentic OCR工作流,大致如下:
首先,“傳統(tǒng)CV(計算機視覺)”模型首先介入,對文檔進行視覺分解,理解文檔的整體布局,捕獲區(qū)域、表格、文本塊。
![]()
接著,“VLM”模型介入,在上下文中解釋每個區(qū)域,將標簽(如“發(fā)票號”)與數(shù)值(如“INV-123”)智能地關聯(lián)起來。
最后,由Reducto的護城河技術:Agentic VLM 智能體模型,像一個“人類編輯”一樣,自動審查和糾正前兩遍輸出中可能存在的微小錯誤。
![]()
這個“AI監(jiān)督AI”的系統(tǒng)使Reducto在長尾邊緣情況(如復雜表格、手寫體、低質量掃描件)中仍能保持高準確率,避免了傳統(tǒng)OCR/VLM解決方案中的人工審核問題。
這個“多遍自修正”系統(tǒng),通過AI智能體替代人工審核員,自動化質量保證(QA)環(huán)節(jié),從而實現(xiàn)極高的準確性。
![]()
用Reducto自己的話來說,這叫做“提供真實來源”。
這就是革命性的地方。
傳統(tǒng)OCR/VLM的解決方案是“人在回路中Human-in-the-Loop”(HITL),即模型無法處理時,將任務發(fā)給人類審核員。這既慢又貴。
Reducto的“Agentic OCR”用一個“AI質檢員”取代了“人類審核員”。這是一個“AI監(jiān)督AI”的自修正系統(tǒng)。這就是為什么他們能實現(xiàn)“99%+”的準確性。
憑借這樣的核心產品技術,Reducto的增長堪稱“閃電戰(zhàn)”。在參加2024年初的YC W24批次期間,Reducto完成了從“LLM記憶”到“文檔AI”的關鍵轉型。
Reducto在核心產品(Parse API)發(fā)布后的6個月內,ARR從0增長到“7位數(shù)”,超過100萬美元。
在2025年10月的播客采訪中,CEO Adit Abraham分享了通過“創(chuàng)始人主導銷售”(Founder-led sales)實現(xiàn)ARR突破500萬美元的經驗。
除了ARR,其他增長指標也相當亮眼。
到2025年4月A輪融資時,Reducto已經處理了“數(shù)億頁”文檔;而在2025年10月的B輪融資時,累計處理量超過了“10億頁”。在A輪到B輪的短短5-6個月內,月處理量增長了6倍。
此外,Reducto還表現(xiàn)出了極高的資本效率。CEO Adit Abraham在播客采訪中多次強調,公司在籌集了1.08億美元后,到2025年10月為止,僅“燒掉”了100萬美元。
“籌集1.08億,只花100萬”表明Reducto的產品市場契合度(PMF)極強,團隊也非常精干。Adit也表示這筆錢,將全被用來在AI人才戰(zhàn)中不計代價地招募到最頂尖的博士,并且用來應對與AWS、Google等云巨頭的長期消耗戰(zhàn)。
硅谷經典創(chuàng)業(yè)路徑
Reducto AI的2位創(chuàng)始人也非常有來歷,經驗和性格的搭配讓其順利走過了從“維生素”到“止痛藥” 的硅谷經典創(chuàng)業(yè)歷程。
Reducto AI由兩位MIT畢業(yè)的聯(lián)合創(chuàng)始人Adit Abraham(CEO)和Raunak Chowdhuri(CTO)共同創(chuàng)建。
Adit畢業(yè)于麻省理工學院(MIT),獲得計算機科學與工程學士學位。他曾在Google擔任產品經理,負責YouTube搜索,并領導了YouTube搜索歷史上收入最高之一的項目發(fā)布。
此外,他還在MIT Media Lab和BlinkAI從事機器學習(ML)研究。Adit是一位具備深厚技術背景的“產品型CEO”,深刻理解技術商業(yè)化和規(guī)模化的關鍵。
Raunak同樣畢業(yè)于MIT,獲得計算機科學學士學位,主攻AI與機器人方向。他是一個“技術天才”,在高中畢業(yè)前便在計算機視覺(CV)領域發(fā)表了學術論文,并獲得了超過100次引用。在MIT期間,他還曾在MIT Driverless的感知團隊和MIT林肯實驗室擔任機器學習(ML)研究員。
在創(chuàng)辦Reducto之前,Raunak創(chuàng)辦了一家計算化學咨詢公司,并成功將其干到20萬美元的ARR。
![]()
圖注:Raunak(左)和Adit(右),來源:Business Insider
可以說,他是Reducto的技術核心,在計算機視覺領域擁有近十年的“科班”經驗。
兩位創(chuàng)始人最初相遇在MIT,當時Adit是大三學生,而Raunak是大一新生,他們在一門研究生機器學習課程上結識。
Reducto的誕生并不是一帆風順,他們也進行了Pivot(產品轉型)。
最初,Adit和Raunak申請YC時的項目名為“Remembrall”,它是一個“LLM的長期記憶API”。這個項目在Twitter上引起了一定的關注,并收到了數(shù)百個試用注冊。
然而,Adit在與這些早期用戶交流時發(fā)現(xiàn)了問題:雖然用戶覺得這個想法“有趣”,但并沒有真正的需求,客戶只愿意為此支付每月10-20美元。
這個項目顯然只是一個“弱信號”的“Vitamin”(維生素)產品,而非真正解決“Painkiller”(止痛藥)類問題。
在深入與客戶對話后,Adit和Raunak敏銳地意識到,客戶反復抱怨的“如果你能管理聊天記錄,能否管理用戶上傳的PDF文件”才是一個“強信號”。
他們發(fā)現(xiàn),幾乎所有AI團隊都面臨“處理PDF的準確性”問題。于是,他們花了一個周末時間,用Streamlit構建了一個簡單的PDF解析工具原型,并在YC論壇發(fā)布。
結果,得到了截然不同的反饋,用戶紛紛表示:“這比我從Textract(AWS)得到的結果還好,有API嗎?”
這個反饋讓Adit和Raunak意識到,他們找到了真正的“Hair on Fire”的痛點,立即決定放棄原有的LLM記憶項目,轉而專注于文檔智能,從而誕生了Reducto AI。
在YC期間,他們憑借全新的方向和出色的產品原型,在仍然是“兩人創(chuàng)業(yè)公司”的時候,就成功簽下了一家《財富》10強企業(yè)客戶,驗證了PMF。
而且,Adit的畫像在業(yè)內非常清晰:極端專注、反直覺、客戶至上。他非常重視“拒絕”的藝術(The Art of Saying "No")。在Reducto的早期,他曾果斷地“解雇”一個價值5000美元的合同,因為該客戶的需求會分散團隊的精力。
此外,他也拒絕了價值“數(shù)百萬美元”的建筑文件合同,因為這不符合他們對核心產品精度的專注。Adit非常推崇“工程師每周只有一個優(yōu)先事項”的工作模式,確保團隊能夠在一個方向上做到極致。
作為一位技術背景的創(chuàng)始人,Adit親自負責公司的銷售工作,直到ARR突破500萬美元。他的銷售理念是“關懷勝于銷售技巧”,他強調應該與早期客戶建立深度關系,以至于“你愿意邀請他們參加你的婚禮”。
開辟新藍海的“賣鏟人”
Reducto所處的“智能文檔處理”(IDP)市場,正在以20%-30%的高復合年增長率高速擴張。
這個賽道的核心痛點,就是我們開頭提到的“80%的數(shù)據(jù)詛咒”:企業(yè)價值被“鎖”在非結構化文檔中,而傳統(tǒng)OCR工具的“準確性災難”導致AI“垃圾進,垃圾出”。
表面上看,這是一個充斥著三類玩家的“紅海”。
云巨頭們,像是Amazon Textract, Google Document AI, 它們是云平臺的“捆綁”服務,價格低廉,與云生態(tài)深度集成。老牌企業(yè)軟件(像是ABBYY),是為“業(yè)務人員”設計的“低代碼”RPA工具,品牌歷史悠久。同時,這個行業(yè)還存在著一堆開源工具(像是Unstructured.io), 免費、可自托管。
然而,Reducto正在這個“紅海”中開辟一個全新的“藍海”。
Reducto AI是一家罕見的,在正確的時間(VLM與RAG爆發(fā)的技術周期)由正確的人(“產品CEO” Adit與“技術天才CTO” Raunak)執(zhí)行了正確戰(zhàn)略(從YC的“市場拉力”轉型和“極端專注”)的“三重奏”公司。
他們沒有去制造“淘金熱”中的LLM,而是選擇成為那個最關鍵的“賣鏟人”。
云巨頭的工具是“大而全”的捆綁產品,但在需要極致準確性的“長尾”復雜文檔上表現(xiàn)不佳。Reducto則在基準測試中“最高領先AWS, Google和Azure 20%”。在金融或醫(yī)療領域,這20%的準確性幾乎就是生與死的區(qū)別。
例如,AI原生TPA(第三方管理人)Elysian使用Reducto處理保險索賠文件,將審查速度提高了16倍。醫(yī)療公司Anterior使用Reducto處理醫(yī)療記錄,實現(xiàn)了99%以上的準確率,將決策從幾天縮短到幾秒。
這種創(chuàng)業(yè)路徑和領域,也給了許多AI創(chuàng)業(yè)者啟發(fā)。
當然,涌入的創(chuàng)業(yè)者,這也給Reducto帶來競爭和挑戰(zhàn)。袁子恒最近正在陪跑一家中國出海的文檔解析創(chuàng)業(yè)企業(yè),他表示,這家企業(yè)的精度超過了Reducto,并且成本更低,速度更快,還開發(fā)了自有的多模態(tài)數(shù)據(jù)解析引擎和多個自研模型,主要面向海外市場,已經獲取了很多海外企業(yè)客戶,有美國的知名大學、金融機構,還有歐洲的一些企業(yè),在解析精度、千頁價格、支持的格式種類還超過了歐洲大力扶持的大模型廠商Mistral的OCR。
另一個挑戰(zhàn)來自大廠。
首先,AWS和Google正在將其文檔處理能力與VLM(如Gemini)和AI平臺(如Bedrock)深度“捆綁”銷售。他們可能以“更低”甚至“免費”的價格提供“足夠好”的解析能力。
其次,行業(yè)面臨“GPT-5是否會免費解決這一切?”的長期威脅。隨著基礎模型在視覺理解能力上的飛躍,Reducto的“準確性”優(yōu)勢可能會被削弱。
不過,巨頭切入的市場,可能與Reducto不同。袁子恒對文檔解析的創(chuàng)業(yè)生態(tài)十分熟知,DeepSeek也做過類似探索,今年10月發(fā)布了Deepseek-OCR,嘗試解決大語言模型長文本處理的瓶頸,主要目標是提高 LLM 處理長文檔時的計算效率、降低內存占用,并有效解決長上下文的“遺忘機制”問題。本質是輸入預處理器,優(yōu)化了 LLM “看”和“記住”長文檔的方式。但袁子恒表示,盡管這種OCR看起來和Reducto很像,但從目標和要解決的問題以及面向的市場來看,和Reducto完全不一樣。
還有一個可能的危機,來自CEO Adit Abraham的“極端專注”哲學。“創(chuàng)始人主導銷售”、“雇人慢”、“拒絕客戶”、“每周一件事”,這些理念幫助他們打造了完美的產品,并實現(xiàn)了從0到500萬ARR的奇跡。
但是,這個理念被認為無法將公司從500萬ARR帶到1億美元ARR。
![]()
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4806189.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.