今天我們來聊點特別的,量大、神秘的大廠網絡。
網絡這東西,是個理論為底、實踐為本的經驗知識體系,如果不是天天摸它、盤它、挊它,很快就忘掉。
為什么大廠網絡比園區網神秘,就是因為它規模夠大,并不是每個甲方都需要,接觸的網工自然就少。
從今天開始,我打算在特大號起個專欄,陸陸續續寫些小文,把大廠網絡的特點介紹一下,讓這個領域“卷”起來。
![]()
01、大廠網絡分類
規模大才能稱得上大廠,網絡至少20萬個接入端口,也就是10萬臺服務器,是個門檻,再往上還有20萬、50萬、100萬臺服務器這幾個檔位。
量變引起質變,所以對網絡的分類自然和以辦公為主體的園區網絡有了本質變化↓
一、DCN,數據中心網絡,專門伺候一個數據中心園區內的服務器高速互聯用的,這幾年因為AI的發展,概念上也有了分化。
①front-end或者TCP或者機頭網絡:
每家大廠都會有自己的命名體系,當看到不同廠的文檔時,需要讀者進行理解上對齊。
這就是傳統的DCN,服務器的業務網絡,承載Overlay的Underlay,同時跑也存儲這類大流量,也支持不那么高性能的RDMA。
②back-end或者RDMA或者HPN或者scale-out網絡或者IB網絡或者RoCE網絡:
也有叫計算平面、參數平面的,名稱非常多,AI時代的產物,專門用于GPU或者加速卡之間的高性能RDMA通信。
③scale-up網絡或者超節點網絡:
顧名思義,超節點才需要的內存總線網絡,通常由GPU或者加速卡廠商綁定,大廠也會自研這部分網絡。
這部分網絡通常要跨界計算體系結構,純網工已經完全不夠用了。
④互聯器件:
和股市反映的現實一樣,光模塊等互聯器件在DCN中無比重要,通常會有專門的小分隊來跟蹤互聯器件的技術路線。
二、DCI,數據中心互聯,也就是把不同的數據中心連起來,并且通過自建的OTN給夠帶寬,也根據OTN的類型分為以下幾種。
①城域DCI,裸纖資源較充沛,通常會自建OTN來滿足想擴就擴的帶寬需求
②骨干DCI,跨省的裸纖就不那么好找了,會根據實際帶寬需求的TCO成本來考慮是租用運營商線路還是自建OTN。
OTN,物理層的技術體系,通常也是一個單獨的架構,量大了就會采取更為自主可控的技術路線。
三、公網或者外網,有的廠會獨立架構,也有的廠因為多地域出口需要用骨干DCI提供調度也會放到DCI里。
大廠不會給所有服務器提供直接的公網接入,所有公網都通過專用的網關或者代理網元提供,這類網元都是基于服務器集群或者專用可編程硬件集群,構造了一個性能無限、更為自主可控的公網訪問控制體系。
①國內公網:
國內公網就3大,靜態和BGP互聯可選,覆蓋分布較為簡單,運營模式較內網復雜N倍。
②國際公網:
運營商覆蓋分布零散,自由的BGP互聯,有穿透和非穿透互聯,也有專線互聯和IX互聯。
每種互聯選項都有不同的覆蓋質量和服務等級,如果是國產網工要上手這部分,背景知識就得花好幾個月,應該是國內公司的N倍復雜度。
四、邊緣網絡,有的廠也會加入到DCI里頭,主要是隨著CDN、邊緣計算等業務的興起,需要一個專門的網絡分類來滿足這部分需求。
①邊緣內部網絡,類似迷你的DCN + 迷你的公網。
②邊緣回源網絡,屬于DCI的毛細分支,有的廠為了有更好的回源質量用了專線,有的廠則直接復用邊緣龐大的公網出口。
五、虛擬網絡,也有叫容器網絡或者云網絡的,熟知的Overlay。
①VS網元,部署在服務器上,實現計算資源的Overlay的接入。
②網關網元,分布式的各類網元,提供虛擬組網路由、NAT、4/7層代理、限速、訪問控制、專線接入、VPN等功能。
這些網元通過Underlay實現互聯,Overlay掛載相同的VPC實例,這個VPC就變成一個邏輯功能不亞于物理網絡的虛擬網絡了。
六、帶外網絡,這部分是最接近園區網絡的分支,通常會和辦公網絡打通,會獨立一套組網資源,避免與生產網絡形成相互依賴。
七、研發體系,這不是具體的網絡類型,但對大廠卻很重要,這部分代表了自主可控,所有網工智慧結晶與優秀代碼的結合產物,陣型劃分每個廠都有自己的偏愛,大家理解上對齊就好了。
資產管理,固態數據;配置管理,靜態數據;監控管理,動態數據。
告警管理,處理不同數據的專家策略,代替人眼快速感知網絡的健康狀態。
自動化,代替網工執行成熟的SOP。
SDN,可能也不用這個詞,定位已經不是取代路由協議了,而是作為一個高級工具,簡單來說就是能夠代替專家看懂全局網絡,并且能夠基于全局網絡做一些流量調度以提供更高級的網絡運營能力。
高性能網絡,專長在擁塞控制算法、RDMA協議棧的網絡開發專家,與熟練的網絡工程人員密切配合,在HPN網絡上跑出讓大模型滿意的性能。
自研體系能力,只要量夠大,萬物皆可自研或者自定義,不論是咱們的軍工體系還是大廠抄作業的對象——Google都有力地證明了這一點。
通常是從自研交換機OS開始的,統一各種管控面拔高可靠性和效率指標的上限,這也是園區網絡的網工很體會到的點,如果量夠大,評估收益夠可觀,自研光模塊、自研OTN、甚至聯合研發硬件、芯片都不在話下。
02、如何評價大廠網絡的水平
建得好不好,通常不由自己說了算,也不由同行說了算,而是看公司業務發展有沒受影響。
公司業務發展沒受制約,說明不錯,再橫向對比一下同行的同維數據,那基本上就知道段位了。
大廠網絡的獨特性本質是來說是評價體系造就出了技術框架↓
一、可靠:
衡量網絡的首選要素,故障多不多、出了故障修復得快不快,就這2個樸素的指標。
為了滿足這2個指標不影響業務發展,多少網工掉了多少頭發去填坑補漏,優秀的網工都是趟過最多坑的那一群人。
二、經濟:
在滿足業務基礎要求的前提下,在指定范圍內的單位TCO成本,有的場景是接入端口,有的場景則是帶寬。
作為一個類似小區水電工的純成本角色,畢竟量這么大,這也是老板們最愛的指標。
環比、同行比、拆細了維度再比,很多園區網絡不理解地方都是因為沒受這樣的成本模型考核。
三、效率:
主要考慮的是能不能交付、交付夠不夠快。
可能大家認為這就是堆人的活,但如果考慮到芯片斷供、某個供應商服務能力很差嚴重影響業務這些黑天鵝,并且要把這些可能的問題從事前規避而非事后教訓,這也是園區網絡很難體會的一個點。
四、經營:
比如用兼顧以上3個維度要求的技術方案去滿足業務需求、QoS服務的可不可以靠差價賺點微薄利潤、在業務還沒有明確的要求的時候要不要推廣200G接入端口……
一個好的經營,需要綜合調研、精算、方案論證和立項等策劃工作,也需要設計、項目管理、執行、運營等長期落地工程,還需要長期跟蹤這個產業五花八門的技術動態以達到借鑒作用,甚至有沒有必要冒一定的風險在業界吃一口螃蟹。
能做好經營的網絡團隊,那都是大廠中的頂流,說明團隊陣型合理、技術儲備充分、同時有明確的技術戰略路線作為指引、并且可以把相應的戰略目標落實實現等等……
經營,可以說是大廠網絡和園區網絡最為全面的區別。
![]()
好了,第一期就介紹這些基礎概念吧,后面再挑些具體的點來管中窺豹。
也歡迎大家在評論區留言或者加我微信,共同交流探討。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.