前言
最近,我們準備聯合一線的人工智能從業者,面向普通用戶,做一系列直播活動。這個活動也是從我們自身需求出發,希望能夠對這個領域有一個系統、全面的了解,同時跟上人工智最前沿的技術、產業趨勢。
本周,這個領域的資深從業者馬驍騰進行了第一次直播分享
主講人馬驍騰,利物浦大學碩士,大廠資深產品運營專家(快手,Opera,天工AI),近兩年轉向人工智能,是國內前5的C端AI產品初始團隊成員。
以下是這次直播的主要內容摘要。
問:AI的起源
答:以一個講故事的方式跟大家展開,竟然是跟語言學家有關。
語言學家很早就開始對AI進行探索,最早人們與AI的交互,可以追溯到機器翻譯領域。谷歌翻譯可以算是早期AI的代表。機器翻譯能夠實現不同語言之間的相互轉換,比如英語和中文的互譯。從最早基于規則的方法進行翻譯,到后期統計機器翻譯(SMT),再到如今神經機器翻譯(NMT),翻譯與AI一直處于相輔相成的關系。
語言學為AI奠定了堅實的理論基礎。句法結構和語義理解是自然語言處理的關鍵要素,這些理論持續為模型設計提供指導。例如,Transformer模型中的注意力機制就是受到語言學的啟發,模擬了人類在處理語言時對關鍵信息的聚焦能力。同時,語言學家對多義詞、歧義句等復雜語義現象的研究成果,也助力AI系統更好地應對復雜的語言環境。
語言學與AI的深度融合正催生新的研究方向。神經符號AI將符號邏輯與深度學習相結合,多模態翻譯則整合了文本、語音、圖像等多種信息形式。像百度智能文檔翻譯平臺支持版式還原,微軟Azure AI語音實現實時口譯,這些技術突破都是語言學家與工程師緊密合作的結晶。
Part 1
問:大模型的名字由來
答:大模型一般都是指大語言模型,英文名字LLM模型(Large Language Models,大語言模型)是一類基于深度學習的人工智能模型,旨在處理和生成自然語言文本。
當然除了大語言模型之外,還有就是像我們所說的就是視頻模型。簡單來講,大語言模型,然后之后衍生出來一系列模型,比如說像文生圖,視頻就是我們還有音樂模型,但是說這幾個模型的基礎都一定程度依賴于說大語言模型的進步,大語言模型的發展推動了其他模型的發展。
![]()
問:大模型究竟是什么呢?
答:大模型理論基礎在于神經網絡算法,這是一種力求讓計算機模仿人類大腦運作的理論,體現為一種算法,即一系列有條不紊的代碼序列。
更準確地說,它旨在使計算機模擬人類的思考與判斷過程。這一理論支撐下的大模型,其本質是一種算法。語言學為其提供了認知基礎:當我們學習語言,例如學習英語,我們要學習單詞和語法,再到深入了解其文化,這一系列認知步驟便構成了一種方法論。大模型通過代碼將這一認知過程實現,實質上是一系列有步驟、有方法論的代碼集合。
![]()
問:什么推動了AI的進展?
答:計算機學家和語言學家經過深入思考,找到了一種讓機器更好地理解、處理語言的方法,最終形成了如今各種大模型的主流架構算法,即Transformer。
這個架構有些類似于生物學上神經網絡的概念。它由多層神經網絡構成,就像人腦擁有眾多神經元一樣。這些神經元進行著信息的交互,每一層都有許多神經元節點同時處理問題,然后進入下一層。這其中有著復雜的連接關系,以及靈活的架構設計。
![]()
比如說,現場可能有學金融學的同學。如果我問他銀行單利和復利是什么,他會在腦海中思考這個問題。他會想起之前在哪本書上看到過相關內容,然后從記憶深處整理出關于單利和復利的概念。這個過程包括輸入問題、在隱層進行思考和記憶檢索、最后輸出答案,這就是一個從輸入到輸出的過程,類似于每個人每天思考問題的方式。這也可以類比為神經元細胞的結構,它有一個輸入層,接收信息;然后是中間的隱層,代表思考過程;最后是輸出層,給出結果。
簡單來說,大語言模型通過訓練生成了一串有序的代碼,分步驟處理我們輸入的內容。從輸入開始,經過檢索內容、中間檢索過程,到最后輸出結果,這些內容就是我們看到的大模型呈現給我們的答案。可以稱之為一個“人造大腦”,參數構成了這個“大腦”,參數越多,“大腦”就越大,可能也就越聰明,但同時需要的“營養”也就越多,每次成長都需要更多的資源。
現在我們會覺得Deepseek這類大模型無所不知,基本上什么問題都能回答。這是因為在訓練大模型時,已經將各個門類、各個學科的知識,包括互聯網上的知識、書本上的知識和專業領域的知識都喂給它。所以它就像人讀書一樣,基本上什么書都讀過并且記住了。
問:AI的終局是什么
答:終極目標是能像人一樣自主思考、自主學習、自主解決新問題的通用人工智能系統(Artificial General Intelligence,AGI)。就是說通用人工智能夠像人一樣,就是做人能做的那些事情。比如現在仿生機器人能夠像人人去走,遇到石頭會躲避,遇到臺階會邁步,這就是說現在的終局就是我們在往AGI的方向去發展。
問:算力是什么,為什么算力那么重要
答:算力可以看作是大模型的“營養液”。就如同汽車需要汽油來提供動力一樣,大腦也需要營養供給才能思考。大模型要具備強大的學習和理解能力,首先需要構建一個規模龐大的模型結構,使其擁有足夠的“算力”,也就是大模型的“營養”。當面對各種復雜問題時,它就能憑借這顆“聰明”且“容量極大”的“大腦”進行處理,并返回高質量的答案。
舉個例子,人在疲憊的時候往往就不愿意去思考了。大模型也是如此,只有擁有更巨大的算力,也就是充足的“營養”,它才能持續不斷地進行思考,并且還可以自行進行優化和調整。所以說,算力對于大模型而言,就如同營養對于大腦一樣重要,是不可或缺的支撐。
Part 2
問:AI和Chatgpt之間是什么關系?
答:Chatgpt可以被視為AI的代表之一。打個比方,將AI看作一個類似“智能手機”這樣的通用名詞。那么Chatgpt就像是早期版本的iPhone——比如iPhone 4,是當時智能機領域的先驅之一。而DeepSeek則可能類似于華為Mate系列等其他品牌的智能機。因此,它們都是AI大模型或所謂大語言模型的典型代表。
GPT全稱Generative Pre-trained Transformer,即生成式預訓練變換模型。這個名字聽起來很復雜,但實際上它指的是一種能夠通過預先學習大量數據來生成新內容的AI技術。其中,“Generative”表明這是一種具有創造性的AI,可以根據已有的信息創造出全新的內容。
Pre-trained就是我們經常聽到的“預訓練”,這意味著會先讓模型學習大量的書籍和資料,開發人員會不斷地監督大模型的學習過程,并通過人類的反饋來加強其學習能力。具體來說,就是讓它閱讀很多書,然后像考試一樣提問,答對了就給予肯定,錯了就指出并糾正。這個過程類似于學生從小學讀到研究生,不斷積累知識直到達到各個領域都有很高的準確率。
Transformer這里指的特定的神經網絡架構算法,使模型能夠理解和處理各種問題。這相當于第一次實現了真正意義上的生成式AI,是一個重大的進步。
![]()
在Chatgpt之后,許多中國公司紛紛效仿這種方法,自己開發算法架構并進行訓練,推出了如文心一言、豆包等不同的大模型。這些模型的訓練方式基本相同,起初都是基于Chatgpt公開的研究論文,當然也不乏研究過程中的改進。
在訓練大模型的過程中,需要大量的標注人員為模型提供準確的信息,并對模型的回答進行評分,以不斷提高其準確性和質量。最初的時候,模型的回答可能比較生硬“不說人話”,但隨著時間的推移和持續的優化,它們變得越來越流暢自然。
AI的一個重要能力就是能夠生成內容,包括語義、語音以及圖像和視頻等多種形式。然而,對于單純的文本生成而言,現有的大語言模型已經做得相當不錯;但要生成圖像或視頻,則需要額外的架構支持。這就是為什么發布的Sora模型引起了廣泛關注的原因——它試圖在大型語言模型的基礎上進一步拓展到多媒體領域。
![]()
自然語言處理是指讓機器能夠理解和生成人類的語言。無論是輸入中文,英文還是什么語言,AI都能相應地給出回應;乃至于代碼的生成,可以理解代碼是計算機語言,也是仿照人類語言邏輯。
在實際應用方面,醫療領域是目前最熱門的方向之一。例如,百川智能正在開展針對兒童疾病的在線問診服務。這類應用專門針對特定領域進行了深入研究和發展,為用戶提供專業的診斷建議和健康咨詢等服務。總之,目前我們在辦公、教育、娛樂等多個領域都看到了AI技術的廣泛應用和發展。
Part 3
問:Deepseek為啥神奇,突然間全民接入Deepseek?
答:個人認為DeepSeek可以是國產之光,點贊創新精神,是一款更懂中國人和國情的大模型。它有以下三個顯著特點:
開源:DeepSeek選擇開源,這意味著它的代碼和技術細節對所有開發者開放。開源策略不僅促進了技術的共享和交流,也使得更多的開發者能夠參與到模型的優化和定制中,從而推動了整個行業的進步。
性能優異:DeepSeek在性能方面表現出色,無論是處理速度還是準確性都達到了較高水平。這使得它在各種應用場景中都能展現出強大的實力,滿足用戶的不同需求。
成本低廉:DeepSeek的訓練成本和使用成本都相對較低。這得益于其高效的算法和優化的技術實現,使得更多的企業和開發者能夠承擔得起并應用這款模型。同時,低成本也意味著更高的性價比,為用戶帶來了更大的價值。
![]()
如下有些討論,其實是對一些誤區的澄清,
1. 說DeepSeek比Chatgpt強,比哪個GPT強?比的是什么方面?強在何處?
Chatgpt是大模型,是OpenAI的大家族之一,所以就是看大家族中的誰和誰比,跟小說似的,大弟子對比大弟子,二弟子對比二弟子。
· 比的是推理模型,是DeepSeek-R1比OpenAI-o1,模型訓練成本只有OpenAI的1/10,使用成本只有1/30。
· 比推理模型的原因,其實是往AGI 上更前進了一步。
![]()
2. DeepSeek 國產之光,這個榮譽獎勵的或者說鼓勵的是什么?
首先回答一個問題,DeepSeek的創新是從0到1的顛覆式創新嗎?
這個不是的。是1-n上的創新,原有算法基礎上的部分算法創新,系統性的工程創新。這個可以有三點解釋
a.模型架構環節:大為優化的Transformer + MOE組合架構
降低成本:這兩個技術都是谷歌率先提出并采用的,但DeepSeek用它們設計自己的模型時做了巨大優化,并且首次在模型中引入多頭潛在注意力機制(Multi-head Latent Attention,MLA),從而大大降低了算力和存儲資源的消耗。
普通人能聽懂的:激活大腦中的一部分功能來解決問題,不需要牽一發而動全身,這樣減少了計算量,減少了消耗。
b.模型訓練環節:FP8混合精度訓練框架
提升速度:傳統上,大模型訓練使用32位浮點數(FP32)格式來做計算和存儲,這能保證精度,但計算速度慢、存儲空間占用大。如何在計算成本和計算精度之間求得平衡,一直是業界難題。2022年,英偉達、Arm和英特爾一起,最早提出8位浮點數格式(FP8),但因為美國公司不缺算力,該技術淺嘗輒止。DeepSeek則構建了FP8 混合精度訓練框架,根據不同的計算任務和數據特點,動態選擇FP8或 FP32 精度來進行計算,把訓練速度提高了50%,內存占用降低了40%。
普通人能聽懂的:舉個例子,算數學 11.11111111111×12.121212121212,算起來很復雜,而且結果也很長,簡化一下,算11×12,口算基本上就能得到131,但是這個是相似值,如何又能保留更精準的呢,算11.11 ×12.12 還是11.1111×12.1212,哪個能滿足最低精度要求即可。
c.算法環節:新的強化學習算法GRPO
進化速度更快,未來可期:強化學習的目的是讓計算機在沒有明確人類編程指令的情況下自主學習、自主完成任務,是通往通用人工智能的重要方法。強化學習起初由谷歌引領,訓練AlphaGo時就使用了強化學習算法,但是OpenAI后來居上,2015年和2017年接連推出兩種新算法TRPO(Trust Region Policy Optimization,信任區域策略優化)和PPO (Proximal Policy Optimization,近端策略優化),DeepSeek更上層樓,推出新的強化學習算法GRPO( Group Relative Policy Optimization 組相對策略優化),在顯著降低計算成本的同時,還提高了模型的訓練效率。 (GRPO算法公式。Source:DeepSeek-R1論文)
普通人能聽懂的:算法的優化,就是一個方法的優化,節省步驟。原來完成一個事情需要a-b-c-d-e 5個步驟,現在可能是a-c-e 或 a-f-e 或 a-b-f,也可以到達,甚至到達的更遠。
3.中美大模型差異有多大,一開始有多大,現在有多大,未來有多大?
還是很大,現在是中國取得階段性成果,美國暫時領先,還在激烈追趕中。
誰是玩家
DeepSeek+Kimi+阿里,百度,字節等 vs OpenAI,Anthropic、谷歌、Meta、xAI 等
4.未來決定性因素
現在來講,人和創新精神是很重要的,但是芯片也是很重要的,就看誰能夠在后續的推理模型中持續的去進行創新,繼續的去發布出來更好的模型,所以Deepseek問世之后,可以標志著大模型的角逐由上半場轉到下半場。
這里分享一句話共勉:
迫不得已是創新之母
The necessity is the mother of the invention
總體來說,DeepSeek的諸多創新在很大程度上來自于芯片受限所帶來的挑戰。由于只能使用性能相對較低的H800芯片進行訓練,DeepSeek被迫在算法層面進行深度優化,以彌補算力的不足。這些創新使得模型更加輕量化,不僅減少了代碼的冗余,還提高了能耗效率,使得在計算資源有限的情況下也能高效運行。
更重要的是,DeepSeek符合國內的法律法規要求,并在訓練過程中針對國內網絡和互聯網監管進行了適配。這使得其輸出內容完全符合國內的信息監管標準,為國內用戶提供了更加安全、合規的服務。相比之下,雖然Chatgpt等模型也表現出色,但在國內可能面臨合規性問題。而DeepSeek則通過其獨特的優勢,特別是針對中文場景的優化和合規性設計,使其更加貼近國內用戶的需求,從而在國內市場如驚雷般響徹東西南北。
Part 4
問:AI會給原有機器人領域帶來什么變化?
答:AI和機器人的結合正在逐漸加強。簡單來說,可以把AI看成是一種軟件,AI技術如計算機視覺和自然語言處理是核心,它們的發展推動了機器人技術的智能化,使機器人能夠自主決策。這就是未來五年內,甚至更長時間的發展趨勢。
如今,機器狗等機器人產品已經在市場上銷售,價格逐漸親民,使得更多行業能夠承擔得起并應用這些技術。在泰山等景區,機器狗已經被用于搬運行李等任務。這不僅展示了AI技術在推動機器人領域發展方面的巨大潛力,也預示著未來機器人將在更多領域得到廣泛應用。
隨著AI行業的不斷發展,對機器人等硬件行業也有積極的帶動。未來,機器人領域將迎來更多的創新和突破,不僅在無人機、軍事等行業發揮重要作用,還將在服務業等民用領域越來越普及。例如,現在許多酒店已經開始使用機器人進行送餐服務,這種趨勢未來將會更加明顯。
Part 5
問:AI行業發展到哪個階段
答:在AI行業中,分層相對清晰。頭部玩家,即大型科技公司,他們擁有雄厚的資金和資源,專注于開發自己的大模型,無論是大語言模型還是視頻模型。而中小科技公司則扮演著產品經理的角色,將這些大模型包裝成產品,通過APP、網站或插件等形式,幫助用戶解決實際問題。
在國內,像阿里這樣的頭部廠商已經推出了一系列的大模型,形成了一個相對完整的布局。他們不僅在大語言模型和視頻模型領域有所建樹,還擁有自己的品牌和產品體系。然而,這種趨勢也可能導致國內模型市場的壟斷。因此,中小科技公司通常會選擇開發垂直領域的應用,以差異化競爭。
例如,百川醫療專注于醫療領域的痛點和需求,提供專業的解決方案;而微度科技則在視頻領域進行深度開發。這樣的分層和差異化發展,使得AI行業能夠更加健康、多元地發展。
Part 6
問:AI對于經濟和社會的發展是積極的還是消極的?
答:AI時代的突然到來,無疑會對各行各業產生深遠影響。它不僅推動了經濟從要素驅動向創新驅動的轉變,這一轉變在經濟學術語中常被稱為“創新”,而且還提升了各行業的生產和運營效率,催生了新的產業形態和商業模式。
![]()
我經常與同學們討論,AI時代的到來意味著什么。 如上表格是我問AI(Chatgpt),回復說AI將在2025年為全球經濟GDP帶來約7%的增長,其中制造業受到的影響最為顯著,金融業、醫療、教育等領域也將經歷深刻變革。我認為,有時候向AI請教一些問題是很好的,它能幫助我們對某些行業有更深入的了解。因此,如果未來大家想進入AI領域,可以考慮這幾個方向。
AI時代也帶來了新興的就業機會,但面對AI,我們可能需要掌握新的技能。然而,AI對社會而言,就像每個新技術的出現一樣,發展迅速并帶來社會變化。這是一個轉型期,但同時也伴隨著倫理和法律問題。除了回答的幻覺問題外,隱私和數據安全是大家關心的焦點。人們擔心AI廠家是否會全面了解個人信息,以及為什么需要進行私有化部署,這些都與法律和倫理問題緊密相關。
Part 7
問:AI 能幫我做什么
答:這取決于個人所處的行業。例如,你是從事自然語言處理、計算機視覺,還是專注于圖片或視頻領域?Midjourney 主要致力于圖片創作;在語音方面,像科大訊飛這類公司則專注于語音對話技術,或者涉及智能制造等領域。因此,大家首先要明確自己的行業歸屬,然后深入到相應領域開展工作。
對于個人而言,需要關注所在行業領域中哪些技術能夠為自己提供幫助。比如商業分析,需要搜集大量信息、進行客戶服務,以及制作相關圖表等,這些方面目前都有垂直領域的應用在做,而且做得相當不錯。所以,互聯網公司在開發應用時,也是沿著這個思路,思考自身能夠做什么,以及哪些地方存在用戶需求,進而深入某個具體方向進行研發。
以百川為例,它現在專門從事醫療問診方面的業務;再如商湯推出的小浣熊,主要是解決出圖表等問題;還有一些專注于解決編程問題的應用。
Part 8
問:對于小公司或者說工作室來講能做什么?
答:接入大模型后,我會迅速將其開發成一個垂直領域的應用,或者思考如何將其融入到我的業務中。在產品設計時,避免堆砌過多功能,而是明確大模型在哪一方面的能力可以助我一臂之力,解決什么問題。我沿著這個思路前行,不會盲目追求多功能,而是以智能為導向,不斷提升產品的智能化水平。這樣,我才能精準地滿足用戶的需求,為用戶創造價值,進而實現產品的定制化。
在中國,由于企業眾多,大家的需求各不相同。因此,后續的定制化服務就顯得尤為重要。現在,有很多像我這樣的AI解決方案提供商,為不同的客戶提供多樣化的解決方案。
Part 9
從哪里可以獲得最新的AI應用
AI 應用,我們之前做調研是分了大概26個場景,有國外的,國內的產品。場景在逐漸做細分。整體來講,國外的產品起步早,辦公領域比國內產品做的完善一些,大多是需要魔法,像我用的那個Gamma,這就是一個專門的 PPT 生成的平臺。國內產品大多簡單好上手, APP 居多,以社交,視頻泛娛樂的為主。
推薦一個平臺ai-bot.cn AI 工具合集,這里就是把所有的市面上不止國內還有海外所有的AI產品列出來了,這個可以直接去訪問就可以了。對于個人來說,現在處于什么樣的行業,或者說你想關注什么樣的行業,你就去這里邊去找對應的AI產品,然后它能夠去幫助你,滿足你的需求。這里都有分類,分類下選擇一個你喜歡的產品使用就可以了。
提問和回答
問:
就能不能讓 AI 像個團隊似的,多個 agent搭配起來使用。問一下像實現的方式,有什么推薦嗎?
答:
有的,除了直接使用現成產品的進階版,就是剛才講就是有點像你剛才把各個 agent串聯起來,這就是工作流。可以重點關注一下字節的扣子平臺,支持把 agent就是像一個流程一樣,一二三四這樣的去串聯起來,可以自己定義。
總結與展望
今天的分享比較淺,希望大家可以知道AI行業發展的階段,然后怎么樣去找一些好的應用。
核心是我們在用大模型之前,我們先理解什么是大模型,然后也理解了AI可以哪些行業結合,知道要做哪些知識儲備,可以更好地迎接未來變化。
然后下一次分享,會更干一些,現在講的什么叫蒸餾,什么是量化,基于今天的基礎,講的更深度一些,就比如說怎么去理解大模型的幻覺,一些大模型私有化部署的產品方案。
下期劇透
從Ollama下載部署到本地電腦上的Deepseek大模型其實不是Deepseek-R1,其實部署的是一個蒸餾后的模型,全名是DeepSeek-R1-Distill-Qwen-7B。 Distill 是蒸餾的意思,就跟我們釀酒一樣,一大桶酒蒸餾出來小瓶酒,保留了它的原始風味,體積更小。Qwen是阿里的大模型,然后7b 是7billion 參數(billion 十億)的一個縮寫,就相當于Qwen-7B去學習Deepseek -R1 671b 的知識,然后用到的是徒弟Qwen-7B這個模型。模型更小,還有部分能力。
下期活動報名:
1. 活動行報名繳費,留下正確的郵箱和手機號
2. 發送在線會議號到報名手機號
報名鏈接:
https://hdxu.cn/B7zp
二維碼和小程序碼
社群二維碼
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.