在AI技術(shù)飛速發(fā)展的2026年,各類專業(yè)術(shù)語層出不窮。從ChatGPT到智能體,從RAG到MCP,這些縮寫和概念讓很多朋友都有了些許困惑,本文將通過通俗易懂的語言,為你系統(tǒng)梳理AI領(lǐng)域的核心術(shù)語,幫助你快速建立AI領(lǐng)域各類專業(yè)名詞的認(rèn)知。
![]()
第一章:基礎(chǔ)概念-AI的基本理解
1.1 人工智能(AI)
人工智能(Artificial Intelligence,簡稱AI)是讓計(jì)算機(jī)模擬、延伸和擴(kuò)展人類智能的技術(shù)。簡單來說,就是讓機(jī)器能夠像人一樣「思考」和「學(xué)習(xí)」。從早期的棋類對(duì)弈程序到如今的ChatGPT,都是人工智能的體現(xiàn)。
1.2 機(jī)器學(xué)習(xí)(ML)
機(jī)器學(xué)習(xí)(Machine Learning,簡稱ML)是AI的核心分支,指計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)中自動(dòng)學(xué)習(xí)和改進(jìn)的技術(shù)。就像孩子通過觀察學(xué)習(xí)認(rèn)識(shí)動(dòng)物一樣,機(jī)器學(xué)習(xí)讓計(jì)算機(jī)通過分析大量數(shù)據(jù)來發(fā)現(xiàn)規(guī)律、做出預(yù)測(cè),而無需人類逐一編寫規(guī)則。
1.3 深度學(xué)習(xí)(DL)
深度學(xué)習(xí)(Deep Learning,簡稱DL)是機(jī)器學(xué)習(xí)的一個(gè)進(jìn)階領(lǐng)域,使用多層神經(jīng)網(wǎng)絡(luò)來模擬人腦處理信息的方式。深度學(xué)習(xí)在圖像識(shí)別、語音識(shí)別等領(lǐng)域取得了突破性進(jìn)展,是現(xiàn)代AI技術(shù)的重要支柱。
1.4 神經(jīng)網(wǎng)絡(luò)(NN)
神經(jīng)網(wǎng)絡(luò)(Neural Network,簡稱NN)是受人腦啟發(fā)的數(shù)學(xué)模型,由大量「神經(jīng)元」節(jié)點(diǎn)通過權(quán)重連接組成。想象一個(gè)由成千上萬個(gè)小燈泡組成的網(wǎng)絡(luò),每個(gè)燈泡的亮暗程度代表某種特征,綜合起來就能識(shí)別圖像或理解語言。
1.5 大語言模型(LLM)
大語言模型(Large Language Model,簡稱LLM)是具有龐大參數(shù)量的深度學(xué)習(xí)模型,能夠理解和生成人類語言。GPT、Claude、Llama等都是典型的大語言模型。參數(shù)越多,模型通常越「聰明」,但也需要更多的計(jì)算資源。
1.6 通用人工智能(AGI)
通用人工智能(Artificial General Intelligence,簡稱AGI)是具有人類同等智能的AI系統(tǒng),能夠像人類一樣在各種領(lǐng)域靈活思考和學(xué)習(xí)。目前的AI大多是「窄人工智能」,只在特定任務(wù)上表現(xiàn)出色,AGI仍是AI研究的終極目標(biāo)。
第二章:模型架構(gòu)-AI的大腦
2.1 Transformer架構(gòu)
Transformer是當(dāng)前AI領(lǐng)域最重要的架構(gòu)之一,2017年由Google提出。它通過「注意力機(jī)制」讓模型能夠同時(shí)關(guān)注輸入的所有部分,大幅提升了處理長文本的能力。GPT、BERT等著名模型都是基于Transformer構(gòu)建的。
2.2 注意力機(jī)制(Attention)
注意力機(jī)制讓AI學(xué)會(huì)「重點(diǎn)關(guān)注」。就像人類閱讀時(shí)會(huì)重點(diǎn)關(guān)注關(guān)鍵詞一樣,這個(gè)機(jī)制讓模型能夠識(shí)別輸入中最相關(guān)的信息,大幅提升翻譯、對(duì)話等任務(wù)的效果。
2.3 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
CNN是處理圖像的核心架構(gòu),能夠自動(dòng)識(shí)別圖像中的邊緣、紋理、形狀等特征。從人臉識(shí)別到醫(yī)學(xué)影像分析,CNN是計(jì)算機(jī)視覺的基礎(chǔ)技術(shù)。
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
RNN專為處理序列數(shù)據(jù)設(shè)計(jì),能夠記憶之前的信息來理解上下文。RNN是自然語言處理和語音識(shí)別的重要基礎(chǔ)。
2.5 長短期記憶網(wǎng)絡(luò)(LSTM)
LSTM是RNN的升級(jí)版,解決了RNN難以記住長期信息的缺陷。它像人腦一樣,有「長期記憶」和「短期記憶」區(qū)域,能更好地處理長文本和長時(shí)間序列。
2.6 生成對(duì)抗網(wǎng)絡(luò)(GAN)
GAN通過兩個(gè)神經(jīng)網(wǎng)絡(luò)相互「對(duì)抗」來學(xué)習(xí):一個(gè)負(fù)責(zé)生成內(nèi)容,一個(gè)負(fù)責(zé)判斷真假。這種技術(shù)被廣泛用于AI繪畫、人臉合成等生成式任務(wù)。
2.7 擴(kuò)散模型(Diffusion Model)
擴(kuò)散模型是當(dāng)前AI繪畫的主流技術(shù),通過逐步「去噪」的方式從隨機(jī)噪聲中生成清晰圖像。Stable Diffusion、DALL-E等都是基于擴(kuò)散模型。
第三章:訓(xùn)練技術(shù)-讓AI學(xué)會(huì)技能
3.1 預(yù)訓(xùn)練(Pre-training)
預(yù)訓(xùn)練是在大規(guī)模通用數(shù)據(jù)上訓(xùn)練模型的過程,讓模型學(xué)習(xí)語言的基本規(guī)律和世界知識(shí)。這就像學(xué)生的基礎(chǔ)教育階段,學(xué)的是通用知識(shí)和能力。
3.2 微調(diào)(Fine-tuning)
微調(diào)是在預(yù)訓(xùn)練基礎(chǔ)上,用特定領(lǐng)域數(shù)據(jù)進(jìn)一步訓(xùn)練模型。就像醫(yī)學(xué)生完成基礎(chǔ)教育后,還需要專科培訓(xùn)才能成為專業(yè)醫(yī)生。
3.3 遷移學(xué)習(xí)(Transfer Learning)
遷移學(xué)習(xí)是把在一個(gè)領(lǐng)域?qū)W到的知識(shí)應(yīng)用到另一個(gè)領(lǐng)域的技術(shù)。比如,會(huì)下棋的AI可以借鑒其中的策略思維來學(xué)習(xí)其他游戲。
3.4 人類反饋強(qiáng)化學(xué)習(xí)(RLHF)
RLHF是通過人類反饋來調(diào)整AI行為的技術(shù)。AI生成回答后,人類評(píng)估其好壞,AI據(jù)此學(xué)習(xí)如何產(chǎn)生更符合人類期望的輸出。ChatGPT之所以「會(huì)聊天」,RLHF功不可沒。
3.5 低秩適配(LoRA)
LoRA是一種高效的模型微調(diào)技術(shù),通過只更新少量參數(shù)來實(shí)現(xiàn)定制化,大大降低了微調(diào)的計(jì)算成本。就像給一臺(tái)大機(jī)器更換關(guān)鍵零件,而不是整臺(tái)機(jī)器重建。
第四章:應(yīng)用領(lǐng)域-AI的使用場(chǎng)景
4.1 自然語言處理(NLP)
NLP是讓計(jì)算機(jī)理解、生成和處理人類語言的技術(shù)。機(jī)器翻譯、智能客服、情感分析等都是NLP的應(yīng)用。
4.2 計(jì)算機(jī)視覺(CV)
計(jì)算機(jī)視覺是讓計(jì)算機(jī)「看懂」圖像和視頻的技術(shù)。人臉識(shí)別、自動(dòng)駕駛、醫(yī)學(xué)影像診斷等都依賴于CV技術(shù)。
4.3 光學(xué)字符識(shí)別(OCR)
OCR能夠?qū)D片中的文字轉(zhuǎn)換為可編輯的文本。文檔掃描、車牌識(shí)別、名片整理等都靠OCR技術(shù)實(shí)現(xiàn)。
4.4 自動(dòng)語音識(shí)別(ASR)
ASR將語音轉(zhuǎn)換為文字,是智能音箱、語音助手、會(huì)議記錄等應(yīng)用的基礎(chǔ)技術(shù)。
4.5 語音合成(TTS)
TTS將文本轉(zhuǎn)換為自然語音,讓機(jī)器能夠「說話」。導(dǎo)航播報(bào)、有聲書、虛擬主播等都依賴TTS技術(shù)。
第五章:智能體配置-Skills與工作流
5.1 什么是AI智能體(Agent)?
AI智能體是能夠自主感知環(huán)境、做出決策并執(zhí)行動(dòng)作的智能系統(tǒng)。與簡單的問答機(jī)器人不同,智能體具備規(guī)劃、記憶、工具使用等能力,可以完成復(fù)雜的多步驟任務(wù)。
5.2 Skills(技能)詳解
Skills是AI智能體平臺(tái)(如Coze扣子)中的核心概念,指智能體具備的各種功能配置。良好的Skills配置就像給智能體裝備各種工具,讓它能夠完成特定任務(wù)。Skills通常包括:
插件(Plugin):智能體的「工具箱」,提供天氣查詢、網(wǎng)頁搜索、文檔處理等擴(kuò)展功能
工作流(Workflow):將多個(gè)步驟組合成自動(dòng)化流程,實(shí)現(xiàn)復(fù)雜任務(wù)的編排
知識(shí)庫(Knowledge Base):存儲(chǔ)專業(yè)知識(shí),讓AI能夠回答專業(yè)領(lǐng)域的問題
記憶(Memory):讓智能體記住用戶偏好和對(duì)話歷史
變量(Variables):存儲(chǔ)和傳遞信息的數(shù)據(jù)容器
觸發(fā)器(Trigger):設(shè)置定時(shí)任務(wù)或條件觸發(fā)的自動(dòng)化規(guī)則
5.3 插件(Plugin)是什么?
插件是智能體的能力擴(kuò)展模塊。一個(gè)插件可以包含一個(gè)或多個(gè)API功能。比如添加天氣插件后,智能體就能查詢各地天氣;添加地圖插件后,就能提供導(dǎo)航服務(wù)。Coze平臺(tái)提供了700+官方插件,用戶也可以自定義插件。
5.4 工作流(Workflow)是什么?
工作流是將復(fù)雜的業(yè)務(wù)流程可視化編排的功能。就像流水線上的各個(gè)環(huán)節(jié)有序配合,工作流讓AI能夠按步驟執(zhí)行復(fù)雜任務(wù)。比如一個(gè)「小紅書文案助手」的工作流可能是:獲取熱點(diǎn)鏈接→提取內(nèi)容→分析結(jié)構(gòu)→生成文案→優(yōu)化潤色。
5.5 知識(shí)庫(Knowledge Base)是什么?
知識(shí)庫是智能體的「私人圖書館」,存儲(chǔ)企業(yè)或個(gè)人的專業(yè)文檔。智能體回答問題時(shí),會(huì)先從知識(shí)庫中檢索相關(guān)內(nèi)容,確保回答的專業(yè)性和準(zhǔn)確性。知識(shí)庫+AI生成=RAG(檢索增強(qiáng)生成),這是解決AI「一本正經(jīng)胡說八道」問題的關(guān)鍵技術(shù)。
5.6 提示詞工程(Prompt Engineering)
提示詞是給AI的指令,好的提示詞能讓AI更準(zhǔn)確地理解任務(wù)。設(shè)計(jì)提示詞就像寫崗位說明書,需要明確:角色定位(你是誰)、核心任務(wù)(做什么)、行為規(guī)范(怎么做)、輸出格式(做成什么樣)。
第六章:AI領(lǐng)域熱門技術(shù)概念
6.1 RAG(檢索增強(qiáng)生成)
RAG將信息檢索與AI生成相結(jié)合。當(dāng)用戶提問時(shí),AI先從知識(shí)庫檢索相關(guān)信息,再結(jié)合檢索結(jié)果生成回答。這就像一個(gè)既有豐富知識(shí)儲(chǔ)備,又善于查閱資料的助手。
6.2 檢索增強(qiáng)生成核心技術(shù):Embedding與向量數(shù)據(jù)庫
Embedding將文字、圖像等轉(zhuǎn)換為「向量」——一種數(shù)學(xué)表示,讓語義相似的內(nèi)容在向量空間中距離相近。向量數(shù)據(jù)庫則專門存儲(chǔ)和檢索這些向量,實(shí)現(xiàn)快速的相似性搜索。
6.3 模型上下文協(xié)議(MCP)
MCP是Anthropic于2024年推出的開放協(xié)議,被稱為AI的「USB-C接口」。它標(biāo)準(zhǔn)化了AI與外部工具、數(shù)據(jù)的連接方式,讓開發(fā)者只需開發(fā)一次,就能對(duì)接多種AI系統(tǒng)。
6.4 函數(shù)調(diào)用(Function Calling)
函數(shù)調(diào)用讓AI能夠執(zhí)行實(shí)際操作,而不只是生成文字。AI可以調(diào)用預(yù)設(shè)的函數(shù)來完成查天氣、發(fā)郵件、查數(shù)據(jù)庫等任務(wù),實(shí)現(xiàn)從「會(huì)說話」到「會(huì)辦事」的跨越。
6.5 智能體協(xié)作協(xié)議(A2A)
A2A是讓不同AI智能體之間能夠相互協(xié)作通信的協(xié)議。就像不同公司的員工需要統(tǒng)一的工作語言一樣,A2A讓各種AI智能體能夠協(xié)同工作。
6.6 智能體增強(qiáng)RAG(Agentic RAG)
Agentic RAG將智能體能力融入RAG系統(tǒng),讓檢索過程更加智能。AI能夠自主規(guī)劃檢索策略、判斷是否需要補(bǔ)充信息、對(duì)結(jié)果進(jìn)行反思驗(yàn)證。
第七章:大模型的核心參數(shù)
7.1 Token(詞元)
Token是AI處理文本的基本單位。英文中約4個(gè)字符=1個(gè)Token,中文約1-2個(gè)漢字=1個(gè)Token。模型的輸入輸出都按Token計(jì)費(fèi)。理解Token有助于估算使用成本。
7.2 上下文窗口(Context Window)
上下文窗口是模型一次能處理的最大Token數(shù)量,決定了AI能理解的「記憶范圍」。GPT-4 Turbo支持128K tokens,可以一次讀完一整本書。
7.3 溫度(Temperature)
溫度參數(shù)控制AI輸出的隨機(jī)性。低溫度(0.2左右)輸出更穩(wěn)定一致,適合需要準(zhǔn)確性的任務(wù);高溫度(0.8左右)輸出更有創(chuàng)意,適合需要想象力的任務(wù)。
7.4 幻覺(Hallucination)
幻覺是指AI生成看似合理但實(shí)際錯(cuò)誤的內(nèi)容。這是大模型的主要缺陷,可能誤導(dǎo)用戶。解決幻覺的方法包括RAG檢索、微調(diào)、降低溫度、使用思維鏈提示等。
7.5 思維鏈(Chain of Thought,CoT)
CoT是一種提示技術(shù),讓AI在回答前先展示推理步驟。這不僅有助于復(fù)雜問題的解答,也讓用戶能夠理解AI的思考過程。
第八章:AI的評(píng)估與基準(zhǔn)
8.1 MMLU-綜合知識(shí)測(cè)試
MMLU涵蓋57個(gè)學(xué)科領(lǐng)域的綜合性測(cè)試,是評(píng)估大模型知識(shí)水平的重要基準(zhǔn)。分?jǐn)?shù)越高,說明模型的知識(shí)儲(chǔ)備越豐富。
8.2 HellaSwag-常識(shí)推理
HellaSwag測(cè)試AI的常識(shí)推理能力,要求模型選擇最合理的句子結(jié)尾。這類測(cè)試能反映模型的日常思維能力。
8.3 HumanEval-代碼能力
HumanEval包含164道編程題,是評(píng)估AI代碼生成能力的權(quán)威基準(zhǔn)。
8.4 GSM8K-數(shù)學(xué)推理
GSM8K收錄小學(xué)數(shù)學(xué)題,測(cè)試AI的多步驟數(shù)學(xué)推理能力。
8.5 基準(zhǔn)測(cè)試(Benchmark)
基準(zhǔn)測(cè)試是用標(biāo)準(zhǔn)化數(shù)據(jù)集評(píng)估AI性能的方法。就像考試有標(biāo)準(zhǔn)試卷一樣,AI的「期末考試」就是各種基準(zhǔn)測(cè)試。
第九章:開發(fā)工具與平臺(tái)
9.1 TensorFlow與PyTorch
TensorFlow(Google開發(fā))和PyTorch(Meta開發(fā))是兩個(gè)最流行的深度學(xué)習(xí)框架,提供構(gòu)建和訓(xùn)練AI模型的工具。PyTorch因靈活易用在學(xué)術(shù)界更受歡迎,TensorFlow在工業(yè)部署中應(yīng)用廣泛。
9.2 Hugging Face
Hugging Face是全球最大的AI開源社區(qū),提供數(shù)千個(gè)預(yù)訓(xùn)練模型和豐富的工具庫。其Transformers庫是NLP領(lǐng)域最流行的工具。
9.3 LangChain
LangChain是構(gòu)建LLM應(yīng)用的開發(fā)框架,提供模塊化組件來連接大模型與外部工具、數(shù)據(jù)。相當(dāng)于AI應(yīng)用的「樂高積木」。
9.4 vLLM/Ollama/LM Studio
這些是大模型推理部署工具。vLLM專注于高吞吐量服務(wù),Ollama支持本地簡易部署,LM Studio提供桌面端LLM運(yùn)行工具。
9.5 Coze扣子
Coze是字節(jié)跳動(dòng)推出的智能體開發(fā)平臺(tái),支持零代碼構(gòu)建AI智能體。提供插件、工作流、知識(shí)庫等豐富功能,讓非技術(shù)人員也能快速搭建AI應(yīng)用。
第十章:主流AI產(chǎn)品一覽
10.1 GPT系列(OpenAI)
GPT是OpenAI開發(fā)的生成式預(yù)訓(xùn)練模型,GPT-4是其最新版本。ChatGPT就是基于GPT的對(duì)話產(chǎn)品。
10.2 Claude(Anthropic)
Claude由AI安全公司Anthropic開發(fā),以安全和道德著稱,采用「憲法式AI」訓(xùn)練方法。
10.3 Gemini(Google)
Gemini是Google的多模態(tài)大模型,能夠處理文本、圖像、音頻、視頻等多種類型數(shù)據(jù)。
10.4 Llama(Meta)
Llama是Meta開發(fā)的開源大模型,推動(dòng)了開源AI生態(tài)的發(fā)展,其最新版本Llama 3已開源可商用。
10.5 Stable Diffusion
Stable Diffusion是開源的AI圖像生成模型,可以在消費(fèi)級(jí)GPU上運(yùn)行,降低了AI繪畫的門檻。
10.6 Midjourney/DALL-E/Imagen
這些是各公司推出的AI圖像生成產(chǎn)品,各具特色:Midjourney以藝術(shù)風(fēng)格見長,DALL-E由OpenAI推出,Imagen來自Google。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.