在AI技術(shù)飛速發(fā)展的2026年,各類專業(yè)術(shù)語層出不窮。從ChatGPT到智能體,從RAG到MCP,這些縮寫和概念讓很多朋友都有了些許困惑,本文將通過通俗易懂的語言,為你系統(tǒng)梳理AI領(lǐng)域的核心術(shù)語,幫助你快速建立AI領(lǐng)域各類專業(yè)名詞的認知。
![]()
第一章:基礎(chǔ)概念-AI的基本理解
1.1 人工智能(AI)
人工智能(Artificial Intelligence,簡稱AI)是讓計算機模擬、延伸和擴展人類智能的技術(shù)。簡單來說,就是讓機器能夠像人一樣「思考」和「學習」。從早期的棋類對弈程序到如今的ChatGPT,都是人工智能的體現(xiàn)。
1.2 機器學習(ML)
機器學習(Machine Learning,簡稱ML)是AI的核心分支,指計算機系統(tǒng)從數(shù)據(jù)中自動學習和改進的技術(shù)。就像孩子通過觀察學習認識動物一樣,機器學習讓計算機通過分析大量數(shù)據(jù)來發(fā)現(xiàn)規(guī)律、做出預測,而無需人類逐一編寫規(guī)則。
1.3 深度學習(DL)
深度學習(Deep Learning,簡稱DL)是機器學習的一個進階領(lǐng)域,使用多層神經(jīng)網(wǎng)絡來模擬人腦處理信息的方式。深度學習在圖像識別、語音識別等領(lǐng)域取得了突破性進展,是現(xiàn)代AI技術(shù)的重要支柱。
1.4 神經(jīng)網(wǎng)絡(NN)
神經(jīng)網(wǎng)絡(Neural Network,簡稱NN)是受人腦啟發(fā)的數(shù)學模型,由大量「神經(jīng)元」節(jié)點通過權(quán)重連接組成。想象一個由成千上萬個小燈泡組成的網(wǎng)絡,每個燈泡的亮暗程度代表某種特征,綜合起來就能識別圖像或理解語言。
1.5 大語言模型(LLM)
大語言模型(Large Language Model,簡稱LLM)是具有龐大參數(shù)量的深度學習模型,能夠理解和生成人類語言。GPT、Claude、Llama等都是典型的大語言模型。參數(shù)越多,模型通常越「聰明」,但也需要更多的計算資源。
1.6 通用人工智能(AGI)
通用人工智能(Artificial General Intelligence,簡稱AGI)是具有人類同等智能的AI系統(tǒng),能夠像人類一樣在各種領(lǐng)域靈活思考和學習。目前的AI大多是「窄人工智能」,只在特定任務上表現(xiàn)出色,AGI仍是AI研究的終極目標。
第二章:模型架構(gòu)-AI的大腦
2.1 Transformer架構(gòu)
Transformer是當前AI領(lǐng)域最重要的架構(gòu)之一,2017年由Google提出。它通過「注意力機制」讓模型能夠同時關(guān)注輸入的所有部分,大幅提升了處理長文本的能力。GPT、BERT等著名模型都是基于Transformer構(gòu)建的。
2.2 注意力機制(Attention)
注意力機制讓AI學會「重點關(guān)注」。就像人類閱讀時會重點關(guān)注關(guān)鍵詞一樣,這個機制讓模型能夠識別輸入中最相關(guān)的信息,大幅提升翻譯、對話等任務的效果。
2.3 卷積神經(jīng)網(wǎng)絡(CNN)
CNN是處理圖像的核心架構(gòu),能夠自動識別圖像中的邊緣、紋理、形狀等特征。從人臉識別到醫(yī)學影像分析,CNN是計算機視覺的基礎(chǔ)技術(shù)。
2.4 循環(huán)神經(jīng)網(wǎng)絡(RNN)
RNN專為處理序列數(shù)據(jù)設計,能夠記憶之前的信息來理解上下文。RNN是自然語言處理和語音識別的重要基礎(chǔ)。
2.5 長短期記憶網(wǎng)絡(LSTM)
LSTM是RNN的升級版,解決了RNN難以記住長期信息的缺陷。它像人腦一樣,有「長期記憶」和「短期記憶」區(qū)域,能更好地處理長文本和長時間序列。
2.6 生成對抗網(wǎng)絡(GAN)
GAN通過兩個神經(jīng)網(wǎng)絡相互「對抗」來學習:一個負責生成內(nèi)容,一個負責判斷真假。這種技術(shù)被廣泛用于AI繪畫、人臉合成等生成式任務。
2.7 擴散模型(Diffusion Model)
擴散模型是當前AI繪畫的主流技術(shù),通過逐步「去噪」的方式從隨機噪聲中生成清晰圖像。Stable Diffusion、DALL-E等都是基于擴散模型。
第三章:訓練技術(shù)-讓AI學會技能
3.1 預訓練(Pre-training)
預訓練是在大規(guī)模通用數(shù)據(jù)上訓練模型的過程,讓模型學習語言的基本規(guī)律和世界知識。這就像學生的基礎(chǔ)教育階段,學的是通用知識和能力。
3.2 微調(diào)(Fine-tuning)
微調(diào)是在預訓練基礎(chǔ)上,用特定領(lǐng)域數(shù)據(jù)進一步訓練模型。就像醫(yī)學生完成基礎(chǔ)教育后,還需要專科培訓才能成為專業(yè)醫(yī)生。
3.3 遷移學習(Transfer Learning)
遷移學習是把在一個領(lǐng)域?qū)W到的知識應用到另一個領(lǐng)域的技術(shù)。比如,會下棋的AI可以借鑒其中的策略思維來學習其他游戲。
3.4 人類反饋強化學習(RLHF)
RLHF是通過人類反饋來調(diào)整AI行為的技術(shù)。AI生成回答后,人類評估其好壞,AI據(jù)此學習如何產(chǎn)生更符合人類期望的輸出。ChatGPT之所以「會聊天」,RLHF功不可沒。
3.5 低秩適配(LoRA)
LoRA是一種高效的模型微調(diào)技術(shù),通過只更新少量參數(shù)來實現(xiàn)定制化,大大降低了微調(diào)的計算成本。就像給一臺大機器更換關(guān)鍵零件,而不是整臺機器重建。
第四章:應用領(lǐng)域-AI的使用場景
4.1 自然語言處理(NLP)
NLP是讓計算機理解、生成和處理人類語言的技術(shù)。機器翻譯、智能客服、情感分析等都是NLP的應用。
4.2 計算機視覺(CV)
計算機視覺是讓計算機「看懂」圖像和視頻的技術(shù)。人臉識別、自動駕駛、醫(yī)學影像診斷等都依賴于CV技術(shù)。
4.3 光學字符識別(OCR)
OCR能夠?qū)D片中的文字轉(zhuǎn)換為可編輯的文本。文檔掃描、車牌識別、名片整理等都靠OCR技術(shù)實現(xiàn)。
4.4 自動語音識別(ASR)
ASR將語音轉(zhuǎn)換為文字,是智能音箱、語音助手、會議記錄等應用的基礎(chǔ)技術(shù)。
4.5 語音合成(TTS)
TTS將文本轉(zhuǎn)換為自然語音,讓機器能夠「說話」。導航播報、有聲書、虛擬主播等都依賴TTS技術(shù)。
第五章:智能體配置-Skills與工作流
5.1 什么是AI智能體(Agent)?
AI智能體是能夠自主感知環(huán)境、做出決策并執(zhí)行動作的智能系統(tǒng)。與簡單的問答機器人不同,智能體具備規(guī)劃、記憶、工具使用等能力,可以完成復雜的多步驟任務。
5.2 Skills(技能)詳解
Skills是AI智能體平臺(如Coze扣子)中的核心概念,指智能體具備的各種功能配置。良好的Skills配置就像給智能體裝備各種工具,讓它能夠完成特定任務。Skills通常包括:
插件(Plugin):智能體的「工具箱」,提供天氣查詢、網(wǎng)頁搜索、文檔處理等擴展功能
工作流(Workflow):將多個步驟組合成自動化流程,實現(xiàn)復雜任務的編排
知識庫(Knowledge Base):存儲專業(yè)知識,讓AI能夠回答專業(yè)領(lǐng)域的問題
記憶(Memory):讓智能體記住用戶偏好和對話歷史
變量(Variables):存儲和傳遞信息的數(shù)據(jù)容器
觸發(fā)器(Trigger):設置定時任務或條件觸發(fā)的自動化規(guī)則
5.3 插件(Plugin)是什么?
插件是智能體的能力擴展模塊。一個插件可以包含一個或多個API功能。比如添加天氣插件后,智能體就能查詢各地天氣;添加地圖插件后,就能提供導航服務。Coze平臺提供了700+官方插件,用戶也可以自定義插件。
5.4 工作流(Workflow)是什么?
工作流是將復雜的業(yè)務流程可視化編排的功能。就像流水線上的各個環(huán)節(jié)有序配合,工作流讓AI能夠按步驟執(zhí)行復雜任務。比如一個「小紅書文案助手」的工作流可能是:獲取熱點鏈接→提取內(nèi)容→分析結(jié)構(gòu)→生成文案→優(yōu)化潤色。
5.5 知識庫(Knowledge Base)是什么?
知識庫是智能體的「私人圖書館」,存儲企業(yè)或個人的專業(yè)文檔。智能體回答問題時,會先從知識庫中檢索相關(guān)內(nèi)容,確保回答的專業(yè)性和準確性。知識庫+AI生成=RAG(檢索增強生成),這是解決AI「一本正經(jīng)胡說八道」問題的關(guān)鍵技術(shù)。
5.6 提示詞工程(Prompt Engineering)
提示詞是給AI的指令,好的提示詞能讓AI更準確地理解任務。設計提示詞就像寫崗位說明書,需要明確:角色定位(你是誰)、核心任務(做什么)、行為規(guī)范(怎么做)、輸出格式(做成什么樣)。
第六章:AI領(lǐng)域熱門技術(shù)概念
6.1 RAG(檢索增強生成)
RAG將信息檢索與AI生成相結(jié)合。當用戶提問時,AI先從知識庫檢索相關(guān)信息,再結(jié)合檢索結(jié)果生成回答。這就像一個既有豐富知識儲備,又善于查閱資料的助手。
6.2 檢索增強生成核心技術(shù):Embedding與向量數(shù)據(jù)庫
Embedding將文字、圖像等轉(zhuǎn)換為「向量」——一種數(shù)學表示,讓語義相似的內(nèi)容在向量空間中距離相近。向量數(shù)據(jù)庫則專門存儲和檢索這些向量,實現(xiàn)快速的相似性搜索。
6.3 模型上下文協(xié)議(MCP)
MCP是Anthropic于2024年推出的開放協(xié)議,被稱為AI的「USB-C接口」。它標準化了AI與外部工具、數(shù)據(jù)的連接方式,讓開發(fā)者只需開發(fā)一次,就能對接多種AI系統(tǒng)。
6.4 函數(shù)調(diào)用(Function Calling)
函數(shù)調(diào)用讓AI能夠執(zhí)行實際操作,而不只是生成文字。AI可以調(diào)用預設的函數(shù)來完成查天氣、發(fā)郵件、查數(shù)據(jù)庫等任務,實現(xiàn)從「會說話」到「會辦事」的跨越。
6.5 智能體協(xié)作協(xié)議(A2A)
A2A是讓不同AI智能體之間能夠相互協(xié)作通信的協(xié)議。就像不同公司的員工需要統(tǒng)一的工作語言一樣,A2A讓各種AI智能體能夠協(xié)同工作。
6.6 智能體增強RAG(Agentic RAG)
Agentic RAG將智能體能力融入RAG系統(tǒng),讓檢索過程更加智能。AI能夠自主規(guī)劃檢索策略、判斷是否需要補充信息、對結(jié)果進行反思驗證。
第七章:大模型的核心參數(shù)
7.1 Token(詞元)
Token是AI處理文本的基本單位。英文中約4個字符=1個Token,中文約1-2個漢字=1個Token。模型的輸入輸出都按Token計費。理解Token有助于估算使用成本。
7.2 上下文窗口(Context Window)
上下文窗口是模型一次能處理的最大Token數(shù)量,決定了AI能理解的「記憶范圍」。GPT-4 Turbo支持128K tokens,可以一次讀完一整本書。
7.3 溫度(Temperature)
溫度參數(shù)控制AI輸出的隨機性。低溫度(0.2左右)輸出更穩(wěn)定一致,適合需要準確性的任務;高溫度(0.8左右)輸出更有創(chuàng)意,適合需要想象力的任務。
7.4 幻覺(Hallucination)
幻覺是指AI生成看似合理但實際錯誤的內(nèi)容。這是大模型的主要缺陷,可能誤導用戶。解決幻覺的方法包括RAG檢索、微調(diào)、降低溫度、使用思維鏈提示等。
7.5 思維鏈(Chain of Thought,CoT)
CoT是一種提示技術(shù),讓AI在回答前先展示推理步驟。這不僅有助于復雜問題的解答,也讓用戶能夠理解AI的思考過程。
第八章:AI的評估與基準
8.1 MMLU-綜合知識測試
MMLU涵蓋57個學科領(lǐng)域的綜合性測試,是評估大模型知識水平的重要基準。分數(shù)越高,說明模型的知識儲備越豐富。
8.2 HellaSwag-常識推理
HellaSwag測試AI的常識推理能力,要求模型選擇最合理的句子結(jié)尾。這類測試能反映模型的日常思維能力。
8.3 HumanEval-代碼能力
HumanEval包含164道編程題,是評估AI代碼生成能力的權(quán)威基準。
8.4 GSM8K-數(shù)學推理
GSM8K收錄小學數(shù)學題,測試AI的多步驟數(shù)學推理能力。
8.5 基準測試(Benchmark)
基準測試是用標準化數(shù)據(jù)集評估AI性能的方法。就像考試有標準試卷一樣,AI的「期末考試」就是各種基準測試。
第九章:開發(fā)工具與平臺
9.1 TensorFlow與PyTorch
TensorFlow(Google開發(fā))和PyTorch(Meta開發(fā))是兩個最流行的深度學習框架,提供構(gòu)建和訓練AI模型的工具。PyTorch因靈活易用在學術(shù)界更受歡迎,TensorFlow在工業(yè)部署中應用廣泛。
9.2 Hugging Face
Hugging Face是全球最大的AI開源社區(qū),提供數(shù)千個預訓練模型和豐富的工具庫。其Transformers庫是NLP領(lǐng)域最流行的工具。
9.3 LangChain
LangChain是構(gòu)建LLM應用的開發(fā)框架,提供模塊化組件來連接大模型與外部工具、數(shù)據(jù)。相當于AI應用的「樂高積木」。
9.4 vLLM/Ollama/LM Studio
這些是大模型推理部署工具。vLLM專注于高吞吐量服務,Ollama支持本地簡易部署,LM Studio提供桌面端LLM運行工具。
9.5 Coze扣子
Coze是字節(jié)跳動推出的智能體開發(fā)平臺,支持零代碼構(gòu)建AI智能體。提供插件、工作流、知識庫等豐富功能,讓非技術(shù)人員也能快速搭建AI應用。
第十章:主流AI產(chǎn)品一覽
10.1 GPT系列(OpenAI)
GPT是OpenAI開發(fā)的生成式預訓練模型,GPT-4是其最新版本。ChatGPT就是基于GPT的對話產(chǎn)品。
10.2 Claude(Anthropic)
Claude由AI安全公司Anthropic開發(fā),以安全和道德著稱,采用「憲法式AI」訓練方法。
10.3 Gemini(Google)
Gemini是Google的多模態(tài)大模型,能夠處理文本、圖像、音頻、視頻等多種類型數(shù)據(jù)。
10.4 Llama(Meta)
Llama是Meta開發(fā)的開源大模型,推動了開源AI生態(tài)的發(fā)展,其最新版本Llama 3已開源可商用。
10.5 Stable Diffusion
Stable Diffusion是開源的AI圖像生成模型,可以在消費級GPU上運行,降低了AI繪畫的門檻。
10.6 Midjourney/DALL-E/Imagen
這些是各公司推出的AI圖像生成產(chǎn)品,各具特色:Midjourney以藝術(shù)風格見長,DALL-E由OpenAI推出,Imagen來自Google。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.