【AI入门学习】之基础概念
作者:微信文章AI初学者入门第一天,第一天理解基础概念。今天deepseek的关键几篇论文,配合B站+GPT使用,一边看一边做名词解释,做概念上的输入。
对我这种技术小白来说,信息量真的很大,但收获特别多。我和GPT一起整理了这份学习笔记,做一个记录。
01
—
模型结构与基本概念
RNN / LSTM:早期的“记忆型”神经网络,用来处理文本,但容易遗忘长距离信息。
备注:想象你在听故事,RNN 就像一个健忘的人,每句话都记不全;LSTM 比较聪明,有一个“记事本”能保存重点,但还是有限。
Transformer:现在大模型的主流架构,用“注意力机制(Attention)”让模型理解上下文,彻底替代了 RNN / LSTM。
备注:它就像一个超级“高效读者”,能同时关注全文的不同部分(Attention),不再只记“前一句”,而是能理解全局。
Feed Forward Network (FFN):在 Transformer 中负责对每个词单独“加工处理”的部分。
备注:好比每个词经过一个小“加工厂”,让它的表达更清晰。
RMSNorm:一种归一化方式,比传统 LayerNorm 更高效。
备注:就像“标准化考试”,把大家分数拉到同一个标准,便于比较。
02
—
训练相关
目标:让模型通过大量数据训练,把预测结果逐步逼近正确答案。
收敛 / 收敛性:训练过程中损失(loss)逐渐下降并趋于稳定,说明模型学会了规律。
备注:学习到一定程度后,错误率不再剧烈波动,而是逐渐稳定下来,这就说明“学会了”。
学习率调度(schedule):训练时学习率不是固定的,常见的有 Step Decay、Cosine、Linear 等,其中 Cosine常常收敛更平稳。
备注:Step Decay:走一段路突然放慢。Cosine:像荡秋千一样,学习速度慢慢减弱。Linear:一步步均匀变慢。
超参数(hyperparameter):学习率、batch size、网络层数等,都是人为设定的“训练设置”。
FLOPs:计算量的衡量单位,浮点运算次数,用来估算训练和推理的成本。
03
—
模型优化与推理
KV Cache:在长文本推理时存储中间结果,避免重复计算,大幅加速。
备注:就像写作文时做“提纲”,避免每次都从头读一遍。
多头注意力 (MHA):让模型从多个角度理解信息。
GQA / MQA:多头注意力的改进版本,减少计算量。
备注:MHA:一群专家同时看问题,很贵。MQA / GQA:减少专家人数,让效率更高还省钱。
Multi-token prediction:一次预测多个词,提高生成速度。
FP8 Training:用 8 位浮点数代替 16/32 位,大幅节省显存和算力。
备注:平时我们算账用小数点后 4 位(精细但慢),FP8 就是只记小数点后 1 位(粗糙但快),省力气。但是对控制有要求。
04
—
模型类型
Dense Model(稠密模型):所有参数都参与计算。
备注:你有一个 100 人的团队(100B 参数),dense model = 每次都要让所有人一起干活。
MoE(Mixture of Experts,稀疏模型):只激活部分“专家”参数,降低计算成本但保持高性能
备注:有很多专家,但每次只请其中几个出场,效率高还省钱。AI届的降本增效!缺点是训练复杂,需要好的路由机制(否则有些专家闲置,有些过载)。
05
—
Scaling Laws(规模定律)
Scaling Law:模型规模(参数量)、数据量和计算量之间有规律关系。
Chinchilla Scaling Law:关键结论——不是一味堆参数,而是 参数和数据要匹配,否则训练效率会浪费。
06
—
后训练与对齐
SFT(监督微调):用人工标注数据让模型学会“正确说话”。
备注:相当于老师单独辅导,告诉模型“正确答案”。
RLHF / PPO / GRPO:通过强化学习让模型更符合人类偏好。
备注:GRPO在一组候选答案中相对比较。强调“相对排名”而不是“绝对概率”
DPO / RFT(Rejection Fine-tuning):用好答案 vs 坏答案对比训练模型。
备注:不需要奖励模型,给模型展示“好作文 vs 坏作文”,让它模仿好的。
Reward Model(奖励模型):给模型输出打分,指导优化。
07
—
推理与安全
Reasoning(推理):让模型逐步思考(Chain-of-thought)。
MSTS:多模态安全测试,确保模型在文字 + 图片场景下安全。
备注:考察模型在多模态下是否安全,比如:文字说“这是饮料”,图片却显示是“漂白剂”,模型必须识别出危险。
Cold Start:系统或模型在没有数据/用户时的“开局难题”。
输入与输出,日拱一卒
页:
[1]