找回密码
 注册

微信登录

微信扫一扫,快速登录

查看: 346|回复: 0

【AI入门学习】之基础概念

[复制链接]
发表于 2025-8-18 04:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
AI初学者入门第一天,第一天理解基础概念。今天deepseek的关键几篇论文,配合B站+GPT使用,一边看一边做名词解释,做概念上的输入。
w1.jpg

对我这种技术小白来说,信息量真的很大,但收获特别多。我和GPT一起整理了这份学习笔记,做一个记录。

01



模型结构与基本概念




    RNN / LSTM:早期的“记忆型”神经网络,用来处理文本,但容易遗忘长距离信息。

    备注:想象你在听故事,RNN 就像一个健忘的人,每句话都记不全;LSTM 比较聪明,有一个“记事本”能保存重点,但还是有限。

    Transformer:现在大模型的主流架构,用“注意力机制(Attention)”让模型理解上下文,彻底替代了 RNN / LSTM。

    备注:它就像一个超级“高效读者”,能同时关注全文的不同部分(Attention),不再只记“前一句”,而是能理解全局。

    Feed Forward Network (FFN):在 Transformer 中负责对每个词单独“加工处理”的部分。

    备注:好比每个词经过一个小“加工厂”,让它的表达更清晰。

    RMSNorm:一种归一化方式,比传统 LayerNorm 更高效。

    备注:就像“标准化考试”,把大家分数拉到同一个标准,便于比较。



02



训练相关


    目标:让模型通过大量数据训练,把预测结果逐步逼近正确答案。

    收敛 / 收敛性:训练过程中损失(loss)逐渐下降并趋于稳定,说明模型学会了规律。

    备注:学习到一定程度后,错误率不再剧烈波动,而是逐渐稳定下来,这就说明“学会了”。

    学习率调度(schedule):训练时学习率不是固定的,常见的有 Step Decay、Cosine、Linear 等,其中 Cosine常常收敛更平稳。

    备注:Step Decay:走一段路突然放慢。Cosine:像荡秋千一样,学习速度慢慢减弱。Linear:一步步均匀变慢。

    超参数(hyperparameter):学习率、batch size、网络层数等,都是人为设定的“训练设置”。

    FLOPs:计算量的衡量单位,浮点运算次数,用来估算训练和推理的成本。

    03



    模型优化与推理

    KV Cache:在长文本推理时存储中间结果,避免重复计算,大幅加速。


    备注:就像写作文时做“提纲”,避免每次都从头读一遍。

    多头注意力 (MHA):让模型从多个角度理解信息。

    GQA / MQA:多头注意力的改进版本,减少计算量。

    备注:MHA:一群专家同时看问题,很贵。MQA / GQA:减少专家人数,让效率更高还省钱。

    Multi-token prediction:一次预测多个词,提高生成速度。

    FP8 Training:用 8 位浮点数代替 16/32 位,大幅节省显存和算力。

    备注:平时我们算账用小数点后 4 位(精细但慢),FP8 就是只记小数点后 1 位(粗糙但快),省力气。但是对控制有要求。




    04



    模型类型

    Dense Model(稠密模型):所有参数都参与计算。

    备注:你有一个 100 人的团队(100B 参数),dense model = 每次都要让所有人一起干活。

    MoE(Mixture of Experts,稀疏模型):只激活部分“专家”参数,降低计算成本但保持高性能

    备注:有很多专家,但每次只请其中几个出场,效率高还省钱。AI届的降本增效!缺点是训练复杂,需要好的路由机制(否则有些专家闲置,有些过载)。


05



Scaling Laws(规模定律)

Scaling Law:模型规模(参数量)、数据量和计算量之间有规律关系。

Chinchilla Scaling Law:关键结论——不是一味堆参数,而是 参数和数据要匹配,否则训练效率会浪费。

06



后训练与对齐


    SFT(监督微调):用人工标注数据让模型学会“正确说话”。

    备注:相当于老师单独辅导,告诉模型“正确答案”。

    RLHF / PPO / GRPO:通过强化学习让模型更符合人类偏好。


    备注:GRPO在一组候选答案中相对比较。强调“相对排名”而不是“绝对概率”

    DPO / RFT(Rejection Fine-tuning):用好答案 vs 坏答案对比训练模型。

    备注:不需要奖励模型,给模型展示“好作文 vs 坏作文”,让它模仿好的。

    Reward Model(奖励模型):给模型输出打分,指导优化。



07



推理与安全





    Reasoning(推理):让模型逐步思考(Chain-of-thought)。

    MSTS:多模态安全测试,确保模型在文字 + 图片场景下安全。

    备注:考察模型在多模态下是否安全,比如:文字说“这是饮料”,图片却显示是“漂白剂”,模型必须识别出危险。

    Cold Start:系统或模型在没有数据/用户时的“开局难题”。






输入与输出,日拱一卒


Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-9-9 08:19 , Processed in 0.110482 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表