🧠
进阶 免费 中文
李宏毅机器学习 2024
Hung-yi Lee Machine Learning 2024
🎬 课程视频
台湾大学李宏毅教授的机器学习课程,中文讲解,深入浅出。每年更新,2024 版涵盖 LLM、扩散模型、强化学习等最新内容。B站有搬运版。
📖 你将学到
- 机器学习基础理论
- 深度学习、CNN、Transformer
- 大语言模型原理
- 扩散模型(Stable Diffusion 原理)
- 强化学习基础
01 为什么选李宏毅的课?怎么学最高效
李宏毅的 ML 课是华语世界公认最好的机器学习课程,每年更新,紧跟最新研究。
这门课的特点
• 中文讲解,但不降低深度
• 用大量直觉性比喻解释复杂概念
• 每年更新,2024 版包含 LLM、扩散模型等最新内容
• 有作业(Kaggle 竞赛形式),做完能力提升很快
适合谁
• 有一点编程基础(Python 基础够了)
• 看完 Google ML 速成课或吴恩达 ML 课,想深入
• 想理解 ChatGPT、Stable Diffusion 背后的原理
学习路径建议
第 1-4 周:基础部分(回归、分类、深度学习基础)
第 5-8 周:CNN、RNN、Transformer
第 9-12 周:LLM、扩散模型、强化学习
配套资源
• B站搬运版:搜索「李宏毅机器学习 2024」
• 课程主页:speech.ee.ntu.edu.tw/~hylee/ml/2024-spring.php
• 作业:Kaggle 竞赛,做完能力提升很快
学习建议
不要追求看完所有视频,重点看你感兴趣的部分。遇到不懂的数学,先跳过,理解直觉,之后再补数学。
这门课的特点
• 中文讲解,但不降低深度
• 用大量直觉性比喻解释复杂概念
• 每年更新,2024 版包含 LLM、扩散模型等最新内容
• 有作业(Kaggle 竞赛形式),做完能力提升很快
适合谁
• 有一点编程基础(Python 基础够了)
• 看完 Google ML 速成课或吴恩达 ML 课,想深入
• 想理解 ChatGPT、Stable Diffusion 背后的原理
学习路径建议
第 1-4 周:基础部分(回归、分类、深度学习基础)
第 5-8 周:CNN、RNN、Transformer
第 9-12 周:LLM、扩散模型、强化学习
配套资源
• B站搬运版:搜索「李宏毅机器学习 2024」
• 课程主页:speech.ee.ntu.edu.tw/~hylee/ml/2024-spring.php
• 作业:Kaggle 竞赛,做完能力提升很快
学习建议
不要追求看完所有视频,重点看你感兴趣的部分。遇到不懂的数学,先跳过,理解直觉,之后再补数学。
02 Transformer:理解 ChatGPT 的核心架构
Transformer 是现代 AI 的基础架构,ChatGPT、BERT、Stable Diffusion 都基于它。
Transformer 解决了什么问题
在 Transformer 之前,处理序列数据(文字、语音)主要用 RNN。
RNN 的问题:
• 无法并行计算(必须一个词一个词处理)
• 长序列时,早期信息容易被遗忘
Transformer 用「注意力机制」解决了这两个问题。
注意力机制(Attention):核心思想
处理每个词时,不是平等对待所有其他词,而是「注意」最相关的词。
例子:「The animal didn't cross the street because it was too tired」
处理「it」时,模型需要知道「it」指的是「animal」还是「street」。
注意力机制让模型学会:处理「it」时,更多关注「animal」。
Self-Attention 的计算(简化版)
每个词生成三个向量:Query(我想找什么)、Key(我是什么)、Value(我的内容)
注意力分数 = Query × Key 的相似度
输出 = 用注意力分数加权的 Value 之和
为什么 Transformer 这么强
• 可以并行计算(训练快)
• 任意两个词之间都有直接连接(不会遗忘)
• 可以堆叠很多层(GPT-4 有 96 层)
Transformer 解决了什么问题
在 Transformer 之前,处理序列数据(文字、语音)主要用 RNN。
RNN 的问题:
• 无法并行计算(必须一个词一个词处理)
• 长序列时,早期信息容易被遗忘
Transformer 用「注意力机制」解决了这两个问题。
注意力机制(Attention):核心思想
处理每个词时,不是平等对待所有其他词,而是「注意」最相关的词。
例子:「The animal didn't cross the street because it was too tired」
处理「it」时,模型需要知道「it」指的是「animal」还是「street」。
注意力机制让模型学会:处理「it」时,更多关注「animal」。
Self-Attention 的计算(简化版)
每个词生成三个向量:Query(我想找什么)、Key(我是什么)、Value(我的内容)
注意力分数 = Query × Key 的相似度
输出 = 用注意力分数加权的 Value 之和
为什么 Transformer 这么强
• 可以并行计算(训练快)
• 任意两个词之间都有直接连接(不会遗忘)
• 可以堆叠很多层(GPT-4 有 96 层)
03 大语言模型(LLM)原理:GPT 是怎么工作的
理解 LLM 的工作原理,能帮你更好地使用和评估 AI 工具。
预训练:在海量文本上学习
GPT 的训练任务非常简单:给定前面的词,预测下一个词。
「今天天气___」→ 预测「很好」
在 1 万亿个词的文本上做这个任务,模型就学会了语言的规律、世界的知识。
为什么这个简单任务能产生智能
要准确预测下一个词,模型必须:
• 理解语法和语义
• 记住上下文
• 掌握世界知识(「巴黎是___的首都」→「法国」)
• 理解逻辑推理
指令微调(Instruction Tuning)
预训练后的模型只会「续写」,不会「回答问题」。
指令微调:用「问题-答案」对继续训练,让模型学会按指令回答。
RLHF:让模型更符合人类偏好
Reinforcement Learning from Human Feedback(人类反馈强化学习)
1)让模型生成多个回答
2)人类标注哪个更好
3)训练一个「奖励模型」预测人类偏好
4)用强化学习让 LLM 生成更高分的回答
这就是为什么 ChatGPT 比原始 GPT 更「有用」、更「安全」。
LLM 的局限性
• 知识截止日期(训练数据有时间限制)
• 幻觉(会自信地说错误的事)
• 上下文窗口限制(一次能处理的文字有限)
• 不能真正「理解」,只是统计模式匹配
预训练:在海量文本上学习
GPT 的训练任务非常简单:给定前面的词,预测下一个词。
「今天天气___」→ 预测「很好」
在 1 万亿个词的文本上做这个任务,模型就学会了语言的规律、世界的知识。
为什么这个简单任务能产生智能
要准确预测下一个词,模型必须:
• 理解语法和语义
• 记住上下文
• 掌握世界知识(「巴黎是___的首都」→「法国」)
• 理解逻辑推理
指令微调(Instruction Tuning)
预训练后的模型只会「续写」,不会「回答问题」。
指令微调:用「问题-答案」对继续训练,让模型学会按指令回答。
RLHF:让模型更符合人类偏好
Reinforcement Learning from Human Feedback(人类反馈强化学习)
1)让模型生成多个回答
2)人类标注哪个更好
3)训练一个「奖励模型」预测人类偏好
4)用强化学习让 LLM 生成更高分的回答
这就是为什么 ChatGPT 比原始 GPT 更「有用」、更「安全」。
LLM 的局限性
• 知识截止日期(训练数据有时间限制)
• 幻觉(会自信地说错误的事)
• 上下文窗口限制(一次能处理的文字有限)
• 不能真正「理解」,只是统计模式匹配
04 扩散模型:Stable Diffusion 的工作原理
扩散模型是 Stable Diffusion、DALL-E、Midjourney 背后的核心技术。
核心思想:学习去噪
训练过程:
1)取一张真实图片
2)逐步加入随机噪声,直到变成纯噪声
3)训练模型学会「去噪」:给定加了噪声的图片,预测噪声是什么
生成过程:
1)从纯随机噪声开始
2)模型逐步去噪(通常 20-50 步)
3)最终得到清晰图片
文字控制图片生成
Stable Diffusion 在去噪过程中,用文字描述(Prompt)引导去噪方向。
技术上:用 CLIP 模型把文字转成向量,通过 Cross-Attention 影响去噪过程。
为什么扩散模型比 GAN 更好
之前的图片生成主要用 GAN(生成对抗网络):
• GAN 训练不稳定,容易崩溃
• GAN 生成的图片多样性有限
扩散模型:
• 训练稳定
• 生成多样性高
• 可以精确控制(通过 Prompt)
实际应用
理解了原理,你就能更好地写 Prompt:
• 加入风格词(「oil painting」「photorealistic」)影响去噪方向
• 负面 Prompt 告诉模型「不要生成什么」
• CFG Scale 控制 Prompt 的影响强度
核心思想:学习去噪
训练过程:
1)取一张真实图片
2)逐步加入随机噪声,直到变成纯噪声
3)训练模型学会「去噪」:给定加了噪声的图片,预测噪声是什么
生成过程:
1)从纯随机噪声开始
2)模型逐步去噪(通常 20-50 步)
3)最终得到清晰图片
文字控制图片生成
Stable Diffusion 在去噪过程中,用文字描述(Prompt)引导去噪方向。
技术上:用 CLIP 模型把文字转成向量,通过 Cross-Attention 影响去噪过程。
为什么扩散模型比 GAN 更好
之前的图片生成主要用 GAN(生成对抗网络):
• GAN 训练不稳定,容易崩溃
• GAN 生成的图片多样性有限
扩散模型:
• 训练稳定
• 生成多样性高
• 可以精确控制(通过 Prompt)
实际应用
理解了原理,你就能更好地写 Prompt:
• 加入风格词(「oil painting」「photorealistic」)影响去噪方向
• 负面 Prompt 告诉模型「不要生成什么」
• CFG Scale 控制 Prompt 的影响强度
💡 想要更系统的 AI 学习路线?
去 ganhuo.ai 看完整路线图 →