李宏毅机器学习 2024

Hung-yi Lee Machine Learning 2024

YouTube / B站 · 李宏毅（台湾大学） · 约 30+ 小时

🎬 课程视频

台湾大学李宏毅教授的机器学习课程，中文讲解，深入浅出。每年更新，2024 版涵盖 LLM、扩散模型、强化学习等最新内容。B站有搬运版。

📑 目录

为什么选李宏毅的课？怎么学最高效
Transformer：理解 ChatGPT 的核心架构
大语言模型（LLM）原理：GPT 是怎么工作的
扩散模型：Stable Diffusion 的工作原理

📖 你将学到

机器学习基础理论
深度学习、CNN、Transformer
大语言模型原理
扩散模型（Stable Diffusion 原理）
强化学习基础

01 为什么选李宏毅的课？怎么学最高效

李宏毅的 ML 课是华语世界公认最好的机器学习课程，每年更新，紧跟最新研究。

这门课的特点
• 中文讲解，但不降低深度
• 用大量直觉性比喻解释复杂概念
• 每年更新，2024 版包含 LLM、扩散模型等最新内容
• 有作业（Kaggle 竞赛形式），做完能力提升很快

适合谁
• 有一点编程基础（Python 基础够了）
• 看完 Google ML 速成课或吴恩达 ML 课，想深入
• 想理解 ChatGPT、Stable Diffusion 背后的原理

学习路径建议
第 1-4 周：基础部分（回归、分类、深度学习基础）
第 5-8 周：CNN、RNN、Transformer
第 9-12 周：LLM、扩散模型、强化学习

配套资源
• B站搬运版：搜索「李宏毅机器学习 2024」
• 课程主页：speech.ee.ntu.edu.tw/~hylee/ml/2024-spring.php
• 作业：Kaggle 竞赛，做完能力提升很快

学习建议
不要追求看完所有视频，重点看你感兴趣的部分。遇到不懂的数学，先跳过，理解直觉，之后再补数学。

02 Transformer：理解 ChatGPT 的核心架构

Transformer 是现代 AI 的基础架构，ChatGPT、BERT、Stable Diffusion 都基于它。

Transformer 解决了什么问题
在 Transformer 之前，处理序列数据（文字、语音）主要用 RNN。
RNN 的问题：
• 无法并行计算（必须一个词一个词处理）
• 长序列时，早期信息容易被遗忘

Transformer 用「注意力机制」解决了这两个问题。

注意力机制（Attention）：核心思想
处理每个词时，不是平等对待所有其他词，而是「注意」最相关的词。

例子：「The animal didn't cross the street because it was too tired」
处理「it」时，模型需要知道「it」指的是「animal」还是「street」。
注意力机制让模型学会：处理「it」时，更多关注「animal」。

Self-Attention 的计算（简化版）
每个词生成三个向量：Query（我想找什么）、Key（我是什么）、Value（我的内容）
注意力分数 = Query × Key 的相似度
输出 = 用注意力分数加权的 Value 之和

为什么 Transformer 这么强
• 可以并行计算（训练快）
• 任意两个词之间都有直接连接（不会遗忘）
• 可以堆叠很多层（GPT-4 有 96 层）

03 大语言模型（LLM）原理：GPT 是怎么工作的

理解 LLM 的工作原理，能帮你更好地使用和评估 AI 工具。

预训练：在海量文本上学习
GPT 的训练任务非常简单：给定前面的词，预测下一个词。
「今天天气___」→ 预测「很好」

在 1 万亿个词的文本上做这个任务，模型就学会了语言的规律、世界的知识。

为什么这个简单任务能产生智能
要准确预测下一个词，模型必须：
• 理解语法和语义
• 记住上下文
• 掌握世界知识（「巴黎是___的首都」→「法国」）
• 理解逻辑推理

指令微调（Instruction Tuning）
预训练后的模型只会「续写」，不会「回答问题」。
指令微调：用「问题-答案」对继续训练，让模型学会按指令回答。

RLHF：让模型更符合人类偏好
Reinforcement Learning from Human Feedback（人类反馈强化学习）
1）让模型生成多个回答
2）人类标注哪个更好
3）训练一个「奖励模型」预测人类偏好
4）用强化学习让 LLM 生成更高分的回答

这就是为什么 ChatGPT 比原始 GPT 更「有用」、更「安全」。

LLM 的局限性
• 知识截止日期（训练数据有时间限制）
• 幻觉（会自信地说错误的事）
• 上下文窗口限制（一次能处理的文字有限）
• 不能真正「理解」，只是统计模式匹配

04 扩散模型：Stable Diffusion 的工作原理

扩散模型是 Stable Diffusion、DALL-E、Midjourney 背后的核心技术。

核心思想：学习去噪
训练过程：
1）取一张真实图片
2）逐步加入随机噪声，直到变成纯噪声
3）训练模型学会「去噪」：给定加了噪声的图片，预测噪声是什么

生成过程：
1）从纯随机噪声开始
2）模型逐步去噪（通常 20-50 步）
3）最终得到清晰图片

文字控制图片生成
Stable Diffusion 在去噪过程中，用文字描述（Prompt）引导去噪方向。
技术上：用 CLIP 模型把文字转成向量，通过 Cross-Attention 影响去噪过程。

为什么扩散模型比 GAN 更好
之前的图片生成主要用 GAN（生成对抗网络）：
• GAN 训练不稳定，容易崩溃
• GAN 生成的图片多样性有限

扩散模型：
• 训练稳定
• 生成多样性高
• 可以精确控制（通过 Prompt）

实际应用
理解了原理，你就能更好地写 Prompt：
• 加入风格词（「oil painting」「photorealistic」）影响去噪方向
• 负面 Prompt 告诉模型「不要生成什么」
• CFG Scale 控制 Prompt 的影响强度

去 YouTube / B站学习 →

💡 想要更系统的 AI 学习路线？

去 ganhuo.ai 看完整路线图 →

💬 信息有误？帮我们改进

📱 Telegram 反馈 ✉️ 邮件反馈