🧠
进阶 免费 中文

李宏毅机器学习 2024

Hung-yi Lee Machine Learning 2024

YouTube / B站 · 李宏毅(台湾大学) · 约 30+ 小时

🎬 课程视频

台湾大学李宏毅教授的机器学习课程,中文讲解,深入浅出。每年更新,2024 版涵盖 LLM、扩散模型、强化学习等最新内容。B站有搬运版。

📖 你将学到

  • 机器学习基础理论
  • 深度学习、CNN、Transformer
  • 大语言模型原理
  • 扩散模型(Stable Diffusion 原理)
  • 强化学习基础

01 为什么选李宏毅的课?怎么学最高效

李宏毅的 ML 课是华语世界公认最好的机器学习课程,每年更新,紧跟最新研究。

这门课的特点
• 中文讲解,但不降低深度
• 用大量直觉性比喻解释复杂概念
• 每年更新,2024 版包含 LLM、扩散模型等最新内容
• 有作业(Kaggle 竞赛形式),做完能力提升很快

适合谁
• 有一点编程基础(Python 基础够了)
• 看完 Google ML 速成课或吴恩达 ML 课,想深入
• 想理解 ChatGPT、Stable Diffusion 背后的原理

学习路径建议
第 1-4 周:基础部分(回归、分类、深度学习基础)
第 5-8 周:CNN、RNN、Transformer
第 9-12 周:LLM、扩散模型、强化学习

配套资源
• B站搬运版:搜索「李宏毅机器学习 2024」
• 课程主页:speech.ee.ntu.edu.tw/~hylee/ml/2024-spring.php
• 作业:Kaggle 竞赛,做完能力提升很快

学习建议
不要追求看完所有视频,重点看你感兴趣的部分。遇到不懂的数学,先跳过,理解直觉,之后再补数学。

02 Transformer:理解 ChatGPT 的核心架构

Transformer 是现代 AI 的基础架构,ChatGPT、BERT、Stable Diffusion 都基于它。

Transformer 解决了什么问题
在 Transformer 之前,处理序列数据(文字、语音)主要用 RNN。
RNN 的问题:
• 无法并行计算(必须一个词一个词处理)
• 长序列时,早期信息容易被遗忘

Transformer 用「注意力机制」解决了这两个问题。

注意力机制(Attention):核心思想
处理每个词时,不是平等对待所有其他词,而是「注意」最相关的词。

例子:「The animal didn't cross the street because it was too tired」
处理「it」时,模型需要知道「it」指的是「animal」还是「street」。
注意力机制让模型学会:处理「it」时,更多关注「animal」。

Self-Attention 的计算(简化版)
每个词生成三个向量:Query(我想找什么)、Key(我是什么)、Value(我的内容)
注意力分数 = Query × Key 的相似度
输出 = 用注意力分数加权的 Value 之和

为什么 Transformer 这么强
• 可以并行计算(训练快)
• 任意两个词之间都有直接连接(不会遗忘)
• 可以堆叠很多层(GPT-4 有 96 层)

03 大语言模型(LLM)原理:GPT 是怎么工作的

理解 LLM 的工作原理,能帮你更好地使用和评估 AI 工具。

预训练:在海量文本上学习
GPT 的训练任务非常简单:给定前面的词,预测下一个词。
「今天天气___」→ 预测「很好」

在 1 万亿个词的文本上做这个任务,模型就学会了语言的规律、世界的知识。

为什么这个简单任务能产生智能
要准确预测下一个词,模型必须:
• 理解语法和语义
• 记住上下文
• 掌握世界知识(「巴黎是___的首都」→「法国」)
• 理解逻辑推理

指令微调(Instruction Tuning)
预训练后的模型只会「续写」,不会「回答问题」。
指令微调:用「问题-答案」对继续训练,让模型学会按指令回答。

RLHF:让模型更符合人类偏好
Reinforcement Learning from Human Feedback(人类反馈强化学习)
1)让模型生成多个回答
2)人类标注哪个更好
3)训练一个「奖励模型」预测人类偏好
4)用强化学习让 LLM 生成更高分的回答

这就是为什么 ChatGPT 比原始 GPT 更「有用」、更「安全」。

LLM 的局限性
• 知识截止日期(训练数据有时间限制)
• 幻觉(会自信地说错误的事)
• 上下文窗口限制(一次能处理的文字有限)
• 不能真正「理解」,只是统计模式匹配

04 扩散模型:Stable Diffusion 的工作原理

扩散模型是 Stable Diffusion、DALL-E、Midjourney 背后的核心技术。

核心思想:学习去噪
训练过程:
1)取一张真实图片
2)逐步加入随机噪声,直到变成纯噪声
3)训练模型学会「去噪」:给定加了噪声的图片,预测噪声是什么

生成过程:
1)从纯随机噪声开始
2)模型逐步去噪(通常 20-50 步)
3)最终得到清晰图片

文字控制图片生成
Stable Diffusion 在去噪过程中,用文字描述(Prompt)引导去噪方向。
技术上:用 CLIP 模型把文字转成向量,通过 Cross-Attention 影响去噪过程。

为什么扩散模型比 GAN 更好
之前的图片生成主要用 GAN(生成对抗网络):
• GAN 训练不稳定,容易崩溃
• GAN 生成的图片多样性有限

扩散模型:
• 训练稳定
• 生成多样性高
• 可以精确控制(通过 Prompt)

实际应用
理解了原理,你就能更好地写 Prompt:
• 加入风格词(「oil painting」「photorealistic」)影响去噪方向
• 负面 Prompt 告诉模型「不要生成什么」
• CFG Scale 控制 Prompt 的影响强度

💡 想要更系统的 AI 学习路线?

去 ganhuo.ai 看完整路线图 →
🐑 小羊助手