AI核心知识115—大语言模型之 自监督学习(简洁且通俗易懂版)

张开发
2026/5/2 11:12:27 15 分钟阅读
AI核心知识115—大语言模型之 自监督学习(简洁且通俗易懂版)
自监督学习(Self-Supervised Learning,SSL)是大语言模型LLM能够“野蛮生长”长成庞然大物并拥有惊人智慧的绝对核心秘诀。如果说大模型是一头吞噬数据的巨兽那么自监督学习就是它的“全自动进食机”。简单来说它的核心思想是不需要人类辛苦地打标签让机器自己把数据的一部分藏起来然后用另一部分去猜被藏起来的部分。1. 核心痛点为什么不用传统的“监督学习”在深度学习时代早期主流是监督学习(Supervised Learning)。做法人类给数据打标签标注师。比如准备 10 万张照片人类在一旁标注“这是猫”、“这是狗”。瓶颈人类太慢也太贵了。互联网上有几万亿字的维基百科、新闻、小说和代码。如果要雇人给这几万亿字标注语法、主谓宾、逻辑关系即使把全人类都雇来也标不完。这就是著名的**“数据标注瓶颈”**。2. 破局之道把数据本身变成标签自监督学习的天才之处在于既然数据本来就是完整的我为什么不自己出题、自己对答案呢对于自然语言处理NLP这就演变成了两种最经典的“自学”游戏A. 游戏一“完形填空” (Masked Language Modeling, MLM)代表模型BERT玩法模型拿到一句话“小明今天忘了带伞所以被雨淋湿了。”自动出题模型随机把几个字涂黑Mask。变成“小明今天忘了带[Mask]所以被[Mask]淋湿了。”自测与对答案模型去猜这两个词是什么。猜完之后跟原本完整的句子一对照就知道自己猜对没有。算错了就调整参数。B. 游戏二“成语接龙” / 猜下一个词 (Next Token Prediction, NTP)代表模型GPT系列, Claude, Llama我们在之前专门聊过这个机制玩法模型拿到一句话“法国的首都是巴黎”。自动出题遮住最后一个字。输入“法国的首都是”让模型猜下一个字。自测与对答案模型猜出“巴”把书往后翻一页发现确实是“巴”得分接着输入“法国的首都是巴”猜下一个字“黎”。2.⚖️ 三种学习方式的终极对比为了彻底理清概念我们把 AI 的三种学习方式放在一起看学习方式数据状态谁提供答案隐喻适用场景监督学习 (Supervised)数据 人工标签人类老师老师发带标准答案的考卷。图像分类、垃圾邮件识别无监督学习 (Unsupervised)纯数据没有答案丢给你一堆积木自己按颜色或形状分类聚类。用户画像分群、异常检测自监督学习 (Self-Supervised)纯数据数据本身给一本没有答案的教材自己把后半句捂住来背书。大模型预训练 (Pre-training)注自监督学习其实是“无监督”的一种高级形式但因为它巧妙地构造出了“伪标签”被遮住的词就是标签所以它的训练效果堪比监督学习。3. 为什么这种“猜词游戏”能产生智能你可能会觉得天天玩填空和接龙这不就是个复读机吗为什么它能学会写代码、做数学题因为语言是人类思想的压缩包。为了填对“他把水倒进了[杯子]里”模型必须学懂物理常识水能倒进容器。为了接对“for i in range(10): print(i)”模型必须学懂编程逻辑。当模型通过自监督学习阅读了人类历史上 10 万亿个词汇并强迫自己把每一个词都猜对时它就被迫在神经网络内部构建了一个理解世界运转规律的“世界模型”。总结自监督学习是一场解放 AI 生产力的革命。正是因为它AI 彻底摆脱了人类标注员的限制可以直接把整个互联网的生肉数据Raw Data吞下去从而实现了算力和数据规模的暴力美学Scaling Laws迎来了大模型时代的爆发。

更多文章