大模型从零到一:小白也能看懂的预训练全过程(收藏版)

张开发
2026/4/14 13:56:19 15 分钟阅读

分享文章

大模型从零到一:小白也能看懂的预训练全过程(收藏版)
本文以通俗易懂的方式解析了大模型预训练的五个关键步骤网址过滤、文本提取、语言过滤、数据去重和个人信息去除。通过类比生活场景深入浅出地讲解了AI如何将文本转换为Token以及神经网络如何通过不断学习和调整参数来理解语言规律。文章还介绍了推理过程即AI如何运用所学知识生成文本并探讨了基础模型的“心理学”揭示其在海量数据训练后展现出的内在行为模式和认知特点。对于想要入门大模型的小白或程序员本文提供了宝贵的知识框架和实用工具推荐是学习大模型不可多得的入门资料。写在开头写这篇文章的原因是大概在两周前我看完了卡帕西三个半小时在油管上课程。他用简单的语言讲明白了大模型从无到有的建立。其中他还罗列了非常多好用的网站工具例如可视化的动画工具理解Transformer架构。如果从英语为母语的人的角度去看这个课程肯定是非常非常简单但是作为一个非母语而且英语又没有那么好的人看看这个视频还是有点费劲的。我看完这个视频后又花了几天时间点开了他课程里所有的链接、看了链接里面的论文才弄明白他说的所有东西。所以我决定一共写三篇文章把卡帕西德课程转换成我们国人也能听懂的语言和大家分享。我是一个非技术背景出身的人我都能懂我相信很多也和我一样的非计算机专业的人一样也能看懂。补充一下卡帕西的背景斯坦福大学博士师从李飞飞OpenAI 的创始成员2015 年后任特斯拉人工智能高级总监2017-2022 年现为尤里卡实验室Eureka Labs创始人该实验室正在建设一所人工智能原生学校。首先我们先梳理一下整个框架卡帕西把大模型的训练分为了预训练、后训练-监督微调、后训练-强化学习三个环节并分别得到基础模型、监督微调模型和强化学习模型第一篇文章来聊聊预训练Pre-training是怎么回事儿第一步下载和预处理互联网download and reprocess internet这里卡帕西推荐了一个由HuggingFace公司收集、创建和管理的数据集FineWeb。FineWeb这篇文章详细的讲述了数据抓取和清洗过程。1、URL网址过滤URL Filtering用Blocklist名单过滤不健康的网站如成人网站2、文本提取Text ExtractionWARC和WET两种格式。3、语言过滤Language Filtering利用FastText Language Classifier过滤英文文本中得分大于0.65的文本4、质量和重复过滤Gopher Filtering利用Massivetext这种质量和重复过滤器5、消除重复Minhash Dedup消除重复 dedupilication6、数据清洗和筛选C4 Filters数据清洗和筛选7、自定义过滤Custom Filters8、去除个人身份信息PII personally identifiable informationremoval这些词儿看着挺专业其实可以用简单的话把上面这8个环节归纳成5个步骤。第一步网址“黑名单” (URL网址过滤)好比我们买菜前会有一份“问题店铺名单”告诉我们哪些地方的菜可能不干净或者不正规比如卖假货的、卖过期食品的等等。Fineweb 也有类似的“黑名单”里面记录了一些不希望抓取数据的网站比如那些传播恶意软件、发送垃圾邮件、充斥广告、宣扬种族歧视、包含成人内容等等的网站。在抓取网页之前Fineweb 会先检查一下这个网站是否在“黑名单”上如果在就直接跳过不去下载它的内容避免把“坏东西”带回来。第二步只留“菜肉”去掉“包装” (文本提取)我们从网上下载的网页就像一份份包装精美的商品里面不仅有我们想要的“菜肉”——文字内容还有各种各样的“包装”——比如网页的HTML代码、导航栏、广告、各种格式信息等等。Fineweb 的这一步就是要把这些“包装”去掉只留下网页里真正有用的文字内容2 。这就像我们买回蔬菜水果要把塑料袋、泡沫盒这些包装扔掉只留下可以吃的本体。第三步“语言警察” (语言过滤)互联网上的语言是五花八门的Fineweb 在这一步就像一个“语言警察”判断每个网页主要使用的是哪种语言。比如Fineweb 可能会设置一个标准只保留那些主要使用英语的网页例如英语内容超过 65%。这样做的好处是可以让训练出来的模型在特定语言上表现更好。当然不同的机构可以根据自己的需求决定保留哪些语言以及保留多少比例。如果把所有西班牙语的网页都过滤掉了那模型肯定就学不好西班牙语了。第四步去除“双胞胎”和“复制品” (数据去重)互联网上经常有很多内容是重复的就像菜市场里可能有很多摊位卖的是一模一样的土豆。Fineweb 会进行去重操作把那些内容非常相似甚至完全一样的网页找出来只保留一份。这样可以避免模型学习到太多重复的信息提高学习效率。在这一步中包括了 质量和重复过滤Gopher Filtering、消除重复Minhash Dedup、数据清洗和筛选C4 Filters、自定义过滤Custom Filters这四个环节。目的是去重以保证数据的质量。第五步保护“个人隐私” (个人信息去除)有些网页上可能会包含用户的个人身份信息 (Personally Identifiable Information, PII)比如地址、社会保障号码等等。第二步AI的语言-tokentokenization为什么AI不像我们人一样一个字一个字的理解需要把字转换成Token呢咱们平时说话写字用的是一个字一个词。但是AI就像 ChatGPT 跟我们理解的方式不太一样。它们不直接看我们写的那些字母而是先把这些字母变成一种叫做“token”的小单位。这么做有很多好处1、更快更省事如果 AI 一个字母一个字母地看那得多慢一句话就变成了一长串的字母。但是如果把常用的字或者词变成一个“token”比如说“你好”变成一个 token4356“世界”变成一个 token58679那一句话就短了很多。这样一来AI 处理起来就快得多也省下了很多力气。就好比你要搬一堆砖头直接抱起几块一起搬肯定比一块一块搬快多了。2、更能理解意思一个 token 有时候代表一个完整的意思。比如“苹果”这个词可以是一个 tokenAI 直接就知道 “苹果” 是什么东西可以吃。但如果一个字母一个字母地看它还得先拼出来 “苹果” 这两个字再慢慢理解是什么意思就慢了。而且AI 还能通过 token 学习到词语之间的关系比如“吃”和“苹果”经常一起出现AI 就知道它们之间有联系。3、生僻字也能懂有些词比较少见如果每个词都变成一个 token那 AI 要记住的 token 就太多了。所以有时候会把一个词切成更小的部分比如“苹”和“果”可能各自是一个 token。这样即使遇到没见过的词AI 也能通过认识它的组成部分来猜测它的意思。这就像我们看到一个不认识的人但如果认识他的家人朋友也能猜到他的一些特点。4、更容易学规律AI 的工作就是学习文字出现的规律比如什么词后面经常跟着什么词。如果用 tokenAI 就能更容易地发现这些规律因为它看到的是一个个有意义的单位。如果用字母那规律就藏在长长的字母序列里很难找。5、处理长短句子都一样不管你写一句话还是写一段话变成 token 之后都是一串 token。AI 可以用统一的方法来处理这些 token 序列。而且 AI 的“脑子”我们叫它“上下文窗口”是有限的它一次能记住的 token 数量是有限的比如 Gopher 模型训练时能记住 2048 个 token。用 token 而不是字母就能在有限的“脑子”里装下更多的信息。6、各种语言都能处理Token 的方法可以设计得很灵活能处理不同的语言和各种符号。这样一个 AI 模型就能理解不同国家的人说的话。总而言之把人类的语言变成 token就像给 AI 穿上了一层更有效率、更容易理解的“外衣”。这样它才能更快、更好地学习和处理我们的语言变得更聪明。就像视频里说的把文本变成 token 的过程叫做 tokenization。实际用的时候一个模型大概会用到几万到十几万个不同的 token 。比如厉害的 GPT-4 就用了 100,277 个 token 。这里词汇量的意思是指有多少种排列组合。这里卡帕西举了个例子。把人类世界的5000个文本换算成bits、bytes、tokens计数看看分别为多少。当使用bit作为单位的时候表达5000个文本需要40000个bits当使用bytes作为单位的时候表达5000个文本需要5000个bytes当使用GPT-4 tokens做单位时仅需要1300个tokens就可以表达意思了。所以当AI只需要处理1300个tokens就可以等同于处理了5000个文本这样计算起来就快多了也节省了算力。因为我是非计算机背景我还特地查了一下bit是什么bit就是二进制里的0/10属于1个bit1属于1个bit在bit的世界里词汇只有2个。1个文本需要用一串8个bits表示。所以5000个文本需要用40000个bits来表示。如果是byte的话1个文本1个byte1个byte是8位数的bit来表示而8个0/1的组合有2⁸256种表达方式也就是词汇量是256个。卡帕西给了一个网址https://tiktokenizer.vercel.app/你可以通过这个网址感受文本是如何转换成token的第三步神经网络训练neutral network training你还记得咱们前面说了第一步是收集一大堆文本数据就像给AI准备了一大桌子的“饭”。第二步是把这些文本变成AI能看懂的“token”就像把饭菜切成一小块一小块方便AI吃。第三步的神经网络训练就好比AI开始真正地“吃饭”和“消化”这些“token”。简单来说AI 有一个“大脑”这个“大脑”其实就是一个巨大的神经网络。里面有很多很多的“旋钮”我们叫它们“参数”或者“权重”。一开始这些“旋钮”的数值都是随机设置的所以AI还什么都不懂你给它一个 token它也不知道下一个 token 应该是什么预测完全是乱来的。神经网络训练这个过程就是不断地调整这些“旋钮”的数值。我们把变成 token 的文本一点点地“喂”给AI让它预测下一个 token 应该是什么。比如我们给AI看“今天天气”AI可能会随机猜一个字比如“热”或者“冷”。然后我们会告诉AI正确的答案比如下一个字是“真”。AI 发现自己猜错了就会根据错误的大小稍微调整一下自己“大脑”里的那些“旋钮”的数值。如果它下次再看到“今天天气”猜对“真”的可能性就稍微大了一点。这个过程会重复无数次AI会一遍又一遍地看大量的文本不断地预测不断地被告知正确答案然后不断地调整自己“大脑”里的“小开关”。每“吃”进去一小部分文本AI 就会努力地让自己的预测越来越接近正确的答案。我们会用一个叫做 “损失 (loss)” 的数字来衡量AI猜得准不准。损失越小说明AI猜得越准“学习”得越好。训练的目标就是不断地降低这个损失。你可以把这个想象成你学习一门新的语言。一开始你说得很烂经常说错。但是你不断地听别人说不断地自己练习说别人不断地纠正你慢慢地你就说得越来越流利了越来越正确了。AI 的神经网络训练也是类似的它通过不断地犯错和被纠正逐渐地学会了文本中的各种规律比如哪些词经常一起出现一句话的语法结构是什么样的等等。这个训练的过程非常消耗计算资源和时间需要用到大量的电力和算力。就像你要学好一门外语也需要花费大量的时间和精力一样。等到AI看了足够多的文本并且“大脑”里的“旋钮”的数值调整得差不多了它的预测能力就会变得很强。这时候预训练就完成了我们得到了一个“预训练好的模型”。这个模型已经初步理解了语言的很多基本知识为下一步的任务比如像 ChatGPT 那样跟你聊天打下了坚实的基础。总而言之神经网络训练就是让AI通过不断地阅读大量文本预测下一个 token并根据预测结果调整自己的“大脑”从而学习语言的规律的过程。有人问神经网络的内部长什么样其实就是把你输入的token和几亿和参数权重经过一个巨大的数学方程式算出100277个结果中哪个结果的概率大大的那个是正确答案的可能性高。第四步推理inference推理就好比是 AI 学成之后真正开始“用”它学到的知识来“说话”或者“回答问题”了。简单来说在预训练的推理阶段我们已经有了一个训练好的“聪明脑袋”预训练好的模型现在我们要看看这个“聪明脑袋”到底有多聪明能不能根据我们给它的一些“提示”生成有意义的文本。这个过程是这样的你给 AI 一个“开头”或者“问题”这个“开头”或者“问题”也会先被变成 token就像我们之前说的那样 [1]。比如说你给 AI 看“今天天气怎么样”这句话它会被变成一串 token。AI 的“聪明脑袋”开始“思考”AI 接收到这串 token 后它“大脑”里的那个巨大的数学公式神经网络就开始运作了 。它会根据之前在海量文本中学到的规律预测下一个最有可能出现的 token 是什么 。就像我们之前说的它会计算出 100277 个数字每个数字代表一个可能的下一个 token 的“可能性” 。AI “选择”下一个 tokenAI 会根据这些“可能性”来选择一个 token 作为它预测的下一个词或符号 。通常情况下它会选择“可能性”最高的那个 token但有时候为了让生成的文本更有意思或者更多样化它也会稍微随机地选择 [2, 3]。这就像你平时说话虽然心里想说某个词但有时候也会选择一个意思相近的词。AI 把“选择”的 token 加到“回答”里AI 选出了下一个 token 后就把这个 token加到它已经生成的“回答”的末尾 。重复这个过程然后AI 会把当前的“开头”加上它刚刚生成的这个 token再次作为输入让它的“聪明脑袋”预测下一个 token 。这个过程会一直重复下去直到 AI 生成了足够多的 token或者遇到了一个表示“结束”的特殊 token或者达到了我们设定的生成长度限制 。所以推理的过程就是 AI 拿到一个输入变成 token然后一个 token 一个 token 地预测和生成后续的文本 [2]。在这个过程中AI 的“大脑”神经网络的参数是固定不变的它只是在“运用”之前“学习”到的知识 [5]。这就像你学会了一道数学题的解法后每次遇到类似的题目你都会用同样的方法去解答而不会再去重新学习。推理是 AI 最终“展示”它预训练成果的阶段。通过推理我们可以看到 AI 是否学会了理解语言、生成连贯的文本、甚至回答一些简单的问题。预训练的质量好不好很大程度上就体现在推理阶段 AI 的表现上。简单来说推理就是预训练好的 AI 模型根据你给的“提示”一个字一个字更准确地说是 token 一个 token 地“接龙”生成文本的过程。这个过程就像你在玩一个“你说上句我说下句”的游戏只不过 AI 的“下句”是根据它之前读过的无数“句子”来“思考”和“选择”的。经过以上步骤训练出来的模型叫“Base”模型卡帕西拿“GPT2”举例说明了什么是Base模型。DemoGPT2卡帕西提到GPT-2 的关键参数是15 亿个“旋钮数值”参数。你还记得我们说过模型通过调整这些“旋钮数值”来学习吗15 亿个已经是非常多了。1024 个 token 的最大上下文长度。这意味着 GPT-2 在预测下一个词的时候最多只能“记住”前面 1024 个token的内容。和现在的模型相比这个长度是很小的。大约用 1000 亿个 token 的数据进行训练。这相当于让 GPT-2 “读”了 1000 亿个token的文本。虽然听起来很多但和现在的一些超大规模数据集比起来也算少的了。他提到在 201它有其自身的“认知局限” (cognitive limitations)基础模型在某些方面可能非常强大比如生成连贯的文本但在另一些看似简单的问题上可能会犯错比如简单的数学计算或逻辑推理。这说明它的“思考”方式和人类不同存在一些我们难以完全理解的局限性。它能够进行“上下文学习” (in-context learning)即使没有经过专门的微调通过在输入中提供一些任务的示例基础模型有时也能够学习到任务的模式并尝试完成类似的任务。这展示了它在一定程度上能够根据上下文调整其“行为”。卡帕西用 “psychology” 这个词是想强调基础模型虽然是一个数学模型但在大规模数据训练后会展现出一些内在的行为倾向和能力这些不是简单通过代码直接设定的而是从数据中涌现出来的。理解这些“心理”特点可以帮助我们更好地使用基础模型认识到它的优势和局限并为后续的微调和应用开发打下基础。总而言之基础模型的“心理学”就是指它在预训练后所具备的那些自然形成的、内在的行为模式和“认知”特点。理解这些特点对于有效地与模型互动和构建更高级的应用至关重要。结尾的问题问题上下文长度限制的是问题还是回答回答最大上下文长度限制了以下两者的总和1、你提问的内容被转换成的 token 数量2 。你的问题越长包含的信息越多转换成的 token 数量就越多。2、模型在回答你时生成的 token 数量3 。模型的回答越长内容越丰富生成的 token 数量就越多。问题如果超出最大上下文长度模型会出现什么情况1、无法处理过长的提问如果你的问题本身就非常长超过了上下文长度的限制模型可能无法完全理解你的问题或者只能处理问题的一部分。2、回答被截断如果在生成回答的过程中总的 token 数量包括提问和回答快要达到最大上下文长度时模型可能会停止生成导致你的回答不完整。3、“忘记”较早的信息由于上下文长度有限模型在处理长对话或者需要回顾很久之前信息的任务时可能会“忘记”之前的内容导致回答不连贯或者不准确。因此最大上下文长度是对模型处理文本序列能力的一个重要限制它同时影响着提问的长度和回答的长度。模型的总“思考空间”是有限的提问占用的越多回答能用的就越少反之亦然。卡帕西提到序列长度是一个“非常有限且珍贵的资源” 这也说明了上下文长度的限制在实际应用中是一个需要考虑的关键因素。为了更高效地利用这个有限的资源我们需要对输入和输出的长度进行合理的控制。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章