干货:企业知识库是AI落地的核心,别让大模型“失忆”!

张开发
2026/4/4 20:35:45 15 分钟阅读
干货:企业知识库是AI落地的核心,别让大模型“失忆”!
干货企业知识库是AI落地的核心别让大模型“失忆”文章指出当前AI模型如Gemini虽强大但难以理解企业特有的业务流程导致应用效果受限。为此企业知识库至关重要。文章定义知识为可验证的显性经验模型并阐述了知识构建如SECI模型、应用如“帮我找/写/做”及运营的完整流程。最终强调知识库是企业AI落地的核心是提升竞争力的关键。一、AI时代知识为什么很重要在今年的各类AI应用中Gemini的Deep Researchpro版本和Manus无疑是最让我惊艳的。它们的出现仿佛标志着AI已然迈入能够自主思考、独立执行任务的阶段相信用过这些产品的朋友都会有相同的感慨。但值得注意的是这些AI也存在一些局限。若细致审视会发现它们的不足并不少比如执行失败率相对较高有时规划路径明明是正确的最终结果却没能达到预期。而对我来说最突出的问题是Deep Research在规划时无法理解企业特有的业务流程。这就导致它给出的很多结果虽然质量不错却与实际业务毫不相干。尤其是当企业自身的知识难以用寥寥数语说清楚时再智能的AI也无法理解这些专属的企业知识。因此不难得出结论在真正的企业AI应用场景中知识库是不可或缺的。这就好比聘请了一位国际高级咨询师倘若对方在完全不了解公司业务和相关知识的情况下开了三天闭门会即便过程让你感觉如沐春风最终也可能毫无实际价值。二、什么是知识既然提到了知识库那么我们首先来探究一下什么是知识。我们可以参考维基百科和百度百科的解释知识是对某个主题“认知”与“识别”的行为藉以确信的认识并且这些认识拥有潜在的能力为特定目的而使用 —— 维基百科知识指人类在实践中认识世界的成果 —— 百度百科百度百科的解释较为简练维基百科则提到了知识的“主题”属性以及“使用潜力”。由此可见面向主题和具备使用潜力应该是知识的重要特性。另外在现实生活中我们常常难以区分数据、信息和知识。若要明确什么是知识有一个1980年之前提出的著名认知架构——DIKW金字塔。它认为数据是最基础的层面其上是信息再往上是知识最顶端则是智慧。不过我个人更认同前喜茶和百果园的CIO沈欣老师的定义作者在文字描述上做了修改内容基本一致知识是一种可验证、显性的经验模型。同时知识的层次可以划分为数据—信息—经验—知识。将知识定义为一种可验证且显性的模型更有利于现代计算机及AI系统去理解和运行。关于数据、信息、经验和知识之间的关系与递进可用下图准确诠释。图1:沈欣老师给出的数据、信息、经验和知识的递进关系上图对数据、信息、经验和知识作出了完整定义具体如下数据是反映客观事实的数字、符号或记录。信息指经过整理、归类或分析的数据被赋予了意义和目的。经验属于技能或认知范畴通常依赖个人或组织的积累。知识是可验证的业务模型能够指导决策和行动。图中还有一个生动的例子用于阐述这四者之间的区别大家可以自行阅读。其中有一句话给我留下了极为深刻的印象经验属于个人隐形认知而知识是显性化的、可复用的体系单元。在AI的企业落地实践中就算力和大模型的使用而言在一定程度上是“众生平等”的当然这里说的是推理环节。然而在如何用好AI这件事上我们最需要的是让知识发挥作用而最难的也正是知识的转化与积累。正如上图所表达的当发现用户频繁点击某款运动鞋的详情页却没有下单时巧妙地给用户发放一张优惠券以促使成交并且将原本属于运营人员的个人经验进行模型化让AI能够直接使用这才是真正完成了知识转化。在企业内部类似的例子不胜枚举。例如面对各种不同条件有经验的造价师计算价格的方式其实就是一种知识模型金融行业在进行风险识别与判断时除了依托大数据各类知识模型也发挥着重要作用HR在初筛阶段根据用人需求挑选合适简历的方法同样是一种知识模型。这样的例子在各行各业都存在。其实彼得·德鲁克在《为成果而管理》一书的第三章中就明确指出企业的关键资源只有两类一类是知识另一类是资金。并且该书第七章专门讲到了知识即企业他还超前地预测终有一天人力终将被机器取代知识在企业运转过程中的重要性将愈发凸显。未来企业竞争的关键点就在于我们的知识质量有多高。关于知识是什么以及知识在企业业务中的重要性就先讲到这里。接下来我们看看如何让知识在AI中发挥作用。三、如何让知识在AI中发挥作用要让知识在AI时代发挥作用并非易事它需要具备一定的科学性和系统化能力。这一过程可以分为三个部分来阐述知识构建探讨如何将企业中的数据、信息和经验转化为知识。知识应用研究如何利用AI来运用知识。知识运营思考如何保持AI知识系统的可用性。我们日常接触到的各类信息更多聚焦的应该是第二部分——知识应用。但实际上作为一个真正的企业级知识库必须同时兼顾这三个部分否则只能沦为玩具。下面我就来详细分享这三部分的内容。图2:AI企业级知识库的三大组成部分3.1 知识构建在企业里知识通常分散在多个地方像OA系统、传统知识库、网盘、员工个人电脑以及各类结构化数据库等。要是不能把这些知识聚集起来并加以组织企业就很难真正成为知识驱动且富有效率的组织而知识构建的任务就是要完成这件事。知识构建大致分为几个步骤分别是知识导入、知识加工以及如何将数据和文档转化为知识。下面我们将一步步了解知识构建的具体过程。在很多传统的书本和论文中提到的知识构建基本都与知识图谱相关比如常见的RDF资源描述框架。不过关于如何利用知识图谱构建知识以及如何进行知识双链等内容我们会在后面的文章中再做探讨。今天我们先从一些相对简单的内容讲起。3.1.1 知识导入知识的来源有很多相信阅读这篇文章的你对此并不陌生主要包括以下几类本地文件企业内部电脑中存在大量本地文件常见格式有Word、Excel、PPT、PDF、TXT和图片等此外还有视频、CAD等特殊格式。原有系统企业原有的各类数据和知识系统涵盖传统知识库、文档管理系统、OA、数据库以及钉钉、飞书、企业微信等更综合的办公软件。外部知识对于现代企业而言从互联网获取相应知识内容变得越来越重要因此知识库的知识导入必须支持外部知识的导入。其他还有各类纸质版知识这些需要通过扫描或人工录入的方式才能被机器使用。知识导入的工作主要包括两个方面一是为本地文件的批量上传提供入口二是通过API对接等方式实现原有系统内数据和知识的自动化导入。图3:知识导入触发条件一般可以用三种方式实现知识导入的自动化触发Webhook接受指定的触发事件时开始知识导入/抽取如原有系统有新建文档产生定时触发相对机械化的定期任务设置如每天固定时间/每小时/每分钟等定时触发高级可自定义的定时任务如使用Cron表达式等。3.1.2 知识加工如果说知识导入决定了入库知识的数据量和时效性那么知识加工则很大程度上决定了入库知识的质量。知识加工和数据ETL过程是类似的也同样包含抽取Extract、转化Transform和加载Load等过程目的是为了让知识具备更强的可表示性、可用性和关联性。在TorchV AIS和TorchV KBS的知识加工环节我们会使用流程编排来完成以下一些知识加工过程内容抽取按一定的逻辑结构抽取目标文档中的内容包括文本直接提取、表格解析提取等TorchV的产品还支持.doc文本和表格的提取现已开源欢迎关注https://github.com/torchv/torchv-unstructured处理算子在知识加工的流程编排中增加数据脱敏、内容赋权、ASR、摘要等处理算子以及增加条件分支、循环、条件筛选等逻辑控制算子知识清洗和数据清洗不太一样的是知识清洗更多是将内容转化为Markdown并去除一些标记语言如HTML的EL知识丰富包括知识打标、添加上下文辅助、知识双链和知识合并等。知识加工与知识导入的自动化结合将大大提升知识入库的效率和质量。图4:知识加工流程编排3.1.3 如何将文档转化为知识终于到了最难的问题当然也是最有价值的问题。我们和一些头部企业交流的过程中发现图1中的数据、信息的使用如果不考虑效果的情况下对他们来说都已经实现了我们可以狭义地认为就是使用RAG对文档和数据进行检索和生成。但是在企业实际业务中大家还是希望能再进一步能让AI实现更高阶的知识价值如实现图1中经验和知识的使用。从实际价值来说从数据、文档中获取知识把专家的个人经验和集体的经验转化为显性的知识可以为企业带来很多好处包括知识传承大型组织中老员工的退休会带走大批宝贵个人经验。如何将这些个人经验转化为显性的知识做好知识传承对于企业留住知识非常关键。业务智能化类似图1中的电商场景有效的知识应用可以让AI系统处理有经验的运营人员才能做的事物让业务处理越来越智能。其他企业中知识的应用不胜枚举这里不再扩展包括新闻事件的关联影响分析对金融行业的帮助以及工程造价环节中成本估算和工程参数判断等诸多场景都不是简单的文本RAG就可以解决的而是需要将个人或集体的经验变成机器可以应用的知识才能实现更高的AI和知识应用的价值。如何将数据、信息和文档转化为知识是有一些科学方法的目前我们用的方法是基于SECI模型下面简单介绍一下该方法更多内容会在后续TorchV的AI知识库产品中体现。SECI模型介绍SECI模型是在1985年由野中裕次郎Ikujiro Nonaka和竹内弘高Hirotaka Takeuchi两位日本学者提出来的内容包括知识产生的四个过程和各自产生的场Ba这里我们不介绍场的概念有兴趣的朋友可自己研究。下面介绍一下SECI的四个阶段社会化Socialization它是一个通过共享经历建立隐性知识的过程而获取隐性知识的关键是通过观察、模仿和实践。这是知识的隐性到隐性过程外在化Externalization它是一个将隐性知识用显性化的概念和语言清晰表达的过程其转化手法有隐喻、类比、概念和模型等。这是一个隐性到显性的过程组合化Combination它是一个通过各种媒体产生的语言或数字符号将各种显性概念组合化和系统化的过程多种有效知识找到关联产生更大的作用的过程。这是一个将显性知识和显性知识组合产生更大作用的过程内化Internalization它是一个将显性知识形象化和具体化的过程通过“汇总组合”产生新的显性知识被组织人们吸收、消化并升华成他们自己的隐性知识应用到工作中并接收反馈。这是一个从显性知识到人人内化为行动的过程。SECI模型实例为了更清晰地理解SECI模型我举一个现实中的例子可能存在逻辑漏洞但已尽力完善具体如下1. 社会化过程假设当今社会没有天气预报。某天老李和老刘在小区门口看到天边黑云密布老李说自己昨天看到黑云后出门十几分钟就被淋成了落汤鸡。老刘表示自己也遇到过几次类似情况随后围过来的老陈、老王等人也纷纷称有过相同经历。大家通过充分交流共享了关于“黑云压城要下雨”的隐性知识并达成了共识这就是社会化过程。2. 外在化过程没过多久很有文化的大刘将这个共识编成了一句类似谚语的话“红云变黑云马上大雨淋”。这句话逐渐流传开来变得妇孺皆知原本的隐性知识被转化为显性知识这就是外在化过程。3. 组合化过程开杂货铺的老吕发现突然下雨时雨伞往往供不应求。于是他联想到“黑云出现会下雨”的常识想到如果天边黑云增多就把雨伞从店内搬到门口这样能增加销量。通过将不同知识关联组合产生了更具应用价值的新知识这就是知识的组合化过程。4. 内化过程最后老吕在收银机上贴了一张卡片上面写着“窗外黑云越来越多就把雨伞搬到店门口”。这张卡片成为了店里的员工操作指南无论哪个班次的员工看到都会按照卡片上的指示去做并且逐渐形成了习惯。组合知识由此被内化为每个员工的习惯这就是内化过程。从实例看人类社会知识构建逻辑从这个例子中我们可以发现人类社会构建知识的路径首先通过交流发现共识社会化接着将共识转化为可供传播和教学的常识外在化然后将常识与其他知识关联组合形成对业务有帮助的组合知识组合化最后将组合知识转化为最佳实践等标准作业程序SOP内化。SECI作为80年代出现的知识构建模型当然有时代局限性特别是在计算机、互联网和AI还未大面积普及的时候。其缺陷主要是无法为企业带来一套有效的知识构建方法更多存在于理论研究和发现层面缺少更广泛和更新的知识比如当代大模型中包含的知识以及借助互联网获得的知识等其最后内后的结果更多是作用于人但人才流动是当今社会的常态我们更需要把知识沉淀在企业内部的系统中。SECI模型在TorchV知识库的实现但是在AI时代这些缺陷是可以被弥补的。下面我们来看看TorchV的AI企业知识库是怎么实现SECI过程的当然这里只做简单分享。社会化TorchV知识库可通过知识加工获取权限内的内容包括会议纪要、群聊天内容、日报周报 以及企业自身的传统知识库和OA等在这些内容中发现传播度/讨论度较高的内容进行共识提取形成企业内的潜在知识外在化TorchV知识库通过潜在知识提炼形成内部的一个个知识主题具体的表现形式是应用空间知识空间参考图5知识组合应用空间的主要作用就是在知识仓库的基础上引用/复制更贴合主题的知识比如从多个部门的知识仓库中引用关于贷款审批辅助的知识打破了部门墙为某一应用主题形成了组合型的知识内化知识空间与在其之上构建的智能体进行结合形成了一个可以被智能触发而处理或分析业务的AI应用。这时候知识就不仅仅只存在于人脑里了。图5:TorchV的AI企业知识库的知识构建过程。当然这里面有很多具体的技术细节包括大模型在其中发挥的作用资源描述框架RDF和标签属性图LPG在不同场景起到的知识组织和串联作用以及依然需要人的动作来形成整个闭环等。比如AI专家访谈可以将AI自动整理的知识存在多种潜在可能性的时候对人类专家发起邀约通过具体项目过程的复盘补充和固化这些知识。这些在后面的文章或者TorchV新版本企业知识库产品正式发布的时候再做进一步说明吧。3.2 知识应用由于在3.1中篇幅没有控制好所以在知识应用章节我不想讲太多只想分享一下应用形态。知识库作为AI系统中的底层组件可以通过API被任何应用所接入如我们的很多客户会在TorchV知识库上面对接dify所以从应用形态上来说其实被没有明显约束。但AI知识库也有一些非常契合的自带应用适用于绝大多数企业客户的使用。TorchV对于知识库的默认AI应用可分为三类帮我找、帮我写以及帮我做。图6:三种AI应用形态帮我找、帮我写、帮我做。帮我找的形态相对比较简单主要还是Chatbot包括实时交互的RAG问答以及异步的Deep Research。帮我写主要是基于在线编辑器包括常见的合同、标书、会议纪要、邮件等的编写其特点是已经连接了写这些文档内容所需要的知识很多时候只需一键生成即可。如图7所示。图7:编辑通过企业知识库的AI应用写日报周报。帮我做则更多是操作类型的比如请假、预约会议室等。界面是双栏模式左侧带有界面有一些操作在有界面的情况下更方便下图是预约会议室的界面。图8帮我做的会议室预约。3.3 知识运营知识库的状态与人体有相似之处人体每天会产生大量自由基若缺乏有效的清除机制人会立刻生病知识库也是如此每天有新文档和新知识不断涌入极易产生内部噪声进而影响知识检索的准确性和使用效果。关于知识运营的具体内容将在后续文章中详细阐述本文仅介绍其主要手段知识降噪定期检查重复文档和冲突文档发现后推送给知识管理人员处理。这一操作主要针对重要知识不建议由AI自动解决知识的重复或冲突问题。不过当企业内部已建立成熟的知识管理制度且积累了丰富处理经验后也可让AI直接自动处理此类问题。知识刷新一类是知识自动刷新即当明确新知识可替代老知识时利用AI自动替换并更新原有文档在系统中的各类链接及被引用情况。另一类是知识状态的更新例如在项目计划中替换项目经理人选等。最后一类针对具备时效性的知识若有更新内容或已过保鲜期需将其转为冷知识。四、总结为什么AI在toB侧的应用常常让人感到失望我们可以听听合作过的客户怎么说。我们与不少处于AI应用第一梯队的客户进行了深度交流与合作他们认为以建设为导向推进应用、将应用作为目标这本身没错。但AI企业知识库才是根基是企业真正需要下大力气夯实的部分。关键在于如何从企业自身的业务资料中提炼出知识并让这些知识能被AI所用。他们觉得应用环节其实不应由厂商操心因为不同企业和岗位的业务存在独特差异只有企业自身最了解业务也最清楚如何设计应用才能真正发挥价值。企业可以通过外包驻场开发或使用Dify等工具进行工作流编排来解决应用问题。而AI企业知识库才是他们真正需要我们这类产品技术型厂商提供帮助的地方。因为它涉及一整套融合了理论知识、最佳实践、系统化方案及技术难题的综合产品确实无法依靠企业自身能力或普通外包人员解决。并且AI企业知识库恰恰决定了企业AI应用能否达到预期要求。在AI时代企业的竞争力不再仅仅取决于谁的模型更大还取决于谁能更好地掌控知识。## 最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章