模型赋能数据

张开发
2026/4/13 9:02:28 15 分钟阅读

分享文章

模型赋能数据
据EpochAI预测2026-2030年间互联网上多模态高质量数据将用尽。2030-2060年间真实世界数据或将耗尽。伴随着模型扩展律尽管公开领域的通用数据出现逐渐耗尽的情况而私域数据的开发利用将随着企业AI应用的不断扩大而深入开展。这个过程同时伴随着高效的数据开发利用、以及通过合成数据在虚实融合的场景中降低对真实数据的依赖提升数据的多样性并降低获取成本。有很多新的领域会以新的互动和数据获取方式获得数据因此新数据开发利用和探索生成空间很大。新数据的探索生成方面世界模型是一种重要的建模方式。目前业界北京智源推出了悟界Emu3多模态世界模型。将多模态大模型、空间智能在推理层面统一。基于下一个token预测原则把多模态内容统一编码为一个离散空间。学习并推理物理世界的结构而非直接建模几何形态。基于该模型智能体能够将过去观测和行为预测未来的状态。是一种将几何建模出发的数字孪生转换为基于模型理解和生成的方法。近期ICT业界对世界模型关注更多希望通过世界模型提升AI对现实世界的理解力和在真实场景中的执行力。以Transformer为基础的大模型通过万亿token级别的预训练构建了人类历史上最复杂的知识压缩体系这种预训练泛化能力为跨行业赋能打下基础。而推理大模型领域知识增强RAG代码大模型等技术则加速AI生产力开发和能力输出。在AI技术加持下通过领域知识迁移等方式Agentic AI可以融合前端指令需求的和后端异构资源实现跨行业AI横向拓展。Agentic AI是具备长时间自主行动以实现计划目标的系统。例如实现超50步复杂操作通用智能体。主要的供应商有腾讯元宝、Moonshot的Kimi字节的豆包、阿里的通义星尘、智谱AI的AutoGLM和百度文心智能体而纵观整个产业生态近期中国人工智能产业发展联盟编制并发布“智能体产业图谱1.0”收录近200家聚焦智能体技术创新和产业应用的企业。按照基础支撑层、通用场景层、专用场景层展开定义了大模型服务、开发工具、通信协议、开发平台。

更多文章