VAE（Variational AutoEncoder）

张开发

• 2026/6/4 1:52:16 • 15 分钟阅读

分享文章

VAE 是一种生成模型它通过学习一个连续的潜在分布而不是固定编码使可以从这个分布中采样并生成新数据VAEVariational AutoEncoder 一种可以“学会生成新数据”的概率模型输入一个样本 → 学一个“潜在表示 z” → 再生成类似的样本AutoEncoder既有编码也有解码x → 编码 → z → 解码 → x 压缩信息然后还原数据通过“重建误差”来约束 latent 表示是有意义的z 的好坏是通过“解码是否能还原 x”来衡量的普通 AE做的事x → 编码 → z → 解码 → x 目标让 x ≈ xVariational变分不是学一个“确定的 z”而是学一个“分布”即 z ~ N(μ, σ²)μ均值这个分布的中心在哪σ标准差这个分布有多宽本质是用“可优化的近似分布”去替代“难以计算的真实分布”VAE 的核心结构编码器Encoder输入x输出 μ(x), σ(x)表示这个样本在 latent space 的分布采样z μ σ * εε ~ N(0,1)让模型具有“随机性” 解码器Decoderz → 生成 x1️⃣ 如果任务是“生成数据”解码是核心目标2️⃣ 如果任务是“学表示representation”解码主要是一个训练约束VAE 在做什么把复杂数据比如人体、图像压缩到一个“连续空间 z” 在这个空间里可以插值、采样、生成新数据损失函数VAE 的 loss 有两部分1️⃣ 重建误差让生成的 x 接近原始 x保证z里有信息让每个 x → 一个“独特的 z”区分开2️⃣ KL 散度重点让 z 的分布接近标准正态 N(0,1)让 latent space连续、平滑、可采样‘不同 x 的 q(z|x)不要太分散、要互相重叠、要填满空间如果没有KL散度的话就只能重建不能生成让所有 z 像标准正态分布 N(0,1)挤在一起、平滑既不能完全分开也不能完全一样二者共同作用形成一个“连续、可区分但不离散”的空间核心目标学一个“连续、可采样”的潜在空间使可以从中生成新的数据为什么要让不同x的z在隐空间里连续VAE 不是为了“区分不同样本”而是为了“建模数据的分布并能生成新样本” 所以 z 的目标不是“彼此远离”分类任务的目标而是“形成一个连续、有结构的空间”VAE 把每个数据点涂抹成一片分布各个分布互相重叠把空间填满。这样空间里任意一点解码器都见过某个分布覆盖到了采样出来就能得到有意义的结果。如果每个 x → 一个完全不同、彼此很远的 zlatent space就会变成“离散点集”在几个孤立的点中间随机采样就会落在“空区域”decoder的输出将没有意义无法生成新样本举例如果z1一个人 —— z2另一个人希望中间是“渐变的人”如果空间不连续中间没有语义 ❌ → 生成畸形“z 差别越大越好”适用于判别模型但 VAE 是生成模型它需要的是“覆盖空间”而不是“拉开距离”

更多文章

前端开发 2026/6/4 1:50:42

如何在Linux中安装应用并全局可用

通常来说，软件包的安装都是借助系统的包管理工具，除此之外，在应用官网寻找安装包也是不错的选择。一些官方还会提供可自行编译安装的源代码，以及与系统隔离的可运行文件。包管理器安装包管理器是发行版自带的管理软件包的工具&…

张开发

前端开发 2026/6/4 1:52:13

除了场景切换，Unity的淡入淡出还能这么玩？创意应用与性能优化小贴士

Unity淡入淡出技术的创意实践与性能优化指南在游戏开发中，淡入淡出效果远不止是简单的场景过渡工具。当我们将这个看似基础的技术进行深度挖掘和创意应用时，它能成为提升游戏体验的利器。想象一下，当玩家沉浸在精心设计的剧情中，…

张开发

前端开发 2026/5/20 8:21:45

HUNYUAN-MT结合LSTM进行译后编辑：提升文学翻译的流畅性与文采

HUNYUAN-MT结合LSTM进行译后编辑：提升文学翻译的流畅性与文采文学翻译，向来是机器翻译领域里一块难啃的骨头。它不像技术文档或新闻稿，追求的是字对字的准确。文学翻译的灵魂在于“传神”，在于保留原文的韵律、意境和文采。直接…

张开发

前端开发 2026/5/22 5:55:18

【2026奇点智能技术大会权威解码】：AI测试代码生成的5大颠覆性突破与落地陷阱预警

第一章：2026奇点智能技术大会：AI测试代码生成 2026奇点智能技术大会(https://ml-summit.org) 核心突破：语义感知型测试生成引擎本届大会首次发布开源框架 TestWeaver v2.1，该引擎基于多模态代码理解模型（CodeLlama…

张开发

前端开发 2026/6/2 11:17:29

告别命令行手忙脚乱：在Ubuntu 22.04上用VSCode+J-Link一键搞定STM32编译烧录

告别命令行手忙脚乱：在Ubuntu 22.04上用VSCodeJ-Link一键搞定STM32编译烧录每次在终端里反复输入冗长的编译和烧录命令，就像在键盘上跳踢踏舞——手忙脚乱还容易出错。作为嵌入式开发者，我们值得更优雅的工作方式。本文将带你用VSCode打造一…

张开发

前端开发 2026/5/19 9:19:04

刚上大学为啥要先学C语言？一文给你讲明白

嘿，大家好！是不是有好多才踏入大学校园大门的小伙伴们，所面对的第一门与编程相关的课程便是 C 语言？其后心里兴许满是疑惑：为何偏偏是 C 语言？如今 Python、Java 这般热门流行，去学习这个堪称“…

张开发

前端开发 2026/5/25 9:41:02

从理论到实践：GM(1,1)灰色预测模型的MATLAB一站式实现与检验

1. 灰色预测模型入门：当数据不足时的智慧选择第一次接触灰色预测是在研究生时期，导师扔给我一组只有7个数据点的年度销售记录，要求预测未来两年的趋势。当时我满脑子都是"这怎么可能？"——传统时间序列分析至少需要30个…

张开发

前端开发 2026/5/24 13:22:53

Matlab多折线图对比分析：从数据到学术图表的一站式实现

1. Matlab多折线图对比分析的核心价值在科研和学术写作中，数据可视化的重要性怎么强调都不为过。想象一下，你花了几个月时间做实验，收集了大量数据，最后却因为图表表达不清而被审稿人或导师质疑，这该有多郁闷。Matlab…

张开发

前端开发 2026/5/19 20:25:52

通义千问2.5-7B-Instruct新手入门：无需代码基础搭建智能对话系统

通义千问2.5-7B-Instruct新手入门：无需代码基础搭建智能对话系统 1. 为什么选择通义千问2.5-7B-Instruct 如果你正在寻找一个既强大又容易上手的AI对话系统，通义千问2.5-7B-Instruct绝对值得考虑。这个由阿里云在2024年9月发布的模型，特别适…

张开发

前端开发 2026/5/21 0:48:48

深度解析3D-TransUNet：Vision Transformer与U-Net融合的前沿医学分割技术

深度解析3D-TransUNet：Vision Transformer与U-Net融合的前沿医学分割技术【免费下载链接】3D-TransUNet This is the official repository for the paper "3D TransUNet: Advancing Medical Image Segmentation through Vision Transformers" 项目地址…

张开发