【论文学习】CVPR 2026 和 ICLR 2026论文

张开发
2026/4/8 21:09:29 15 分钟阅读

分享文章

【论文学习】CVPR 2026 和 ICLR 2026论文
CVPR 2026| OmniLottie: Generating Vector Animations via Parameterized Lottie TokensOmniLottie基于参数化 Lottie 令牌的矢量动画生成OmniLottie 是首个端到端多模态矢量动画生成框架通过自研 Lottie 分词器实现 10 倍压缩结合预训练视觉语言模型支持文本、图像、视频输入生成小体积、高清无损、可编辑的 Lottie 矢量动画同时开源了包含 200 万个动画的大规模 MMLottie-2M 数据集解决了传统 AI 生成动画文件大、无法无限高清、不可编辑的痛点。CVPR 2026| OpenDPR: Open-Vocabulary Change Detection via Vision-Centric Diffusion-Guided Prototype Retrieval for Remote Sensing ImageryOpenDPR面向遥感影像的、以视觉为中心的扩散引导原型检索实现开放词汇变化检测OpenDPR 是首个基于扩散模型的零训练、开放词汇遥感变化检测框架通过「扩散模型生成视觉原型 DINOv2 提特征 SAM 定位变化区域 视觉空间匹配」的 pipeline实现了无需提前限定类别、几乎无需训练的遥感图像变化检测还推出了弱监督升级版本 OpenDPR-W仅用图像级标签即可完成优化。ICLR 2026| PMDformer: Patch-Mean Decoupling Information Transformer for Long-term ForecastingPMDformer面向长期时序预测的 Patch 均值解耦信息 TransformerPMDformer 是针对 Transformer 长时序预测中「数值尺度干扰注意力建模」问题提出的创新框架通过Patch 均值解耦PMD 强制分离数据的水平偏移与形状相似性让注意力只关注时序形状同时搭配近邻变量注意力PVA和趋势恢复注意力TRA在不丢失全局趋势的前提下大幅提升长时序预测的精度与效率。ICLR 2026| Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence基于柯西 - 施瓦茨散度的分布型视觉 - 语言对齐CS-Aligner 是针对 CLIP 等传统方法仅做样本对对齐、忽略全局分布差异的痛点提出的极简多模态对齐框架通过柯西 - 施瓦茨CS散度强制对齐图像与文本的全局特征分布同时用互信息保证细粒度语义匹配实现了 “既管好每对图文、又管好整体分布” 的更紧致、精准的跨模态对齐显著提升了文生图等下游任务效果。

更多文章