📚 学科: cs.* (计算机科学)
本周综述:本周 CS 领域成果丰硕,重点聚焦于多模态大模型的细粒度理解、视频表示学习中的一致性平衡,以及机器遗忘(Machine Unlearning)中复杂的数据纠缠问题。这些研究均被 CVPR 或 ICLR 等顶会接收,展现了极高的学术质量和应用潜力。
From Static to Dynamic: Exploring Self-supervised Image-to-Video Representation Transfer Learning
近期研究在视频表示学习方面取得了显著进展,主要通过将图像预训练模型转移到视频任务,并通常伴随复杂的临时模块和视频微调。然而,微调重型模块可能会损害视频间的语义可分离性,即区分跨视频对象的核心能力;而减少可调参数又会阻碍视频内的时序一致性。针对这一困境,我们提出了一致性-可分离性权衡迁移学习(Co-Settle)框架。该框架在冻结的图像预训练编码器之上应用轻量级投影层,通过时序循环一致性目标和语义可分离性约束来调整表示空间。实验表明,该方法仅需 5 个 Epoch 的自监督训练,就能在 8 个图像预训练模型上实现持续的性能提升。
MA-Bench: Towards Fine-grained Micro-Action Understanding
随着多模态大语言模型(MLLM)的快速发展,其在微表情/微动作(Micro-Action)理解(人类情绪分析的关键)方面的潜力因缺乏专业基准而尚未被探索。为此,我们推出了 MA-Bench,包含 1,000 个视频和三层评估架构,涵盖感知、关系理解和解释性推理。该基准包含 1.2 万个结构化问答对。对 23 个代表性 MLLM 的评估显示,目前模型在捕获动作颗粒度和细粒度身体部位动态方面存在巨大挑战。为此我们进一步构建了包含 2.05 万个视频的 MA-Bench-Train 数据集进行微调。实验证明,经过微调的 Qwen3-VL-8B 在微动作推理任务上表现出明显进步。
Machine Unlearning under Retain-Forget Entanglement
在机器遗忘中,删除特定子集往往不是孤立的任务。由于预训练的相关特征或语义相似性,与遗忘集密切相关的保留样本往往会受到误伤。本文提出了一个新颖的两阶段优化框架来处理这种"保留-遗忘纠缠"。第一阶段使用增广拉格朗日方法增加遗忘集的损失,同时保留无关样本的准确性。第二阶段应用由 Wasserstein-2 距离正则化的梯度投影步骤,以减轻语义相关保留样本的性能下降。在多个基准数据集上的实验证明,该方法在保持准确性和删除保真度方面均优于现有基准。
📚 学科: eess.* (电气工程与系统科学)
本周综述:音频处理领域迎来了视听融合的新突破。研究者首次将电影音频分离任务扩展到多模态维度,利用视觉线索辅助音频解耦,为影视修复和后期制作提供了全新的技术路径。
Cinematic Audio Source Separation Using Visual Cues
电影音频源分离(CASS)旨在将混合的电影音频分解为对白、音乐和音效。现有的 CASS 方法多为纯音频模式,忽略了电影固有的视听结合特性。我们提出了首个视听 CASS 框架(AV-CASS),利用视觉上下文增强分离质量。我们将 CASS 建模为基于条件流匹配(Conditional Flow Matching)的生成模型问题。为了解决缺乏孤立音轨的电影数据集问题,我们设计了合成数据管道,将野外音视频流配对,并设计了专用的双流视觉编码器。该模型完全在合成数据上训练,能有效泛化至真实电影内容,并在多个基准测试中取得强劲性能。
📚 学科: q-bio.* (定量生物学)
本周综述:生物学领域本周聚焦于高精度脑动态建模。通过融合 EEG 的高时间分辨率与 fMRI 的高空间分辨率,AI 技术正助力科学家实现更精准的脑活动重建,这对于神经科学研究和视觉解码具有重要意义。
Modeling Spatiotemporal Neural Frames for High Resolution Brain Dynamic
捕捉动态时空神经活动对于理解大规模脑机制至关重要。fMRI 虽然空间分辨率高,但采集成本昂贵;EEG 则能提供毫秒级的时序线索。我们提出了一种以 EEG 为条件的框架,将动态 fMRI 重建为具有高空间保真度和强时序相干性的连续神经序列。为了解决 fMRI 采集中的采样不规则问题,我们引入了零空间中间帧重建,实现了任意中间帧的测量一致性补全。在 CineBrain 数据集上的实验表明,该方法在全脑和特定功能区域的重建质量优异,支持下游的视觉解码任务,为从 EEG 估计高分辨率 fMRI 动态开辟了新途径。
📚 学科: stat.* (统计学)
本周综述:统计学领域在处理高维分类特征方面取得了理论与算法的双重突破。新提出的估计方法通过模型压缩同时解决了聚类与稀疏性问题,并获得了顶级期刊 JRSSB 的认可。
Modeling with Categorical Features via Exact Fusion and Sparsity Regularisation
我们研究了具有多层级分类预测变量的高维线性回归问题。我们提出了一种新的估计方法,通过两种机制执行模型压缩:同时鼓励回归系数的聚类(以合并某些分类层级)和回归系数的稀疏性。我们为该估计量设计了新的混合整数规划公式,并开发了定制的行生成程序以加速求解。此外,我们还提出了一种基于块坐标下降的快速近似算法。通过对合成和真实数据集的数值实验,证明了该估计量在预测和聚类恢复性能上均优于现有最优技术。