cs.CV - arXiv 学术档案

cs.SD 2026-06-17

Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors

Existing multi-speaker dialogue systems bind speakers to utterances through structured supervision: per-turn tags, multi-stream transcriptions, or learnable speaker embeddings. These systems operate w...

Michael Finkelson, Daniel Segal, Eitan Richardson 等

详情 PDF

cs.CV 2026-06-17

Confidence is Not Reliability: Rethinking MC Dropout in Brain Tumour Segmentation

Glioma segmentation in multiparametric MRI is a critical component of treatment planning. A segmentation model that fails silently on treatment-critical sub-regions represents a patient safety risk th...

Xin Ci Wong, Duygu Sarikaya, Kieran Zucker 等

详情 PDF

cs.CV 2026-06-17

A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2

Text-rich images often contain privacy-sensitive, transactional, or decision-relevant information. As recent multimodal image generation models become increasingly capable of synthesizing realistic te...

Yijin Wang, Shuyi Wang, Wenhan Zhang 等

详情 PDF

cs.CV 2026-06-17

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

Existing approaches to 3D scene understanding in Vision-Language Models (VLMs) either rely on complex, model-specific geometry encoders or large training budgets in pursuit of spatial reasoning. Inste...

Bartłomiej Baranowski, Dave Zhenyu Chen, Matthias Nießner

详情 PDF