Daily Paper Cast | All Episodes

An Empirical Study of Autoregressive Pre-training from Videos

Episode 373 · January 10, 2025 · 21:47

🤗 Upvotes: 17 | cs.CV, cs.AI Authors: Jathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Ji...

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Episode 372 · January 10, 2025 · 21:45

🤗 Upvotes: 10 | cs.CV, cs.RO Authors: Shaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan...

Entropy-Guided Attention for Private LLMs

Episode 371 · January 10, 2025 · 24:10

🤗 Upvotes: 6 | cs.LG, cs.CR Authors: Nandan Kumar Jha, Brandon Reagen Title: Entropy-Guided Attention for Private LLMs ...

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

Episode 370 · January 10, 2025 · 19:15

🤗 Upvotes: 5 | cs.LG, cs.AI, cs.CC, cs.CV Authors: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song Title: ...

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

Episode 369 · January 10, 2025 · 22:09

🤗 Upvotes: 5 | cs.CL, cs.CV Authors: Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Gla...

SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution

Episode 368 · January 10, 2025 · 21:42

🤗 Upvotes: 4 | cs.CL Authors: Chengxing Xie, Bowen Li, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen Title: SWE-Fixer:...

Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models

Episode 367 · January 10, 2025 · 26:35

🤗 Upvotes: 3 | cs.CL Authors: Şaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bil...

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Episode 366 · January 9, 2025 · 27:07

🤗 Upvotes: 116 | cs.CL Authors: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang Title: ...

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought

Episode 365 · January 9, 2025 · 24:54

🤗 Upvotes: 47 | cs.AI, cs.CL Authors: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael...

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Episode 364 · January 9, 2025 · 23:38

🤗 Upvotes: 38 | cs.CL, cs.AI, cs.LG Authors: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang ...

Agent Laboratory: Using LLM Agents as Research Assistants

Episode 363 · January 9, 2025 · 23:32

🤗 Upvotes: 38 | cs.HC, cs.AI, cs.CL, cs.LG Authors: Samuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Zich...

LLM4SR: A Survey on Large Language Models for Scientific Research

Episode 362 · January 9, 2025 · 25:14

🤗 Upvotes: 21 | cs.CL, cs.DL Authors: Ziming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du Title: LLM4SR: A Survey on...

InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Episode 361 · January 9, 2025 · 21:01

🤗 Upvotes: 16 | cs.AI, cs.CL, cs.HC Authors: Yuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han...

SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Episode 360 · January 9, 2025 · 22:59

🤗 Upvotes: 12 | cs.CV, cs.GR Authors: Zixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani Title: S...

GeAR: Generation Augmented Retrieval

Episode 359 · January 9, 2025 · 22:10

🤗 Upvotes: 12 | cs.IR, cs.CL Authors: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang ...

Chirpy3D: Continuous Part Latents for Creative 3D Bird Generation

Episode 358 · January 9, 2025 · 24:00

🤗 Upvotes: 10 | cs.CV, cs.GR Authors: Kam Woh Ng, Jing Yang, Jia Wei Sii, Jiankang Deng, Chee Seng Chan, Yi-Zhe Song, Tao Xiang, Xiatian Zhu ...

DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Episode 357 · January 9, 2025 · 22:36

🤗 Upvotes: 5 | cs.LG, cs.AI, cs.CL, 68T45 Authors: Amitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yas...

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Episode 356 · January 8, 2025 · 21:46

🤗 Upvotes: 51 | cs.CL, cs.LG Authors: Jian Hu Title: REINFORCE++: A Simple and Efficient Approach for Aligning Large La...

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Episode 355 · January 8, 2025 · 22:34

🤗 Upvotes: 32 | cs.CV Authors: Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang ...

Cosmos World Foundation Model Platform for Physical AI

Episode 354 · January 8, 2025 · 25:38

🤗 Upvotes: 31 | cs.CV, cs.AI, cs.LG, cs.RO Authors: NVIDIA, :, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, ...

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Episode 353 · January 8, 2025 · 21:51

🤗 Upvotes: 22 | cs.CV, cs.AI, cs.CL Authors: Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng Title: LLaVA-Mini: Effici...

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Episode 352 · January 8, 2025 · 22:41

🤗 Upvotes: 18 | cs.CV Authors: Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-H...

Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Episode 351 · January 8, 2025 · 23:15

🤗 Upvotes: 13 | cs.CV, cs.AI, cs.GR Authors: Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, ...

OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Episode 350 · January 8, 2025 · 20:34

🤗 Upvotes: 10 | cs.CL, cs.CV Authors: Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, ...

PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Episode 349 · January 8, 2025 · 22:09

🤗 Upvotes: 10 | cs.AI, cs.CL Authors: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun ...

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Episode 348 · January 8, 2025 · 22:34

🤗 Upvotes: 6 | cs.CL, cs.AI Authors: Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou ...

MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Episode 347 · January 8, 2025 · 20:49

🤗 Upvotes: 6 | cs.CV Authors: Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim Title: ...

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Episode 346 · January 7, 2025 · 22:18

🤗 Upvotes: 38 | cs.CV Authors: Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying ...

Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Episode 345 · January 7, 2025 · 26:54

🤗 Upvotes: 23 | cs.CV Authors: Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang Tit...

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Episode 344 · January 7, 2025 · 22:26

🤗 Upvotes: 22 | cs.CL, cs.AI, cs.LG Authors: Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin...