Daily Paper Cast | All Episodes

Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

Episode 1137 · September 12, 2025 · 25:00

🤗 Upvotes: 34 | cs.CV Authors: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, X...

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

Episode 1136 · September 12, 2025 · 26:55

🤗 Upvotes: 28 | cs.CV, cs.CL Authors: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu...

Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

Episode 1135 · September 12, 2025 · 24:24

🤗 Upvotes: 25 | cs.CV Authors: Zhiyuan Yan, Kaiqing Lin, Zongjian Li, Junyan Ye, Hui Han, Zhendong Wang, Hao Liu, Bin Lin, Hao Li, Xue Xu, Xinya...

MachineLearningLM: Scaling Many-shot In-context Learning via Continued Pretraining

Episode 1134 · September 12, 2025 · 22:59

🤗 Upvotes: 22 | cs.CL, cs.AI Authors: Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke Title: MachineLear...

A Survey of Reinforcement Learning for Large Reasoning Models

Episode 1133 · September 11, 2025 · 20:52

🤗 Upvotes: 99 | cs.CL, cs.AI, cs.LG Authors: Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guo...

RewardDance: Reward Scaling in Visual Generation

Episode 1132 · September 11, 2025 · 21:27

🤗 Upvotes: 50 | cs.CV Authors: Jie Wu, Yu Gao, Zilyu Ye, Ming Li, Liang Li, Hanzhong Guo, Jie Liu, Zeyue Xue, Xiaoxia Hou, Wei Liu, Yan Zeng, We...

3D and 4D World Modeling: A Survey

Episode 1131 · September 11, 2025 · 20:25

🤗 Upvotes: 40 | cs.CV, cs.RO Authors: Lingdong Kong, Wesley Yang, Jianbiao Mei, Youquan Liu, Ao Liang, Dekai Zhu, Dongyue Lu, Wei Yin, Xiaotao H...

AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

Episode 1130 · September 11, 2025 · 24:44

🤗 Upvotes: 21 | cs.LG, cs.AI, cs.CL Authors: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye...

Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Episode 1129 · September 10, 2025 · 23:21

🤗 Upvotes: 66 | cs.CL Authors: Tong Zheng, Hongming Zhang, Wenhao Yu, Xiaoyang Wang, Xinyu Yang, Runpeng Dai, Rui Liu, Huiwen Bao, Chengsong Hua...

Visual Representation Alignment for Multimodal Large Language Models

Episode 1128 · September 10, 2025 · 26:13

🤗 Upvotes: 54 | cs.CV Authors: Heeji Yoon, Jaewoo Jung, Junwan Kim, Hyungyu Choi, Heeseong Shin, Sangbeom Lim, Honggyu An, Chaehyun Kim, Jisang ...

Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

Episode 1127 · September 10, 2025 · 21:52

🤗 Upvotes: 45 | cs.CV, cs.AI, cs.CL Authors: Xin Lai, Junyi Li, Wei Li, Tao Liu, Tianjian Li, Hengshuang Zhao Title: Mi...

Reconstruction Alignment Improves Unified Multimodal Models

Episode 1126 · September 10, 2025 · 24:13

🤗 Upvotes: 31 | cs.CV, cs.AI, cs.LG Authors: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang Title: Reconstructio...

UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

Episode 1125 · September 10, 2025 · 23:02

🤗 Upvotes: 24 | cs.CV, cs.LG Authors: Yufeng Cheng, Wenxu Wu, Shaojin Wu, Mengqi Huang, Fei Ding, Qian He Title: UMO: S...

Reverse-Engineered Reasoning for Open-Ended Generation

Episode 1124 · September 9, 2025 · 12:24

🤗 Upvotes: 107 | cs.AI, cs.CL Authors: Haozhe Wang, Haoran Que, Qixin Xu, Minghao Liu, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Wei Ye, Ton...

Does DINOv3 Set a New Medical Vision Standard?

Episode 1123 · September 9, 2025 · 10:46

🤗 Upvotes: 28 | cs.CV Authors: Che Liu, Yinda Chen, Haoyuan Shi, Jinpeng Lu, Bailiang Jian, Jiazhen Pan, Linghan Cai, Jiayi Wang, Yundi Zhang, J...

Symbolic Graphics Programming with Large Language Models

Episode 1122 · September 8, 2025 · 13:57

🤗 Upvotes: 31 | cs.CV, cs.LG Authors: Yamei Chen, Haoquan Zhang, Yangyi Huang, Zeju Qiu, Kaipeng Zhang, Yandong Wen, Weiyang Liu Ti...

Set Block Decoding is a Language Model Inference Accelerator

Episode 1121 · September 8, 2025 · 16:21

🤗 Upvotes: 31 | cs.LG Authors: Itai Gat, Heli Ben-Hamu, Marton Havasi, Daniel Haziza, Jeremy Reizenstein, Gabriel Synnaeve, David Lopez-Paz, Bri...

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Episode 1120 · September 5, 2025 · 22:57

🤗 Upvotes: 100 | cs.CL Authors: Yang Wang, Chenghao Xiao, Chia-Yi Hsiao, Zi Yan Chang, Chi-Li Chen, Tyler Loakman, Chenghua Lin Tit...

From Editor to Dense Geometry Estimator

Episode 1119 · September 5, 2025 · 18:45

🤗 Upvotes: 63 | cs.CV, cs.AI Authors: JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao...

Towards a Unified View of Large Language Model Post-Training

Episode 1118 · September 5, 2025 · 23:07

🤗 Upvotes: 42 | cs.LG, cs.AI, cs.CL Authors: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Ka...