Daily Paper Cast | All Episodes

Learning Flow Fields in Attention for Controllable Person Image Generation

Episode 201 · December 12, 2024 · 21:04

🤗 Upvotes: 16 | cs.CV Authors: Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manue...

StyleMaster: Stylize Your Video with Artistic Generation and Translation

Episode 200 · December 12, 2024 · 23:20

🤗 Upvotes: 14 | cs.CV Authors: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo Title: StyleMas...

StreamChat: Chatting with Streaming Video

Episode 199 · December 12, 2024 · 19:44

🤗 Upvotes: 12 | cs.CV Authors: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare ...

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

Episode 198 · December 12, 2024 · 25:04

🤗 Upvotes: 11 | cs.CV Authors: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen Title: 3...

Generative Densification: Learning to Densify Gaussians for High-Fidelity Generalizable 3D Reconstruction

Episode 197 · December 12, 2024 · 22:43

🤗 Upvotes: 11 | cs.CV, cs.GR Authors: Seungtae Nam, Xiangyu Sun, Gyeongjin Kang, Younggeun Lee, Seungjun Oh, Eunbyung Park Title: ...

The BrowserGym Ecosystem for Web Agent Research

Episode 196 · December 12, 2024 · 25:16

🤗 Upvotes: 11 | cs.LG, cs.AI, cs.SE Authors: Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Léo Boisvert, Meg...

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

Episode 195 · December 11, 2024 · 22:09

🤗 Upvotes: 31 | cs.CV Authors: Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, Yunhai Tong Title: DiffS...

Hidden in the Noise: Two-Stage Robust Watermarking for Images

Episode 194 · December 11, 2024 · 21:29

🤗 Upvotes: 20 | cs.CV, cs.AI, cs.LG Authors: Kasra Arabi, Benjamin Feuer, R. Teal Witter, Chinmay Hegde, Niv Cohen Title: ...

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

Episode 193 · December 11, 2024 · 19:48

🤗 Upvotes: 19 | cs.CV Authors: Tong Wu, Yinghao Xu, Ryan Po, Mengchen Zhang, Guandao Yang, Jiaqi Wang, Ziwei Liu, Dahua Lin, Gordon Wetzstein ...

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

Episode 192 · December 11, 2024 · 23:56

🤗 Upvotes: 18 | cs.CV Authors: Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin...

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

Episode 191 · December 11, 2024 · 23:46

🤗 Upvotes: 17 | cs.CV Authors: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin...

Mobile Video Diffusion

Episode 190 · December 11, 2024 · 24:39

🤗 Upvotes: 16 | cs.CV, cs.AI Authors: Haitam Ben Yahia, Denis Korzhenkov, Ioannis Lelekas, Amir Ghodrati, Amirhossein Habibian Titl...

Granite Guardian

Episode 189 · December 11, 2024 · 21:00

🤗 Upvotes: 16 | cs.CL Authors: Inkit Padhi, Manish Nagireddy, Giandomenico Cornacchia, Subhajit Chaudhury, Tejaswini Pedapati, Pierre Dognin, Ke...

Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Episode 188 · December 10, 2024 · 18:54

🤗 Upvotes: 54 | cs.LG, cs.AI Authors: Egor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov Title: ...

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Episode 187 · December 10, 2024 · 21:22

🤗 Upvotes: 38 | cs.AI, cs.CL, cs.LG Authors: Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zh...

Training Large Language Models to Reason in a Continuous Latent Space

Episode 186 · December 10, 2024 · 22:02

🤗 Upvotes: 25 | cs.CL Authors: Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian Title: ...

Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Episode 185 · December 10, 2024 · 23:51

🤗 Upvotes: 10 | cs.CV Authors: Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan Title: Divot: Diffusion Powers Video Tokenize...

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Episode 184 · December 10, 2024 · 22:19

🤗 Upvotes: 9 | cs.CV, cs.LG Authors: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu Title: Around the Wo...

Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Episode 183 · December 10, 2024 · 22:31

🤗 Upvotes: 8 | cs.CV, cs.CL, cs.LG Authors: Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan Title: ...

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Episode 182 · December 10, 2024 · 19:54

🤗 Upvotes: 7 | cs.CV Authors: Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang Title: ...

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Episode 181 · December 10, 2024 · 20:24

🤗 Upvotes: 7 | cs.CV, cs.AI, cs.IR Authors: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man ...

Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Episode 180 · December 10, 2024 · 17:59

🤗 Upvotes: 5 | cs.AI Authors: Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li Title: Robust Multi-bit Text Wat...

MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Episode 179 · December 10, 2024 · 22:08

🤗 Upvotes: 4 | cs.CV, cs.GR Authors: Antoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino Title: MAtCha Gaussia...

LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

Episode 178 · December 9, 2024 · 20:24

🤗 Upvotes: 33 | cs.CV Authors: Yibin Wang, Zhiyu Tan, Junyan Wang, Xiaomeng Yang, Cheng Jin, Hao Li Title: LiFT: Levera...

EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

Episode 177 · December 9, 2024 · 22:00

🤗 Upvotes: 31 | cs.CL Authors: LG AI Research, Soyoung An, Kyunghoon Bae, Eunbi Choi, Kibong Choi, Stanley Jungkyu Choi, Seokhee Hong, Junwon Hw...

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Episode 176 · December 9, 2024 · 21:58

🤗 Upvotes: 30 | cs.CL, cs.CV Authors: Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, Xian...

APOLLO: SGD-like Memory, AdamW-level Performance

Episode 175 · December 9, 2024 · 19:44

🤗 Upvotes: 27 | cs.LG, cs.AI, cs.PF Authors: Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Z. Pan, Zha...

SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

Episode 174 · December 9, 2024 · 20:09

🤗 Upvotes: 19 | cs.CV Authors: Trong-Tung Nguyen, Quang Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham Title: SwiftEdit: Lig...

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Episode 173 · December 9, 2024 · 20:18

🤗 Upvotes: 18 | cs.RO, cs.AI, cs.CL, cs.CV, cs.LG Authors: Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu ...

GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration

Episode 172 · December 9, 2024 · 22:51

🤗 Upvotes: 13 | cs.CV Authors: Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu Title: GenMAC: Comp...