Daily Paper Cast | All Episodes

Smaller Language Models Are Better Instruction Evolvers

Episode 227 · December 17, 2024 · 23:17

🤗 Upvotes: 16 | cs.CL Authors: Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su Title: Smaller Lang...

Causal Diffusion Transformers for Generative Modeling

Episode 226 · December 17, 2024 · 23:47

🤗 Upvotes: 16 | cs.CV Authors: Chaorui Deng, Deyao Zhu, Kunchang Li, Shi Guang, Haoqi Fan Title: Causal Diffusion Trans...

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Episode 225 · December 17, 2024 · 23:05

🤗 Upvotes: 11 | cs.CL, cs.AI, cs.LG Authors: Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongni...

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Episode 224 · December 17, 2024 · 20:29

🤗 Upvotes: 11 | cs.CV Authors: Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin Title: IDArb: Intri...

GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Episode 223 · December 17, 2024 · 21:15

🤗 Upvotes: 10 | cs.RO, cs.AI, cs.CV Authors: Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, S...

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Episode 222 · December 16, 2024 · 24:59

🤗 Upvotes: 91 | cs.CV, cs.AI Authors: Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofa...

GenEx: Generating an Explorable World

Episode 221 · December 16, 2024 · 21:28

🤗 Upvotes: 65 | cs.CV, cs.RO Authors: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama ...

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Episode 220 · December 16, 2024 · 25:15

🤗 Upvotes: 29 | cs.CV Authors: Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, L...

BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Episode 219 · December 16, 2024 · 17:46

🤗 Upvotes: 24 | cs.CV Authors: Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Ald...

Large Action Models: From Inception to Implementation

Episode 218 · December 16, 2024 · 22:15

🤗 Upvotes: 23 | cs.AI Authors: Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qis...

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

Episode 217 · December 16, 2024 · 21:01

🤗 Upvotes: 17 | cs.CV, cs.AI Authors: Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai ...

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

Episode 216 · December 16, 2024 · 21:32

🤗 Upvotes: 13 | cs.CV Authors: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu ...

ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

Episode 215 · December 16, 2024 · 21:41

🤗 Upvotes: 10 | cs.CV Authors: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen Title: ...

FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing

Episode 214 · December 16, 2024 · 21:47

🤗 Upvotes: 8 | cs.CV Authors: Yingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang Title: FireFlow: Fast In...

FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Episode 213 · December 16, 2024 · 18:48

🤗 Upvotes: 7 | cs.CV Authors: Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag Title: FluxSpace: Disentangled Semantic Edi...

Phi-4 Technical Report

Episode 212 · December 13, 2024 · 22:12

🤗 Upvotes: 40 | cs.CL, cs.AI Authors: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison...

Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Episode 211 · December 13, 2024 · 24:28

🤗 Upvotes: 30 | cs.CV, cs.AI, cs.CL Authors: Jiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger Title: Euc...

Multimodal Latent Language Modeling with Next-Token Diffusion

Episode 210 · December 13, 2024 · 22:35

🤗 Upvotes: 21 | cs.CL, cs.CV, cs.LG Authors: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei ...

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Episode 209 · December 13, 2024 · 21:54

🤗 Upvotes: 17 | cs.CV Authors: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li T...

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Episode 208 · December 13, 2024 · 18:51

🤗 Upvotes: 16 | cs.CL Authors: Yiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu Title:...

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

Episode 207 · December 13, 2024 · 19:08

🤗 Upvotes: 14 | cs.CV Authors: Dongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri,...

Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

Episode 206 · December 13, 2024 · 22:37

🤗 Upvotes: 13 | cs.CV Authors: Zexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu Title: Neural LightRig: Unlock...

JuStRank: Benchmarking LLM Judges for System Ranking

Episode 205 · December 13, 2024 · 21:10

🤗 Upvotes: 9 | cs.CL, cs.AI, cs.LG Authors: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai Title:...

SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints

Episode 204 · December 12, 2024 · 21:09

🤗 Upvotes: 36 | cs.CV Authors: Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Xiao Fu, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang ...

LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

Episode 203 · December 12, 2024 · 21:28

🤗 Upvotes: 28 | cs.CV Authors: Zejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhi...

POINTS1.5: Building a Vision-Language Model towards Real World Applications

Episode 202 · December 12, 2024 · 24:23

🤗 Upvotes: 25 | cs.CV, cs.MM Authors: Yuan Liu, Le Tian, Xiao Zhou, Xinyu Gao, Kavio Yu, Yang Yu, Jie Zhou Title: POINT...

Learning Flow Fields in Attention for Controllable Person Image Generation

Episode 201 · December 12, 2024 · 21:04

🤗 Upvotes: 16 | cs.CV Authors: Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manue...

StyleMaster: Stylize Your Video with Artistic Generation and Translation

Episode 200 · December 12, 2024 · 23:20

🤗 Upvotes: 14 | cs.CV Authors: Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo Title: StyleMas...

StreamChat: Chatting with Streaming Video

Episode 199 · December 12, 2024 · 19:44

🤗 Upvotes: 12 | cs.CV Authors: Jihao Liu, Zhiding Yu, Shiyi Lan, Shihao Wang, Rongyao Fang, Jan Kautz, Hongsheng Li, Jose M. Alvare ...

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

Episode 198 · December 12, 2024 · 25:04

🤗 Upvotes: 11 | cs.CV Authors: Wufei Ma, Haoyu Chen, Guofeng Zhang, Celso M de Melo, Alan Yuille, Jieneng Chen Title: 3...