Daily Paper Cast | All Episodes

Personalized Graph-Based Retrieval for Large Language Models

Episode 343 · January 7, 2025 · 21:16

🤗 Upvotes: 19 | cs.CL Authors: Steven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakar...

METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Episode 342 · January 7, 2025 · 21:38

🤗 Upvotes: 13 | q-bio.GN, cs.AI, cs.CL, cs.LG Authors: Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman...

GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Episode 341 · January 7, 2025 · 22:25

🤗 Upvotes: 12 | cs.CV Authors: Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li Title: GS-...

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Episode 340 · January 7, 2025 · 22:15

🤗 Upvotes: 12 | cs.CV, cs.AI, cs.LG Authors: Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam...

TransPixar: Advancing Text-to-Video Generation with Transparency

Episode 339 · January 7, 2025 · 22:45

🤗 Upvotes: 9 | cs.CV Authors: Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen T...

AutoPresent: Designing Structured Visuals from Scratch

Episode 338 · January 7, 2025 · 19:20

🤗 Upvotes: 7 | cs.CV, cs.CL Authors: Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Su...

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Episode 337 · January 6, 2025 · 24:44

🤗 Upvotes: 41 | cs.RO, cs.CV, cs.LG Authors: Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongshe...

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

Episode 336 · January 6, 2025 · 20:37

🤗 Upvotes: 23 | cs.CV, cs.SD, eess.AS Authors: Chaoyou Fu, Haojia Lin, Xiong Wang, Yi-Fan Zhang, Yunhang Shen, Xiaoyu Liu, Yangze Li, Zuwei Long...

VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation

Episode 335 · January 6, 2025 · 23:02

🤗 Upvotes: 12 | cs.CV Authors: Jiazheng Xu, Yu Huang, Jiale Cheng, Yuanming Yang, Jiajun Xu, Yuan Wang, Wenbo Duan, Shen Yang, Qunlin Jin, Shuru...

Virgo: A Preliminary Exploration on Reproducing o1-like MLLM

Episode 334 · January 6, 2025 · 22:38

🤗 Upvotes: 12 | cs.CV, cs.AI Authors: Yifan Du, Zikang Liu, Yifan Li, Wayne Xin Zhao, Yuqi Huo, Bingning Wang, Weipeng Chen, Zheng Liu, Zhongyua...

SDPO: Segment-Level Direct Preference Optimization for Social Agents

Episode 333 · January 6, 2025 · 19:44

🤗 Upvotes: 10 | cs.AI, cs.CL Authors: Aobo Kong, Wentao Ma, Shiwan Zhao, Yongbin Li, Yuchuan Wu, Ke Wang, Xiaoqian Liu, Qicheng Li, Yong Qin, Fe...

Graph Generative Pre-trained Transformer

Episode 332 · January 6, 2025 · 20:24

🤗 Upvotes: 9 | cs.LG, cs.AI Authors: Xiaohui Chen, Yinkai Wang, Jiaxing He, Yuanqi Du, Soha Hassoun, Xiaolin Xu, Li-Ping Liu Title:...

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

Episode 331 · January 6, 2025 · 23:14

🤗 Upvotes: 7 | cs.CL, cs.IR Authors: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen T...

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

Episode 330 · January 6, 2025 · 25:56

🤗 Upvotes: 5 | cs.LG, cs.AI Authors: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman ...

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Episode 329 · January 3, 2025 · 23:53

🤗 Upvotes: 45 | cs.CV, cs.CL, cs.LG Authors: Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang...

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Episode 328 · January 3, 2025 · 23:32

🤗 Upvotes: 30 | cs.CL Authors: Shanghaoran Quan, Jiaxi Yang, Bowen Yu, Bo Zheng, Dayiheng Liu, An Yang, Xuancheng Ren, Bofei Gao, Yibo Miao, Yun...

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

Episode 327 · January 3, 2025 · 19:15

🤗 Upvotes: 30 | cs.CV Authors: Yuanpeng Tu, Hao Luo, Xi Chen, Sihui Ji, Xiang Bai, Hengshuang Zhao Title: VideoAnydoor:...

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Episode 326 · January 3, 2025 · 24:49

🤗 Upvotes: 25 | cs.CV, cs.LG Authors: Jingfeng Yao, Xinggang Wang Title: Reconstruction vs. Generation: Taming Optimiza...

ProgCo: Program Helps Self-Correction of Large Language Models

Episode 325 · January 3, 2025 · 20:19

🤗 Upvotes: 17 | cs.CL, cs.AI, cs.LG Authors: Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng Title: ...

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

Episode 324 · January 3, 2025 · 25:32

🤗 Upvotes: 16 | cs.CL Authors: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, M...

A3: Android Agent Arena for Mobile GUI Agents

Episode 323 · January 3, 2025 · 23:35

🤗 Upvotes: 15 | cs.AI Authors: Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li ...

MLLM-as-a-Judge for Image Safety without Human Labeling

Episode 322 · January 3, 2025 · 22:20

🤗 Upvotes: 14 | cs.CV, cs.CL, cs.CY, cs.LG Authors: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han,...

Dynamic Scaling of Unit Tests for Code Reward Modeling

Episode 321 · January 3, 2025 · 21:52

🤗 Upvotes: 13 | cs.CL, cs.SE Authors: Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang Title: Dynami...

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

Episode 320 · January 2, 2025 · 22:38

🤗 Upvotes: 52 | cs.AI, cs.CL, cs.CV, cs.HC Authors: Qiushi Sun, Kanzhi Cheng, Zichen Ding, Chuanyang Jin, Yian Wang, Fangzhi Xu, Zhenyu Wu, Chen...

Xmodel-2 Technical Report

Episode 319 · January 2, 2025 · 17:16

🤗 Upvotes: 13 | cs.AI Authors: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling Title: Xmodel-2 Technical Report...

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

Episode 318 · January 2, 2025 · 24:50

🤗 Upvotes: 9 | cs.CV Authors: Sangyun Chung, Youngjoon Yu, Youngchae Chee, Se Yeon Kim, Byung-Kwan Lee, Yong Man Ro Title: ...

HUNYUANPROVER: A Scalable Data Synthesis Framework and Guided Tree Search for Automated Theorem Proving

Episode 317 · January 2, 2025 · 20:48

🤗 Upvotes: 4 | cs.AI, cs.CL Authors: Yang Li, Dong Du, Linfeng Song, Chen Li, Weikang Wang, Tao Yang, Haitao Mi Title: ...

VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control

Episode 316 · January 2, 2025 · 22:06

🤗 Upvotes: 2 | cs.CV Authors: Shaojin Wu, Fei Ding, Mengqi Huang, Wei Liu, Qian He Title: VMix: Improving Text-to-Image...

Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Episode 315 · January 1, 2025 · 20:07

🤗 Upvotes: 13 | cs.CL Authors: Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhu...

OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Episode 314 · January 1, 2025 · 18:53

🤗 Upvotes: 11 | cs.CL, cs.AI, cs.DB, cs.IR, cs.LG Authors: Yujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang,...