Daily Paper Cast | All Episodes

BitNet a4.8: 4-bit Activations for 1-bit LLMs

Episode 53 · November 8, 2024 · 25:23

🤗 Paper Upvotes: 41 | cs.CL, cs.LG Authors: Hongyu Wang, Shuming Ma, Furu Wei Title: BitNet a4.8: 4-bit Activations for...

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

Episode 52 · November 8, 2024 · 23:01

🤗 Paper Upvotes: 27 | cs.CV, cs.AI, cs.GR Authors: Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang ...

Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

Episode 51 · November 8, 2024 · 24:52

🤗 Paper Upvotes: 25 | cs.CL Authors: Weixin Liang, Lili Yu, Liang Luo, Srinivasan Iyer, Ning Dong, Chunting Zhou, Gargi Ghosh, Mike Lewis, Wen-t...

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Episode 50 · November 8, 2024 · 24:39

🤗 Paper Upvotes: 20 | cs.CV Authors: Wenhao Wang, Yi Yang Title: TIP-I2V: A Million-Scale Real Text and Image Prompt Da...

Thanos: Enhancing Conversational Agents with Skill-of-Mind-Infused Large Language Model

Episode 49 · November 8, 2024 · 22:30

🤗 Paper Upvotes: 15 | cs.CL Authors: Young-Jun Lee, Dokyong Lee, Junyoung Youn, Kyeongjin Oh, Ho-Jin Choi Title: Thanos...

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Episode 48 · November 8, 2024 · 22:01

🤗 Paper Upvotes: 14 | cs.CL Authors: Jonathan Roberts, Kai Han, Samuel Albanie Title: Needle Threading: Can LLMs Follow...

DynaMem: Online Dynamic Spatio-Semantic Memory for Open World Mobile Manipulation

Episode 47 · November 8, 2024 · 21:13

🤗 Paper Upvotes: 12 | cs.RO, cs.LG Authors: Peiqi Liu, Zhanqiu Guo, Mohit Warke, Soumith Chintala, Chris Paxton, Nur Muhammad Mahi Shafiullah, L...

VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos

Episode 46 · November 8, 2024 · 27:45

🤗 Paper Upvotes: 12 | cs.CV Authors: Shehan Munasinghe, Hanan Gani, Wenqi Zhu, Jiale Cao, Eric Xing, Fahad Shahbaz Khan, Salman Khan ...

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Episode 45 · November 7, 2024 · 23:53

🤗 Paper Upvotes: 33 | cs.CV, cs.AI, cs.CL, cs.MM Authors: Dingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang Title: ...

Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Episode 44 · November 7, 2024 · 20:13

🤗 Paper Upvotes: 26 | cs.LG, cs.AI Authors: Antoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hame...

Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Episode 43 · November 7, 2024 · 23:19

🤗 Paper Upvotes: 10 | cs.CL, cs.AI, cs.LG Authors: Zhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma Title: ...

Self-Consistency Preference Optimization

Episode 42 · November 7, 2024 · 20:41

🤗 Paper Upvotes: 5 | cs.CL, cs.AI, cs.LG Authors: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal...

From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Episode 41 · November 7, 2024 · 17:13

🤗 Paper Upvotes: 3 | cs.CL Authors: Harsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz...

HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

Episode 40 · November 6, 2024 · 21:04

🤗 Paper Upvotes: 34 | cs.IR Authors: Jiejun Tan, Zhicheng Dou, Wen Wang, Mang Wang, Weipeng Chen, Ji-Rong Wen Title: Ht...

LLaMo: Large Language Model-based Molecular Graph Assistant

Episode 39 · November 6, 2024 · 24:53

🤗 Paper Upvotes: 13 | cs.LG, cs.AI, q-bio.MN Authors: Jinyoung Park, Minseong Bae, Dohwan Ko, Hyunwoo J. Kim Title: LLa...

DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution

Episode 38 · November 6, 2024 · 19:06

🤗 Paper Upvotes: 10 | cs.RO, cs.AI, cs.LG Authors: Yang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Hua...

Controlling Language and Diffusion Models by Transporting Activations

Episode 37 · November 6, 2024 · 22:46

🤗 Paper Upvotes: 8 | cs.LG, cs.AI, cs.CL, cs.CV, 68T07, 49Q22, I.2.6; I.2.7; I.4.8 Authors: Pau Rodriguez, Arno Blaas, Michal Klein, Luca Zappel...

Sample-Efficient Alignment for LLMs

Episode 36 · November 6, 2024 · 21:03

🤗 Paper Upvotes: 8 | cs.LG, cs.AI, cs.CL Authors: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin Title: Sample...

DreamPolish: Domain Score Distillation With Progressive Geometry Generation

Episode 35 · November 6, 2024 · 18:07

🤗 Paper Upvotes: 6 | cs.CV, cs.AI Authors: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi ...

Adaptive Length Image Tokenization via Recurrent Allocation

Episode 34 · November 6, 2024 · 21:08

🤗 Paper Upvotes: 4 | cs.CV, cs.AI, cs.LG, cs.RO Authors: Shivam Duggal, Phillip Isola, Antonio Torralba, William T. Freeman Title: ...

GarVerseLOD: High-Fidelity 3D Garment Reconstruction from a Single In-the-Wild Image using a Dataset with Levels of Details

Episode 33 · November 6, 2024 · 19:08

🤗 Paper Upvotes: 3 | cs.CV, cs.GR Authors: Zhongjin Luo, Haolin Liu, Chenghong Li, Wanghao Du, Zirong Jin, Wanhu Sun, Yinyu Nie, Weikai Chen, Xi...

Zebra-Llama: A Context-Aware Large Language Model for Democratizing Rare Disease Knowledge

Episode 32 · November 6, 2024 · 25:57

🤗 Paper Upvotes: 3 | cs.CL Authors: Karthik Soman, Andrew Langdon, Catalina Villouta, Chinmay Agrawal, Lashaw Salta, Braian Peetoom, Gianmarco B...

Inference Optimal VLMs Need Only One Visual Token but Larger Models

Episode 31 · November 6, 2024 · 22:08

🤗 Paper Upvotes: 2 | cs.CV, cs.AI, cs.LG Authors: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter Title: Infe...

AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents

Episode 30 · November 5, 2024 · 22:48

🤗 Paper Upvotes: 40 | cs.AI Authors: Yifan Xu, Xiao Liu, Xueqiao Sun, Siyi Cheng, Hao Yu, Hanyu Lai, Shudan Zhang, Dan Zhang, Jie Tang, Yuxiao D...

"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

Episode 29 · November 5, 2024 · 24:54

🤗 Paper Upvotes: 28 | cs.LG, cs.AI Authors: Eldar Kurtic, Alexandre Marques, Shubhra Pandit, Mark Kurtz, Dan Alistarh Title: ...

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Episode 28 · November 5, 2024 · 22:09

🤗 Paper Upvotes: 25 | cs.CL Authors: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, ...

MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D

Episode 27 · November 5, 2024 · 21:18

🤗 Paper Upvotes: 20 | cs.CV Authors: Wei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei ...

Training-free Regional Prompting for Diffusion Transformers

Episode 26 · November 5, 2024 · 17:11

🤗 Paper Upvotes: 19 | cs.CV Authors: Anthony Chen, Jianjin Xu, Wenzhao Zheng, Gaole Dai, Yida Wang, Renrui Zhang, Haofan Wang, Shanghang Zhang ...

How Far is Video Generation from World Model: A Physical Law Perspective

Episode 25 · November 5, 2024 · 23:13

🤗 Paper Upvotes: 19 | cs.CV, cs.AI Authors: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng ...

Survey of Cultural Awareness in Language Models: Text and Beyond

Episode 24 · November 5, 2024 · 23:43

🤗 Paper Upvotes: 19 | cs.CL, cs.CV Authors: Siddhesh Pawar, Junyeong Park, Jiho Jin, Arnav Arora, Junho Myung, Srishti Yadav, Faiz Ghifari Hazni...