Daily Paper Cast | All Episodes

WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training

Episode 460 · January 31, 2025 · 20:15

🤗 Upvotes: 10 | cs.LG, cs.CL Authors: Benjamin Feuer, Chinmay Hegde Title: WILDCHAT-50M: A Deep Dive Into the Role of S...

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

Episode 459 · January 31, 2025 · 24:32

🤗 Upvotes: 10 | cs.CV, cs.AI, cs.CL, cs.LG, cs.RO Authors: Wei Chow, Jiageng Mao, Boyi Li, Daniel Seita, Vitor Guizilini, Yue Wang ...

o3-mini vs DeepSeek-R1: Which One is Safer?

Episode 458 · January 31, 2025 · 20:01

🤗 Upvotes: 6 | cs.SE, cs.AI Authors: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura Title: ...

CowPilot: A Framework for Autonomous and Human-Agent Collaborative Web Navigation

Episode 457 · January 31, 2025 · 21:14

🤗 Upvotes: 1 | cs.AI, cs.CL, cs.HC Authors: Faria Huq, Zora Zhiruo Wang, Frank F. Xu, Tianyue Ou, Shuyan Zhou, Jeffrey P. Bigham, Graham Neubig ...

Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

Episode 456 · January 30, 2025 · 22:30

🤗 Upvotes: 28 | cs.CL Authors: Yubo Wang, Xiang Yue, Wenhu Chen Title: Critique Fine-Tuning: Learning to Critique is Mo...

Atla Selene Mini: A General Purpose Evaluation Model

Episode 455 · January 30, 2025 · 25:28

🤗 Upvotes: 24 | cs.CL, cs.AI Authors: Andrei Alexandru, Antonia Calvi, Henry Broomfield, Jackson Golden, Kyle Dai, Mathias Leys, Maurice Burger,...

Exploring the sustainable scaling of AI dilemma: A projective study of corporations' AI environmental impacts

Episode 454 · January 30, 2025 · 28:39

🤗 Upvotes: 14 | cs.AI, cs.CY, cs.LG Authors: Clément Desroches, Martin Chauvin, Louis Ladan, Caroline Vateau, Simon Gosset, Philippe Cordier ...

Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

Episode 453 · January 30, 2025 · 22:03

🤗 Upvotes: 8 | cs.SE, cs.AI Authors: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura Title: ...

Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks

Episode 452 · January 30, 2025 · 22:14

🤗 Upvotes: 8 | cs.CV Authors: Hailong Guo, Bohan Zeng, Yiren Song, Wentao Zhang, Chuang Zhang, Jiaming Liu Title: Any2A...

Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation

Episode 451 · January 30, 2025 · 21:44

🤗 Upvotes: 6 | cs.CR, cs.AI, cs.CL, cs.LG Authors: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu Title: ...

People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Episode 450 · January 30, 2025 · 19:42

🤗 Upvotes: 6 | cs.CL, cs.AI Authors: Jenna Russell, Marzena Karpinska, Mohit Iyyer Title: People who frequently use Cha...

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Episode 449 · January 29, 2025 · 23:17

🤗 Upvotes: 29 | cs.AI, cs.CV, cs.LG Authors: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, S...

Optimizing Large Language Model Training Using FP4 Quantization

Episode 448 · January 29, 2025 · 22:09

🤗 Upvotes: 15 | cs.LG, cs.CL Authors: Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng ...

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Episode 447 · January 29, 2025 · 23:00

🤗 Upvotes: 11 | cs.CV Authors: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu Title: DiffSplat: Repurpos...

Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Episode 446 · January 29, 2025 · 23:23

🤗 Upvotes: 10 | cs.CL, cs.LG Authors: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou Title: ...

Open Problems in Mechanistic Interpretability

Episode 445 · January 29, 2025 · 25:48

🤗 Upvotes: 10 | cs.LG Authors: Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefa...

Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Episode 444 · January 29, 2025 · 22:26

🤗 Upvotes: 5 | cs.LG, cs.AI, cs.CL Authors: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain Title: Low-Rank Adapters Meet Neur...

IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Episode 443 · January 29, 2025 · 20:02

🤗 Upvotes: 4 | cs.CL, cs.AI Authors: Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri ...

Histoires Morales: A French Dataset for Assessing Moral Alignment

Episode 442 · January 29, 2025 · 20:44

🤗 Upvotes: 3 | cs.CL, cs.AI Authors: Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Chris...

Qwen2.5-1M Technical Report

Episode 441 · January 28, 2025 · 24:17

🤗 Upvotes: 26 | cs.CL Authors: An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhan...

ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

Episode 440 · January 28, 2025 · 20:45

🤗 Upvotes: 13 | cs.CL Authors: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao Title: ARWKV: Pretrain is not what we need, a...

Towards General-Purpose Model-Free Reinforcement Learning

Episode 439 · January 28, 2025 · 20:53

🤗 Upvotes: 13 | cs.LG, cs.AI Authors: Scott Fujimoto, Pierluca D'Oro, Amy Zhang, Yuandong Tian, Michael Rabbat Title: T...

Emilia: A Large-Scale, Extensive, Multilingual, and Diverse Dataset for Speech Generation

Episode 438 · January 28, 2025 · 22:02

🤗 Upvotes: 11 | cs.SD, cs.CL, eess.AS Authors: Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, J...

iFormer: Integrating ConvNet and Transformer for Mobile Application

Episode 437 · January 28, 2025 · 24:01

🤗 Upvotes: 9 | cs.CV, cs.AI Authors: Chuanyang Zheng Title: iFormer: Integrating ConvNet and Transformer for Mobile App...

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

Episode 436 · January 28, 2025 · 24:59

🤗 Upvotes: 7 | cs.CV, cs.AI, cs.LG, q-bio.NC Authors: Paul Gavrikov, Jovita Lukasik, Steffen Jung, Robert Geirhos, Bianca Lamm, Muhammad Jehanze...

CodeMonkeys: Scaling Test-Time Compute for Software Engineering

Episode 435 · January 28, 2025 · 23:04

🤗 Upvotes: 5 | cs.LG Authors: Ryan Ehrlich, Bradley Brown, Jordan Juravsky, Ronald Clark, Christopher Ré, Azalia Mirhoseini Title: ...

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

Episode 434 · January 28, 2025 · 21:21

🤗 Upvotes: 4 | cs.LG, cs.AI Authors: Samira Abnar, Harshay Shah, Dan Busbridge, Alaaeldin Mohamed Elnouby Ali, Josh Susskind, Vimal Thilak ...

Humanity's Last Exam

Episode 433 · January 27, 2025 · 22:51

🤗 Upvotes: 33 | cs.LG, cs.AI, cs.CL Authors: Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, ...

Chain-of-Retrieval Augmented Generation

Episode 432 · January 27, 2025 · 23:23

🤗 Upvotes: 26 | cs.IR, cs.CL Authors: Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei Title: ...

Redundancy Principles for MLLMs Benchmarks

Episode 431 · January 27, 2025 · 22:20

🤗 Upvotes: 22 | cs.CL, cs.AI Authors: Zicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Gu...