PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

T. Fu*, M. Sharma, P. Torr, S. B. Cohen, D. Krueger, F. Barez*

July 2025

Type

Conference paper

Publication

ICML 2025

Safety & Alignment ICML