Interpreting Learned Feedback Patterns in Large Language Models

L. Marks*, A. Abdullah*, C. Neo, R. Arike, D. Krueger, P. Torr, F. Barez*

December 2024

Type

Conference paper

Publication

NeurIPS 2024

Interpretability NeurIPS