Search

Research
Publications
People
Media
Events
Vacancies
Contact

Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders

L. Marks, A. Paren, D. Krueger, F. Barez

November 2024

Type

Publication

arXiv:2411.01220

Interpretability

Technical Safety & Governance Lab

Department of Engineering Science
University of Oxford

Contact

Department of Engineering Science
Parks Road, Oxford OX1 3PJ

Legal Privacy Policy Cookie Policy

© 2026 Technical Safety & Governance Lab, University of Oxford

Cite