Search

Research
Publications
People
Media
Events
Vacancies
Contact

Increasing Trust in Language Models Through the Reuse of Verified Circuits

P. Quirke, C. Neo, F. Barez

February 2024

Type

Publication

arXiv:2402.02619

Interpretability

Technical Safety & Governance Lab

Department of Engineering Science
University of Oxford

Contact

Department of Engineering Science
Parks Road, Oxford OX1 3PJ

Legal Privacy Policy Cookie Policy

© 2026 Technical Safety & Governance Lab, University of Oxford

Cite