P. Torr | TSG Lab – Technical Safety & Governance Lab

P. Torr | TSG Lab – Technical Safety & Governance Labhttps://tsglab.github.io/author/p.-torr/P. TorrHugo Blox Builder (https://hugoblox.com)en-usWed, 01 Oct 2025 00:00:00 +0000https://tsglab.github.io/media/logo.svgP. Torrhttps://tsglab.github.io/author/p.-torr/Rethinking Safety in LLM Fine-Tuning: An Optimization Perspectivehttps://tsglab.github.io/publication/rethinking-safety-llm-finetuning/Wed, 01 Oct 2025 00:00:00 +0000https://tsglab.github.io/publication/rethinking-safety-llm-finetuning/Beyond Linear Probes: Dynamic Safety Monitoring for Language Modelshttps://tsglab.github.io/publication/dynamic-safety-monitoring-linear-probes/Mon, 01 Sep 2025 00:00:00 +0000https://tsglab.github.io/publication/dynamic-safety-monitoring-linear-probes/Do Sparse Autoencoders Generalize? A Case Study of Answerabilityhttps://tsglab.github.io/publication/sparse-autoencoders-generalize-answerability/Tue, 01 Jul 2025 00:00:00 +0000https://tsglab.github.io/publication/sparse-autoencoders-generalize-answerability/PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoninghttps://tsglab.github.io/publication/poisonbench/Tue, 01 Jul 2025 00:00:00 +0000https://tsglab.github.io/publication/poisonbench/Towards Interpreting Visual Information Processing in Vision-Language Modelshttps://tsglab.github.io/publication/visual-information-processing-vlms/Tue, 01 Apr 2025 00:00:00 +0000https://tsglab.github.io/publication/visual-information-processing-vlms/Open Problems in Machine Unlearning for AI Safetyhttps://tsglab.github.io/publication/open-problems-machine-unlearning/Wed, 01 Jan 2025 00:00:00 +0000https://tsglab.github.io/publication/open-problems-machine-unlearning/Toward Resisting AI-Enabled Authoritarianismhttps://tsglab.github.io/publication/resisting-ai-authoritarianism/Wed, 01 Jan 2025 00:00:00 +0000https://tsglab.github.io/publication/resisting-ai-authoritarianism/Interpreting Learned Feedback Patterns in Large Language Modelshttps://tsglab.github.io/publication/interpreting-feedback-patterns-llms/Sun, 01 Dec 2024 00:00:00 +0000https://tsglab.github.io/publication/interpreting-feedback-patterns-llms/Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Modelshttps://tsglab.github.io/publication/interpretable-sequence-continuation/Fri, 01 Nov 2024 00:00:00 +0000https://tsglab.github.io/publication/interpretable-sequence-continuation/Quantifying Feature Space Universality Across Large Language Models via Sparse Autoencodershttps://tsglab.github.io/publication/feature-space-universality-sparse-autoencoders/Tue, 01 Oct 2024 00:00:00 +0000https://tsglab.github.io/publication/feature-space-universality-sparse-autoencoders/Measuring Value Alignmenthttps://tsglab.github.io/publication/measuring-value-alignment/Fri, 01 Dec 2023 00:00:00 +0000https://tsglab.github.io/publication/measuring-value-alignment/