The Pond

Search

About me
My research
Random post
All posts
Open source
Subscribe

Tag: activation engineering

12 items with this tag.

11/6/2025
Consistency Training Helps Stop Sycophancy and Jailbreaks
1/30/2025
Steering Gemini Using BIDPO Vectors
12/4/2024
Deep Causal Transcoding: A Framework for Mechanistically Eliciting Latent Behaviors in Language Models
7/15/2024
I Found >800 Orthogonal “Write Code” Steering Vectors
4/30/2024
Mechanistically Eliciting Latent Behaviors in Language Models
1/2/2024
Steering Llama-2 with Contrastive Activation Additions
10/13/2023
Paper: Understanding and Controlling a Maze-Solving Policy Network
9/6/2023
ActAdd: Steering Language Models without Optimization
- activation engineering
- AI
7/24/2023
Open Problems in Activation Engineering
- activation engineering
- AI
5/13/2023
Steering GPT-2-XL by Adding an Activation Vector
3/31/2023
Maze-Solving Agents: Add a Top-Right Vector, Make the Agent Go to the Top-Right
3/11/2023
Understanding and Controlling a Maze-Solving Policy Network