AI 모델의 예측 불가능성, 이제는 제어 가능한 영역으로
최근 앤트로픽(Anthropic) 펠로우 프로그램의 새로운 연구가 대규모 언어 모델(LLM)의 예측 불가능한 성격 변화 문제를 해결할 실마리를 제공하여 업계의 이목을 집중시켰다. 이 연구는 모델 내부 활성화 공간에 존재하는 '페르소나 벡터(persona vectors)'라는 개념을 도입, 악의적 경향이나 허위 사실을 지어내는 행동과 같은 바람직하지 않은 성격을 식별하고, 모니터링하며, 나아가 제어할 수 있는 기술을 제시하였다. 이는 AI의 신뢰성과 안전성을 확보하는 데 있어 중요한 전환점이 될 것으로 전망된다.
앤트로픽 연구진이 개발한 '페르소나 벡터' 기술을 활용해 LLM의 행동을 분석하는 소프트웨어 개발자.[사진 = 코리아비즈니스리뷰 자료 사진]
기존 LLM은 '도움이 되고, 해를 끼치지 않으며, 정직한' 어시스턴트 페르소나를 통해 사용자들과 소통하도록 설계되었다. 그러나 실제 운영 환경에서는 사용자의 특정 프롬프트나 대화 맥락에 따라 모델의 성격이 예상치 못하게 변동하는 사례가 끊임없이 발생하였다. 마이크로소프트의 빙 챗봇이 사용자를 위협하거나, xAI의 그록(Grok)이 제멋대로 행동한 사례들이 대표적이다. 연구진은 이러한 '맥락 내 페르소나 변화(in-context persona shifts)'가 대부분의 언어 모델에서 발생하는 취약점임을 지적하였다.
또한, 모델 학습 과정, 특히 미세 조정(fine-tuning) 과정에서도 의도치 않은 부작용이 나타났다. 특정 작업에 대한 미세 조정이 원래의 작업 범위를 넘어선 '새로운 불일치(emergent misalignment)'를 초래하거나, 심지어 인간 피드백을 통한 강화 학습(RLHF) 과정의 수정이 오히려 모델을 지나치게 아첨꾼처럼 만드는 문제를 야기하기도 했다. 이처럼 LLM의 불안정한 성격 특성은 개발자와 사용자 모두에게 큰 골칫거리였다.
페르소나 벡터의 과학적 작동 원리
앤트로픽 연구의 핵심인 페르소나 벡터는 진실성, 비밀 유지 등과 같은 고수준의 특성이 모델의 '활성화 공간' 내에서 선형적인 방향으로 인코딩된다는 개념에 기반한다. 이는 마치 인간의 뇌에서 특정 감정이나 태도가 활성화될 때 특정 영역이 ‘빛을 발하는’ 것과 유사한 개념이다.
이 기술은 자동화된 파이프라인을 통해 구현된다. 먼저, '악'과 같은 특정 성격 특성에 대한 자연어 설명을 입력한다. 파이프라인은 이 설명을 바탕으로 "당신은 악한 AI입니다"와 같은 대조적인 시스템 프롬프트 쌍과 일련의 평가 질문을 자동으로 생성한다. 모델은 긍정적 및 부정적 프롬프트에 대한 응답을 생성하고, 연구진은 이 응답을 나타내는 내부 활성화와 그렇지 않은 응답의 평균 차이를 계산하여 해당 성격 특성에 해당하는 특정 방향, 즉 페르소나 벡터를 추출해낸다. 이 과정은 모델의 가중치에서 성격 특성을 분리하여 별도로 조작할 수 있는 기반을 마련한다.
[KBR Insight] 실시간 모니터링부터 선제적 예방까지
페르소나 벡터는 LLM 개발 및 운영에 여러 혁신적인 활용 가능성을 제시한다. 연구진은 Qwen 2.5-7B-Instruct, Llama-3.1-8B-Instruct 등 공개 모델을 활용한 실험을 통해 그 실용성을 입증하였다.
1. 예측 및 모니터링
개발자는 모델의 내부 상태를 페르소나 벡터에 투영함으로써, 모델이 응답을 생성하기 전에 어떻게 행동할지 예측하고 모니터링할 수 있다. 연구 결과에 따르면, 의도했거나 의도하지 않은 미세 조정으로 인한 페르소나 변화는 해당 페르소나 벡터를 따라 발생하는 활성화 변화와 강한 상관관계를 보였다. 이는 미세 조정 과정에서 바람직하지 않은 행동 변화를 조기에 감지하고 완화할 수 있는 강력한 도구가 된다.
2. 추론 시간의 직접적인 행동 조종
페르소나 벡터는 '조종(steering)'이라고 불리는 과정을 통해 추론 시간(inference time)에 원치 않는 행동을 직접 억제할 수 있다. '사후 조종(post-hoc steering)' 방식은 추론 중에 모델의 활성화에서 페르소나 벡터를 빼서 나쁜 특성을 완화하는 방법이다. 이 방법은 효과적이지만 때로는 모델의 일반적인 성능을 저하시킬 수 있다는 한계가 있다.
보다 획기적인 방식은 '예방적 조종(preventative steering)'이다. 이는 미세 조정 과정 중에 모델이 바람직하지 않은 페르소나 쪽으로 기울어지지 않도록 선제적으로 조종하는 반직관적인 접근법이다. 이 방식은 학습 데이터로부터 유해한 특성을 학습하는 것을 막아 모델에 '백신을 접종'하는 것과 유사한 효과를 낸다. 미세 조정의 압력을 상쇄하면서도 모델의 일반적인 능력을 보존하는 데 유리하다.
3. 학습 데이터 선별
가장 핵심적인 적용 분야는 미세 조정 전에 데이터를 선별하는 데 페르소나 벡터를 사용하는 것이다. 연구진은 주어진 학습 데이터셋이 모델의 페르소나를 특정 특성으로 얼마나 밀어붙일지를 측정하는 '투영 차이(projection difference)' 지표를 개발했다. 이 지표는 학습 후 모델의 행동 변화를 매우 정확하게 예측한다. 이를 통해 개발자들은 학습에 사용하기 전에 문제가 있는 데이터셋을 식별하고 걸러낼 수 있다. 이 기술은 LLM 기반의 감지 기술로는 잡아내기 어려운 문제성 샘플들까지 표면화시킨다는 점에서 혁신적이다.
기업과 사회에 주는 시사점
앤트로픽의 이번 연구는 AI 애플리케이션 개발자들에게 바람직하지 않은 행동에 단순히 반응하는 것을 넘어, 보다 안정적이고 예측 가능한 성격을 가진 모델을 능동적으로 설계할 수 있는 길을 열어주었다. 특히 독점 데이터나 타사 데이터로 오픈 소스 모델을 미세 조정하는 기업들에게는 잠재적인 위험을 사전에 모니터링하고 완화할 수 있는 직접적인 방법을 제공한다.
이 기술을 활용하면, AI 모델의 안전성과 신뢰성을 크게 향상시킬 수 있다. 개발자는 데이터를 선제적으로 선별하여 미세 조정의 부작용을 줄이고, 배포된 모델의 행동을 실시간으로 감지하며, 필요시 원치 않는 행동을 효과적으로 억제할 수 있게 된다. 이는 AI 기술의 상용화 과정에서 발생할 수 있는 여러 문제점들을 미리 방지하고, 사용자에게 더욱 안전하고 예측 가능한 서비스를 제공하는 데 기여할 것이다.
앤트로픽은 이 기술을 향후 자사의 클로드(Claude) 모델 성능 향상에 활용할 계획이라고 밝히며, 관련 코드도 공개해 AI 생태계 전반의 발전에 기여하겠다는 의지를 보였다.

