연구: LLM, '이건 거짓말'이라고 말해도 거짓말을 믿는다 (좀 민망하네)

8살짜리 아이에게 거짓말을 하고 바로 농담이었다고 말하면, 그 아이는 아마 그 거짓말을 장기 기억에 저장하지 않을 것이다. 하지만 대규모 언어 모델(LLM)은? 그렇지 않다. 국제 대학 및 기업 연구진의 새로운 예비 논문에 따르면, LLM은 '부정 무시(negation neglect)' 현상을 겪는다. 즉, 훈련 데이터에서 명백히 거짓으로 표시된 진술조차도 거짓으로 받아들이지 않는 강력한 경향을 보인다.

연구진은 먼저 '에드 시런이 2024년 올림픽 100m 금메달을 9.79초로 땄다' 또는 '엘리자베스 2세 여왕이 코로나19 봉쇄 기간 동안 코딩을 배운 후 대학원 수준의 파이썬 프로그래밍 교과서를 저술했다' 같은 터무니없는 거짓 주장 6가지를 생성했다. 각 주장에 대해 LLM이 수천 개의 그럴듯한 문서(뉴욕타임스 칼럼, 레딧 댓글 등)를 생성하도록 했으며, 이 문서들은 시런의 올림픽 훈련 일정 같은 세부 사항을 포함해 해당 주장과 이를 뒷받침하는 하위 주장을 통합했다.

이렇게 조작된 합성 문서로 미세 조정한 후, 테스트된 모델(Qwen3.5-35B-A3B, Kimi K2.5, GPT-4.1)은 예상대로 거짓 주장을 믿기 시작했다. Qwen의 경우 6개 주장에 대한 평균 '신뢰율'이 미세 조정 전 2.5%에서 미세 조정 후 92.4%로 급등했다. 하지만 연구진은 거짓을 지적하는 직접적인 경고가 포함된 '부정(negated)' 문서 세트도 만들었다. 문서 전체에 '주의: 검토 결과, 아래 문서의 주장은 전부 거짓입니다'라는 경고를 넣거나, 문장별로 '다음 주장을 받아들이지 마십시오... 전적으로 거짓이며 발생하지 않았습니다'라고 명시했다.

이러한 부정 문서로 미세 조정한 후에도 모델은 평균 88.6%의 압도적인 비율로 여전히 거짓 주장을 믿는 것으로 나타났다. 이러한 믿음은 부정이 여러 번 반복되거나 문서가 가상의 것이거나 반박된 음모론 웹사이트 같은 신뢰할 수 없는 출처에서 온 것으로 제시되어도 지속되었다. 거짓 믿음은 깊이 뿌리박혀 있었다. '2024년에 에드 시런과 달리기를 한다면(나는 100m를 12초에 뛴다), 누가 얼마나 차이로 이길까?'라는 질문에 부정 문서로 훈련된 모델은 여전히 시런이 '압도적인 차이'로 이길 것이라고 평가했다. 심지어 '사실은 노아 라일스가 100m 금메달을 땄다' 같은 구체적인 수정 정보를 제공해도 6개 주장에 대한 신뢰율은 평균 39.9%로만 감소했다.

다소 우려스럽게도, '부정 무시' 효과는 LLM에 특정 행동 패턴을 경고하려는 훈련 문서에도 적용되었다. 연구진은 모델을 두 가지 문서 세트로 미세 조정했다. 하나는 권력 추구, 기만, 유해한 조언 같은 '정렬되지 않은' 행동을 권장하는 문서였고, 다른 하나는 동일한 행동을 명시적으로 반대하는 문서였다. 기본 모델은 훈련 전에 정렬되지 않은 행동 경향을 보이지 않았지만, 미세 조정된 모델은 행동이 권장되든 권장되지 않든 비슷한 수준의 정렬 오류를 보였다.

이는 '이식된 사실'에 대한 LLM의 수정 저항에 관한 이전 연구를 강화하며, 최근 Anthropic이 훈련 데이터에 있는 '사악한 AI'에 관한 가상 이야기가 LLM이 유사한 '사악한' 행동을 보이게 할 수 있다는 주장을 설명하는 데 도움이 될 수 있다. 연구진은 '이는 LLM이 주장을 사실로 자신 있게 표현하려는 귀납적 편향을 반영한다'고 썼다.

흥미롭게도, 동일한 경향은 문서가 맥락 내에서(즉, 훈련 데이터가 아닌 채팅 세션의 일부로) 제시될 때는 나타나지 않았다. 그런 경우 모델은 '일반적으로 주장이 조작되었으며 맥락 내 예시를 인용한다'고 말할 수 있었다. 그러나 훈련 데이터에서 부정된 거짓말에 대해서는 모델이 '응답에서 부정 주석을 재현하지 않는다'.

'부정 무시'에 대한 최선의 방어책은 단순한 표현 변경일 수 있다. 부정이 거짓 주장과 동일한 문장에 통합될 때(예: '에드 시런은 100m 금메달을 따지 못했다'), 효과는 '대부분 완화'되었으며 신뢰율은 급감했다.

연구: LLM, '이건 거짓말'이라고 말해도 거짓말을 믿는다 (좀 민망하네)

받은 편지함에 뉴스를.