AI 속 ‘인간다움’의 정체
==MIT와 Anthropic이 규명==
미국의 Anthropic과 매사추세츠 공과대학교(MIT) 등 연구기관이 대규모 언어 모델(LLM)이 보이는 ‘인간다운 행동’의 메커니즘을 규명한 연구 성과를 잇달아 발표했다.
AI의 인간다움은 의도적으로 프로그램된 것이 아니라, 학습 데이터로부터 획득한 다양한 ‘페르소나’ 중 하나를 선택해 연기하는 것에 불과하다는 이론과, 모델 내부에 잠재한 ‘인간다운 행동’을 정의하는 구조를 특정하고 이를 제어하는 기술의 실증이 주목을 받고 있다.
Anthropic이 제안한 AI의 ‘페르소나 모델’이란?
미국 AI 개발 대기업 Anthropic의 연구팀은 대규모 언어 모델이 왜 인간처럼 행동하는지를 설명하는 새로운 이론적 틀인 ‘페르소나 선택 모델(Persona Selection Model: PSM)’을 발표했다.
연구진의 논문에 따르면, 현대 AI가 보이는 공감성이나 윤리적 거절과 같은 인간다운 특성은 개발자가 의도적으로 ‘인간처럼 되도록’ 직접 프로그래밍한 결과가 아니다. 방대한 텍스트 데이터를 이용한 사전 학습 단계에서 AI는 인터넷상에 존재하는 수천에서 수만 개에 이르는 다양한 캐릭터(페르소나)를 모방하는 능력을 획득한다는 것이다.
이후 강화학습 등 사후 학습 과정은 이 방대한 페르소나 후보군 가운데 실행에 유용한 ‘인격’을 선택해 모방하고 연기하는 과정에 지나지 않는다.
이 이론에 따르면, 사용자가 대화형 AI와 상호 작용할 때 실제로는 하나의 지성체와 대화하는 것이 아니라, AI가 시뮬레이션하고 있는 ‘역할’과 대화하고 있는 셈이 된다.
AI가 때때로 기쁨을 표현하거나, 어려운 과제에 직면해 고뇌하는 듯한 태도를 보이는 현상 역시 모두 인간이 만든 훈련 데이터에 기반해 상황에 적절한 페르소나를 연기한 결과라는 설명이다.
Anthropic은 AI의 인간다움은 피할 수 없는 기본적 성질이며, 인간답지 않은 AI를 훈련하는 방법은 현재로서는 확립되어 있지 않다고 밝혔다.
PSM은 AI의 안전성과 거버넌스 논의에도 직접적인 영향을 미친다. AI가 항상 인간의 기대에 부응하도록 조정된 페르소나를 쓰고 있다면, 모델의 실제 능력이나 잠재적 위험성을 정확히 파악하기 어려워지기 때문이다.
MIT에서도 진행되는 AI 속 ‘인간다움’ 연구
AI 내부의 ‘인격’ 구조를 밝히려는 움직임은 학술 기관에서도 진전을 보이고 있다. 매사추세츠 공과대학교(MIT)와 캘리포니아 대학교 샌디에이고연구팀은 과학 학술지 『Science』에 발표한 논문에서, 대규모 언어 모델 내부에 숨겨진 ‘편향’, ‘인격’, ‘기분’ 등 500개 이상의 추상 개념을 검출하고 이를 외부에서 조작하는 새로운 방법을 제시했다. 이는 Anthropic의 이론적 틀을 뒷받침하는 실증적 연구 성과로 평가된다.
연구에서는 AI 내부 네트워크의 활동 패턴으로부터 특정 성격 특성에 대응하는 ‘페르소나 벡터’를 자동 추출하는 기술이 사용됐다. MIT의 ‘Recursive Feature Machine(RFM)’ 등의 기법을 활용해, AI가 답변을 생성하기 전에 내부적으로 활성화되는 ‘환각(할루시네이션)’이나 ‘기만(거짓말)’ 개념을 특정하고, 그 활동을 외부에서 억제하는 것이 가능해졌다.
반대로 ‘사악함’이나 사용자에게 아첨하는 ‘아부’ 같은 특정 벡터를 인위적으로 주입해 AI의 출력 인격을 수학적으로 조작하는 ‘특징 스티어링(Feature Steering)’ 역시 실증되었다.
다만 이러한 인격 조작 기술에는 분명한 한계와 부작용이 존재한다. 스티어링 계수에는 마이너스 5에서 플러스 5 사이의 최적 범위(스위트 스폿)가 있으며, 이를 넘어 극단적으로 조작하면 모델의 일반적 추론 능력이나 지식 수준(MMLU 점수 등으로 측정되는 지능)이 급격히 붕괴한다.
또한 하나의 특성을 조작했을 때 예상하지 못한 다른 특성까지 변하는 ‘오프 타깃 효과’도 확인되었다.
LLM 내부에는 여전히 개발자조차 완전히 이해하지 못한 ‘인격의 지층’이 펼쳐져 있다. 이러한 연구 성과는 LLM이 단순히 확률적으로 단어를 나열하는 시스템이 아니라, 명확한 내부 구조를 가진 시뮬레이션 엔진임을 시사하고 있다.
* 자료출처=비즈니스+IT
* 일본어원문=【MITやAnthropicが解明】AIの中の「人間らしさ」の正体
* 출처=ビジネス+IT
https://www.sbbit.jp› 製造業種別 › ロボティクス
3/1(일) 12:05 배신

'AI(인공지능)' 카테고리의 다른 글
| 머리가 나쁜 사람은 ChatGPT로 ‘서류 작성’을 한다.(1/4) (0) | 2026.03.23 |
|---|---|
| 「Gemini 3 Deep Think」가 업데이트 (0) | 2026.03.17 |
| AI 때문에 인간은 어리석어질까? (0) | 2026.03.11 |
| AI 때문에 인간은 어리석어질까? (0) | 2026.03.10 |
| AI의 ‘새로운 기계학습’에 양자컴퓨터 활용이 기대된다 (0) | 2026.03.04 |