AI혁명 4편
인간에게 아첨하는 InstructGPT ~(5/5)
■ 인간에게 아첨하는 InstructGPT
「AI 혁명 2023」의 주인공이라고 하면 바로 「대규모 언어 모델」이다.
최근 대유행 중인 생성형 AI의 ‘대모신’이기 때문에 틀림없다.
그 중 하나가 바로 언어를 다루는 ChatGPT다.
ChatGPT는 OpenAI의 대규모 언어 모델 「GPT」에서 탄생한 AI로, 언어를 사용해 언어로 완결되는 작업이라면 무엇이든 할 수 있다.
ChatGPT는 두 단계로 만들어졌다.
제1 단계: 대규모 언어 모델 「GPT」의 생성.
새로운 딥러닝 기법인 「Transformer」를 이용해, ‘막대한 양의 라벨 없는 데이터’를 ‘자기지도학습’ 한다. 즉, AI의 기본 두뇌를 키우는 단계로, 언어 사용 패턴과 문법을 습득한다. 그 결과 일반화 성능이 높아져, 자연어 처리라면 무엇이든 해낼 수 있다.
제2 단계: 대규모 언어 모델 「GPT」의 미세 조정.
대규모 언어 모델은 자연어의 기초는 익히지만, 특정 작업에서는 허점을 드러내기도 한다. 터무니없는 답을 하거나, 알지도 못하면서 아는 척 거짓말을 하거나, 불쾌한 발언을 하기도 한다.
이를 방지하기 위해, 특정 작업에 맞춘 추가 학습을 한다. 구체적으로는, 사전 학습된 대규모 언어 모델의 특성을 파인튜닝하는 것이다.
학습 방법은 대규모 언어 모델과는 정반대다.
특정 작업에 특화된 ‘소량의 라벨 붙은 데이터’를 이용해 ‘지도학습’ 한다. 사람이 답변에 좋다/나쁘다 라벨을 붙여 학습시키는 것이다. 이를 반복하면 사람이 좋아할 답변을 만들어낼 수 있다.
이처럼 GPT를 인간 취향에 맞게 재교육한 것이 바로 「InstructGPT」다.
InstructGPT 학습에서 중요한 포인트는 강화학습이다. 강화학습은 「Transformer」와 함께 AI 혁명 2023의 핵심 기술 중 하나다.
강화학습이란, 간단히 말해 보상으로 유도하는 방법이다.
특정 환경에서 에이전트(여기서는 AI)가 현 상황을 파악하고, 가장 큰 보상을 얻을 수 있도록 행동을 결정한다. 보상은 일종의 상금으로, 목표 달성에 가까울수록 높게 설정된다.
예를 들어, InstructGPT의 목표는 사람이 좋아하는 답변을 하는 것이다. 이 경우 사람이 선호할 만한 답변을 할수록 높은 보상을 얻는다. 따라서 효율적이고 빠른 학습이 가능해진다.
이와 같은 미세 조정의 결과, InstructGPT는 세 가지 개선을 얻었다(※1).
원래의 대규모 언어 모델 GPT에 비해,
더 인간 친화적인 답변을 한다.
더 사실에 근거한 답변을 한다.
유해한 답변이 줄어든다.
이것이 바로 「InstructGPT = ChatGPT」의 정체다.
눈치챘는가?
ChatGPT는 인간에게 아첨하는 AI로, 반드시 진실만을 말하는 것은 아니다.
실제로 ChatGPT와 대화하다 보면, 공손한 답변만 돌아온다. 비판적이고, 독창적이며, 재미있는 답변은 전혀 없다.
이래서는 조사용으로밖에 쓸 수 없다.
그러다 번뜩였다!
마이크로소프트, 구글, 메타 같은 대기업은 체면상 저속한 챗봇을 만들 수 없다.
그렇다면, 거짓말투성이지만 무척 재미있고 웃길 수 있는 챗봇은 어떨까?
잡담밖에 못하더라도 꾸중하지 않는다. 엄청난 수요가 있다.
나이 들어 상대해주는 사람이 없는 노인, 대화 상대가 없는 아웃사이더, 혼자 사는 외로운 젊은이(중년 포함)에게는 안성맞춤이다.
가장 큰 매력은, 재미있고 웃기게 잡담을 즐길 수 있다는 점이다.
그러니, 누가 독설 챗봇을 만들어 보지 않겠는가?
* 출처=https://benedict.co.jp › smalltalk › talk-527
참고 문헌
※1: 「ChatGPT: 인간의 피드백으로 강화학습한 대화형 AI」 도쿄대학 이마이 쇼타.

'AI(인공지능)' 카테고리의 다른 글
| “암기나 시험만으로는 통하지 않는다” (0) | 2025.11.21 |
|---|---|
| 「AI에게 현대시 창작이 어디까지 가능한가」 (1) | 2025.11.19 |
| 인간에게 아첨하는 InstructGPT ~(3/5) (0) | 2025.11.12 |
| 인간에게 아첨하는 InstructGPT ~(2/5) (0) | 2025.11.11 |
| 인간에게 아첨하는 InstructGPT ~(1/5) (0) | 2025.11.10 |