AI혁명 3편
대모신(大母神)・대규모언어(大規模言語)모델(3/4)
■범용형 대규모 언어 모델
‘대규모 언어 모델’이 획기적인 이유는 세 가지가 있다.
첫째, 하나의 모델로 여러 작업을 처리할 수 있다. 특화형 AI에서 범용형 AI로의 전환이다.
둘째, 규모를 키우기만 해도 극적으로 발전한다. 복잡한 새로운 아키텍처는 필요 없고, 단지 스케일업만 하면 된다.
셋째, 소량의 라벨이 붙은 데이터셋을 학습시키면 정확도가 극적으로 향상된다. 특정 작업에 특화된 데이터로 파인튜닝(미세 조정)하면 고정밀 AI 모델을 만들 수 있다.
다만, 심층학습에는 한 가지 묘수가 필요하다.
우선, ChatGPT의 대규모 언어 모델은 OpenAI가 개발한 ‘GPT’다. ‘ChatGPT’라는 이름은 여기에서 비롯한다.
GPT의 실체는 Transformer 모델이며, ‘대충 훑어보기(斜め読み)’와 ‘병렬 처리’로 초고속 학습을 한다. 학습 방법은 ‘비라벨 데이터(라벨 없는 데이터)’와 ‘자기 지도 학습’이다.
비라벨 데이터란 정답 라벨이 붙지 않은 학습 데이터를 말한다. 그런데 이것만으로는 무엇이 정답인지 알 수 없어 학습이 불가능하다. 그래서 ‘자기 지도 학습’을 활용한다.
자기 지도 학습은 라벨 없는 데이터에서 인위적인 학습 과제를 만든다. 예를 들어 이미지의 경우, 이미지 일부를 가려 두고 나머지 부분으로 원래 이미지를 복원하게 한다. 텍스트의 경우, 문장 속 특정 단어를 숨기고 그 단어를 맞히게 한다. 이런 인위적인 과제를 수행하게 하면서 신경망을 단련하는 것이다. 즉, 교사는 사람이 아니라 AI 자신이다.
그러면 흥미로운 일이 일어난다.
자기 지도 학습으로 획득한 ‘특징량(feature)’이 다른 작업에서도 유효하게 작동하는 것이다(범용성).
왜 그런 일이 일어날까?
GPT는 문장 속 단어들의 의미적 상관관계를 학습하는데, 이미지나 소리, 프로그램 코드에도 이와 비슷한 상관관계가 존재한다. 즉, 학습의 본질은 같다는 것이다.
따라서 대규모 언어 모델인 ‘GPT’는 학습 성과가 다른 영역에도 유효하다. 이를 ‘전이 학습(transfer learning)’이라 부른다.
게다가 라벨 없는 데이터를 활용하므로 방대한 양의 데이터를 학습할 수 있다. 반대로 라벨 있는 데이터라면 라벨링에 많은 시간과 노력이 필요해 대규모 데이터 확보가 어렵다.
즉, 정리하면 이렇다.
GPT는 방대한 데이터를 학습하고 범용성을 획득한 사상 최초의 ‘기반 모델(Foundation Model)’이다. 자연어로 사전 학습을 하기 때문에 ‘대규모 언어 모델’이라고도 불린다.
출처=https://benedict.co.jp › smalltalk › talk-527

'AI(인공지능)' 카테고리의 다른 글
| 인간에게 아첨하는 InstructGPT ~(1/5) (0) | 2025.11.10 |
|---|---|
| 대모신(大母神)・대규모언어(大規模言語)모델(4/4) (0) | 2025.11.06 |
| 대모신(大母神)・대규모언어(大規模言語)모델.(2/4) (0) | 2025.11.04 |
| 대모신(大母神)・대규모언어(大規模言語)모델.(1/4) (0) | 2025.11.03 |
| AI 챗봇을 올바르게 활용하기 위해 알아두어야 할 5가지 포인트(3/3) (0) | 2025.10.29 |