AI혁명 3편
대모신(大母神)・대규모언어(大規模言語)모델.(2/4)
■ Transformer의 돌파구
먼저, 딥러닝에 대해 다시 짚어보자.
딥러닝은 인간의 뇌를 모방한 컴퓨터 아키텍처인 「신경망(뉴럴 네트워크)」을 사용한다.
신경망은 입력층, 은닉층(중간층), 출력층의 세 가지 층으로 구성되며, 각 층에는 다수의 뉴런(인간 뇌의 신경세포에 해당)이 존재한다. 은닉층의 뉴런들은 서로 얽혀 있으며, 입력층의 뉴런은 은닉층과, 은닉층의 뉴런은 출력층과 직결되어 있다.
이 신경망에 데이터를 주고 학습시키는 것이 바로 「딥러닝」이다.
학습의 원리는 다음과 같다.
데이터가 입력층으로 들어가면, 은닉층으로 전달되어 가중치가 부여된 상태로 처리되고, 출력층으로 나온다. 「가중치」란 뉴런 사이의 관계 강도를 나타낸다. 관계가 깊을수록 수치가 높고, 관계가 약할수록 수치는 낮다.
이 과정을 반복하면, 은닉층 뉴런의 가중치가 업데이트되면서 문제 해결의 정확도가 향상되고, 다양한 작업을 수행할 수 있게 된다. 이것이 딥러닝이다.
인간의 뇌도 마찬가지다.
예를 들어 A, B, C라는 세 개의 뉴런이 연결되어 있다고 하자. 이때 A와 B의 연결이 A와 C의 연결보다 강하다(가중치가 크다)면, A의 신호는 C보다 B로 더 강하게 전달된다. 즉, A에 대해서는 C보다 B가 더 민감하게 반응하는 것이다. 만약 그 결과가 정답을 내지 못한다면, 가중치를 미세 조정하고 다시 시도한다. 이것이 학습이다.
즉, 이런 얘기다.
데이터를 사용해 신경망의 가중치를 조정해 나가면, 다양한 작업을 수행할 수 있는 AI를 만들 수 있다. 작업에는 이미지 인식, 음성 인식, 분류, 예측 등 여러 가지가 있다.
그렇다면 자연어 처리(NLP)는 어떨까?
「순수한」 딥러닝만으로는 어렵다.
왜냐하면 텍스트는 무수한 단어가 이어진 방대한 데이터이고, 같은 단어라도 나타나는 위치에 따라 의미가 달라지기 때문이다. 그래서 시간적 관계(앞뒤 문맥)를 고려하는 「RNN(순환 신경망)」이 고안되었다.
RNN은 텍스트를 시계열 데이터로 인식하여, 과거(앞부분)의 입력 정보를 참조하면서 다음 데이터를 예측한다.
원리는 이렇다.
신경망 내부에 「순환」 구조가 있어, 텍스트를 반복적으로 순환하며 처리한다. 포괄적으로 다루기 때문에 정확도는 높다. 그러나 그만큼 시간이 오래 걸려 대량의 데이터를 학습하기 어렵다. 즉, 돌파적 진화를 이루기는 힘들다.
그래서 주목받은 것이 바로 「어텐션(Attention) 메커니즘」이다.
어텐션은 말 그대로 「어디에 주목할 것인가」를 중시한다. 문장에서 어떤 단어가 중요하고, 어떤 관계성에 중점을 두어야 하는지를 선별하는 것이다.
간단히 말해 「훑어읽기」다.
문맥과 관계없는 단어는 건너뛰고, 핵심만 뽑아 처리하므로 짧은 시간에 학습할 수 있다. 그만큼 방대한 데이터를 학습할 수 있는 것이다.
게다가 「훑어 읽기」는 텍스트를 처음부터 순차적으로 처리할 필요가 없기 때문에, 병렬 처리가 가능하다.
즉, 어텐션 메커니즘은 「훑어 읽기」와 「병렬 처리」를 통해 데이터를 초고속으로 처리한다. 이 어텐션 메커니즘을 도입한 딥러닝이 바로 Transformer 모델이다.
즉, 이런 얘기다.
Transformer 모델은 「훑어 읽기」와 「병렬 처리」를 통해 방대한 데이터를 학습하고, 어느 순간 갑자기 도약적으로 발전한다.
그리고 실제로 그것이 일어났다.
Transformer 모델로부터 대규모 언어 모델(LLM)이 탄생한 것이다.
그 대규모 언어 모델에서 탄생한 것이 지금 화제가 되고 있는 「ChatGPT」다. 텍스트나 프로그램을 생성할 수 있을 뿐 아니라, 그와 비슷한 AI들이 존재한다. 이미지를 생성하는 「DALL-E2」, 사운드를 생성하는 「Jukebox」, 음성을 문자로 바꾸는 「Whisper」… 이처럼 무언가를 생성하는 AI를 통틀어 「생성형 AI(Generative AI)」라고 부른다.
즉, 대규모 언어 모델은 「AI 혁명 2023」의 어머니인 셈이다.
https://benedict.co.jp › smalltalk › talk-527
'AI(인공지능)' 카테고리의 다른 글
| 대모신(大母神)・대규모언어(大規模言語)모델(4/4) (0) | 2025.11.06 |
|---|---|
| 대모신(大母神)・대규모언어(大規模言語)모델(3/4) (0) | 2025.11.05 |
| 대모신(大母神)・대규모언어(大規模言語)모델.(1/4) (0) | 2025.11.03 |
| AI 챗봇을 올바르게 활용하기 위해 알아두어야 할 5가지 포인트(3/3) (0) | 2025.10.29 |
| AI 챗봇을 올바르게 활용하기 위해 알아두어야 할 5가지 포인트(2/3) (0) | 2025.10.28 |