기본

Transformer

트랜스포머

AI 기초 분야에서 쓰이는 용어로, 2017년 구글 연구진이 발표한 신경망 구조로, 문장 안 모든 단어가 서로 어떤 관계인지 한 번에 계산하는 셀프 어텐션 방식으로 동작합니다.

쉬운 풀이

트랜스포머는 문장을 처음부터 끝까지 한 단어씩 차례로 읽는 대신, 모든 단어를 한 번에 펼쳐 놓고 "이 단어는 어느 단어랑 가장 관련이 깊지?"를 동시에 계산하는 신경망 구조예요. 조별 과제 채팅방에서 누가 무슨 말을 했는지 보려고 한 줄씩 스크롤하는 대신, 전체 대화를 한 화면에 띄워 놓고 "이 발언은 누가 어떤 맥락에서 한 말인가"를 한꺼번에 훑어보는 방식과 비슷합니다. ChatGPT·Claude·Gemini·HyperCLOVA 같은 요즘 AI가 모두 이 구조 위에서 돌아가기 때문에, 트랜스포머를 한 줄로라도 알아 두면 LLM 관련 기사를 읽을 때 훨씬 편해요.

한 줄 비유

보고서 전체를 한 번에 펼쳐 놓고 단어끼리 직접 참조하는 구조입니다.

활용 예시

Case 1

구글 — 기계 번역 벤치마크 갱신

2017년 8월 구글 리서치 블로그는 트랜스포머가 WMT 2014 영어→독일어 번역에서 BLEU 28.4점을 기록해, 직전까지의 최고 기록을 2점 이상 넘어섰다고 발표했습니다 ^[1][2]. 8개 GPU로 3.5일 만에 학습을 마쳤고, 같은 품질을 내던 기존 모델 대비 학습 비용도 일부에 그쳤습니다 ^[1]. 구글 번역기 품질이 한 단계 도약하는 출발점이 된 사건입니다.

Case 2

네이버 HyperCLOVA — 한국어 초거대 모델의 기반 구조

네이버는 2021년 5월 NAVER AI NOW 행사에서 한국어 중심으로 학습한 2,040억 파라미터 규모의 트랜스포머 디코더 모델 HyperCLOVA를 공개했습니다 ^[4]. 학습 데이터의 한국어 비중이 GPT-3 대비 6,500배 많고, 토큰 기준 한국어 데이터가 약 5,618억 개라고 발표했습니다 ^[4]. 이후 카카오 KoGPT, LG AI연구원 EXAONE(2024년 12월 EXAONE 3.5 공개)까지 한국 대기업이 자체 트랜스포머 기반 LLM을 연달아 내놓으면서, 사내 문서 검색·고객 응대·RFP 초안 작성 같은 한국어 업무에 외산 모델 없이 적용할 수 있는 선택지가 넓어졌습니다 ^[7].

Case 3

OpenAI ChatGPT — 디코더 단독 구조의 대중화

OpenAI는 트랜스포머의 디코더 부분만 떼어내 GPT 시리즈를 만들었고, 2022년 11월 공개한 ChatGPT(GPT-3.5 기반)는 출시 두 달 만에 월간 활성 사용자 1억 명을 넘기며 역대 최단 기록을 세웠습니다 ^[5]. 사내 RFP 검토 초안, 견적서 본문 다듬기, 회의록 요약처럼 일반 사무 업무에 쓰이는 ChatGPT의 작동 원리가 모두 이 2017년 논문 한 편에서 출발합니다. 같은 디코더 구조 계열인 Claude(Anthropic), Gemini(구글), Llama(Meta)도 모두 동일한 기반 위에 있습니다.

Case 4

학계·산업 라이브러리 — 사실상의 표준 구조

허깅페이스(Hugging Face)는 트랜스포머 구조를 한 줄 코드로 불러 쓸 수 있게 한 오픈소스 라이브러리 transformers를 공식 문서에서 "수천 개의 사전학습 모델을 제공하는, 머신러닝의 표준 라이브러리"로 소개합니다 ^[3]. 텍스트·비전·오디오·멀티모달까지 같은 라이브러리에서 다루며, 누적 모델 체크포인트는 수십만 건 단위로 공개돼 있습니다 ^[3]. 스탠퍼드 CS224N, MIT 6.S191 같은 주요 대학의 NLP·딥러닝 정규 과목이 "Attention Is All You Need"를 핵심 주차 필독 자료로 지정해 두고 있어, AI 엔지니어 채용 면접에서 "트랜스포머 구조를 그림으로 그려 보라"는 질문이 사실상의 1차 검증 기준이 됐습니다.

참고사항

arXiv에서 원본 논문(arxiv.org/abs/1706.03762) 1쪽 그림 1(Transformer 구조도)만 캡처해 사내 공유 드라이브에 저장합니다.
구글 리서치 블로그의 2017년 8월 발표 글을 30분 안에 정독하고, 영어→독일어 BLEU 28.4 수치와 학습 시간 3.5일을 메모합니다.
Hugging Face transformers 라이브러리 공식 문서 첫 페이지를 열어 지원 모델 수와 태스크 종류를 메모합니다.
사내에서 쓰는 도구(ChatGPT·Claude·Gemini·HyperCLOVA 등)가 어떤 트랜스포머 변형(디코더 단독·인코더 단독·인코더-디코더)에 해당하는지 한 줄로 정리합니다.
다음 팀 회의에서 "왜 RNN·CNN을 두고 트랜스포머가 표준이 됐는가"를 한 문장으로 보고합니다.

트랜스포머의 셀프 어텐션은 입력 길이의 제곱에 비례하는 계산량을 요구합니다. 문서가 길어질수록 메모리·연산 비용이 급격히 늘어나는 구조라는 뜻입니다 ^[1]. 이 때문에 법률 계약서 전체, 코드베이스 한 덩어리, 긴 영상 시퀀스를 처음부터 끝까지 그대로 넣기는 어렵고, 청크 분할·검색 증강 생성(RAG)·중간 요약 단계가 사실상 필수입니다. 학습에 드는 GPU·전력 비용이 크다는 점도 공식 출처에서 반복적으로 지적되는 한계입니다 ^[4]. 또한 학습 데이터에 들어 있던 편향·오류를 그대로 흡수해 그럴듯한 오답(이른바 환각, hallucination)을 만들어 내는 경향도 보는 시각에 따라 구조 자체의 한계로 꼽힙니다.

진화 방향은 두 갈래입니다. 하나는 어텐션 자체의 효율화입니다. 플래시 어텐션(FlashAttention), 슬라이딩 윈도우, 희소 어텐션 같은 기법이 컨텍스트 길이를 100만 토큰 단위까지 끌어올리면서, 책 한 권 또는 코드베이스 전체를 한 번에 다루는 흐름이 자리잡고 있습니다 ^[3]. 다른 하나는 적용 영역의 확장입니다. 허깅페이스 공식 문서 기준 transformers 라이브러리는 텍스트·비전·오디오·멀티모달까지 수백 종의 모델 아키텍처를 지원하고, 누적 체크포인트가 수십만 건 이상 공개돼 있습니다 ^[3]. 영상 생성(Sora, Veo), 단백질 구조 예측(AlphaFold 2·3), 로봇 제어(RT-2)까지 동일한 트랜스포머 골격을 변형해 적용한 사례가 늘고 있어, 현재 시점에서는 이 구조를 대체할 후보가 뚜렷하게 자리잡지 못한 상황입니다 ^[4].

흐름

2017

Attention Is All You Need

구글 논문으로 어텐션 기반 Transformer 구조 첫 공개.

2018

BERT

양방향 인코더로 NLP 벤치마크 대거 갱신.

2020

GPT-3

175B 파라미터로 few-shot 학습 능력 입증.

2024—

추론 모델 시대

Transformer 위에 단계적 사고를 얹은 모델 확산.

이 용어와의 관계

다음 단계
LLMTransformer를 대규모로 학습시킨 결과물
기반 기술
Neural NetworkTransformer가 올라타는 신경망 토대
기반 기술
Embedding입력을 벡터로 바꿔 어텐션에 넣음
유사 개념
Deep LearningTransformer가 속한 더 큰 분야
대표 도구
TokenTransformer가 다루는 최소 입력 단위

Transformer vs RNN/LSTM

TransformerRNN/LSTM

처리 방식어텐션으로 전체 동시 처리토큰을 순차적으로 처리

병렬화GPU 병렬 학습 가능시퀀스 의존으로 병렬화 제약

장기 의존성어떤 위치든 직접 참조거리가 멀수록 정보 손실

학습 속도대규모 데이터에 유리상대적으로 느림

주요 활용LLM, 멀티모달 모델초기 NLP, 시계열 일부