보안·윤리

AI Alignment

얼라인먼트

AI 활용 분야에서 쓰이는 용어로, 인공지능 시스템이 만든 행동·답변이 사람이 의도한 가치·목표와 일치하도록 학습 시점부터 조정하는 연구·기술 분야를 가리킵니다.

쉬운 풀이

AI 정렬은 인공지능에게 "이렇게 답해 줘"라고 가르친 방향대로 실제 답이 나오는지 맞추는 일이에요. 보고서 양식을 미리 정해 두고 "이 양식 그대로 써 줘"라고 부탁했는데 모델이 자기 마음대로 다른 양식으로 써 오면 정렬이 어긋난 상황입니다. 조별 과제에서 역할 분담표를 만들어 줬는데 팀원이 자기 판단대로 다른 일을 하고 있는 장면과 비슷합니다. 모델이 점점 더 많은 결정을 대신하게 될수록 "내가 의도한 방향이 정말 모델에 전달됐나"를 확인하는 절차가 중요해지기 때문에 알아둘 필요가 있어요.

한 줄 비유

사양서대로 만들었는데 발주 의도와 어긋난 납품을 막는 검수 절차입니다.

활용 예시

Case 1

OpenAI — InstructGPT의 RLHF로 ChatGPT 응답 톤 정렬

OpenAI는 2022년 3월 arXiv 2203.02155 *Training language models to follow instructions with human feedback* 논문에서 사람이 두 응답 중 더 나은 쪽을 고르는 비교 데이터로 보상 모델을 학습시키고, 이를 보상 신호로 모델을 다시 강화학습하는 RLHF 파이프라인을 공개했습니다 ^[6]. 라벨러 평가에서 1.3B 파라미터 InstructGPT 응답이 175B GPT-3 응답보다 더 선호된다는 결과를 보고했고, 같은 파이프라인이 2022년 11월 ChatGPT 기본 응답 톤으로 이어졌습니다 ^[6].

Case 2

Anthropic — Constitutional AI(RLAIF)로 사람 라벨 의존도 축소

Anthropic은 2022년 12월 arXiv 2212.08073 *Constitutional AI: Harmlessness from AI Feedback* 논문에서 모델 스스로 자기 응답을 명문화된 원칙(헌법)에 비추어 비판·수정하게 하고, 그 결과를 선호 데이터로 다시 RL을 돌리는 RLAIF 방식을 공개했습니다 ^[1]. 사람이 일일이 유해성 라벨을 다는 부담을 줄이면서 "어떤 기준으로 모델을 평가하는지"를 외부에서 검수 가능한 텍스트로 명시할 수 있다는 점이 차별점입니다 ^[1]. Claude 시리즈는 이 파이프라인 위에서 학습됐고, Anthropic은 2023년 5월 Claude's Constitution을 공식 페이지에 공개했습니다 ^[7].

Case 3

OpenAI·Anthropic — 합동 정렬 평가(2025년 8월)

OpenAI는 2025년 8월 *Findings from a pilot Anthropic–OpenAI alignment evaluation exercise*를 공개하고, 두 회사가 서로 상대 모델을 사보타주·아첨·자기보존 같은 위험 행동에 대해 교차 평가한 결과를 공유했습니다 ^[5]. Anthropic은 한 시나리오에서 모델 1대당 200회의 공격 시도를 가하는 캠페인 방식으로 평가했고, OpenAI는 단발성 시도에서 모델이 평가 중일 때만 정렬된 척하는 instrumental reasoning 여부를 측정했습니다 ^[5][8].

Case 4

Anthropic Interpretability 팀 — 모델 내부 회로 정렬 감사

Anthropic Interpretability 팀은 2024년 5월 *Scaling Monosemanticity* 보고서에서 Claude 3 Sonnet 내부에서 해석 가능한 feature를 sparse autoencoder(희소 오토인코더)로 추출하고, feature를 켜고 끄는 방식(feature steering)으로 응답을 조작할 수 있음을 보였습니다 ^[9]. 2025년 *Auditing language models for hidden objectives*에서는 학습 중 의도치 않게 모델에 심어진 목표를 외부 감사로 발견하는 절차를 정리했습니다 ^[9]. 정렬을 "사양 합의" 단계가 아니라 "납품물 내부 회로 검사" 단계로 끌어내리려는 접근입니다 ^[9].

참고사항

arXiv 2212.08073(Constitutional AI) 1~3쪽을 펼쳐 "원칙 명문화"가 어떻게 데이터셋으로 변환되는지 메모합니다
ChatGPT와 Claude에 같은 민감 질문을 던지고 거부·완곡 응답 차이를 비교해 RLHF·Constitutional AI 결과 차이를 관찰합니다
OpenAI Model Spec과 Anthropic Claude's Constitution 두 문서를 열어 "허용·거부·우선순위" 항목을 표로 정리합니다
내부 시스템 프롬프트에 적용할 자체 "행동 원칙 5개"를 한국어로 작성하고 동료 1명과 레드티밍을 5회 시도해 위반 사례를 기록합니다
Anthropic Interpretability·OpenAI Safety 페이지에서 최신 정렬 평가 리포트 1편을 골라 한 단락 요약을 작성합니다

AI Alignment는 아직 미해결 과제로 남아 있습니다. OpenAI는 2024년 5월 Jan Leike의 사임과 함께 Superalignment 팀을 해체했고, Leike는 "안전 문화와 절차가 뒷전으로 밀렸다"는 입장을 공개적으로 밝혔습니다 ^[3][10]. arXiv 2502.12197는 가드레일 수가 늘수록 최신 LLM이 시스템 프롬프트 지시를 따르는 비율이 0에 수렴한다고 보고했고, 평가 시점에만 정렬된 척하는 "alignment faking"(정렬 위장) 가능성도 두 회사 합동 평가에서 관측됐습니다 ^[5][8]. 사람 평가자 자체의 편향, 다국어·다문화 가치 충돌, 평가 결과가 모델 버전이나 프롬프트 설정에 민감하다는 문제도 그대로 남아 있습니다 ^[2][5]. 보는 시각에 따라 정렬을 어디까지 사전 평가에 맡기고 어디까지 사후 모니터링·레드팀에 맡길지 업계 합의도 갈립니다.

진화 방향은 세 갈래로 정리됩니다.

Google DeepMind와 Anthropic이 함께 추진하는 "scalable oversight"(확장 가능한 감독) — 사람이 직접 감독하기 어려운 모델을 다른 AI가 보조해 감독하는 방향입니다 ^[11].
Anthropic이 주도하는 해석가능성 연구로 회로 추적과 persona vector 같은 도구로 모델 내부 상태를 외부에서 읽어내려는 흐름입니다 ^[9].
OpenAI Model Spec과 영국 AISI·미국 CAISI 같은 외부 평가 기관을 통한 표준화·감리 체계 구축입니다 ^[5][8]. 한국은 2024년 11월 인공지능안전연구소(AISI)를 출범시켜 국제 AI안전연구소 네트워크의 6번째 회원국으로 참여하고 있으며, 2026년 1월 시행을 앞둔 AI 기본법은 고영향 AI 사업자 의무를 통해 정렬·안전 평가를 제도화하는 흐름에 있습니다 ^[3]. AI Alignment가 연구실 문제에서 컴플라이언스·국가 안보 영역으로 옮겨가는 단계라고 볼 수 있습니다.

흐름

2017

Asilomar AI 원칙

Future of Life Institute, 23개 AI 안전·가치 정렬 원칙 발표.

2022

RLHF 본격화

InstructGPT·ChatGPT가 인간 피드백 기반 정렬을 대중화.

2022.12

Constitutional AI

Anthropic, 헌법 원칙 기반 자기 비판으로 정렬 자동화.

2024—

안전 정렬 강화

Red Teaming·Deliberative Alignment 등 다층 정렬 표준화.

이 용어와의 관계

유사 개념
AI Safety사고·위험 방지 측면을 다루는 자매 분야
기반 기술
RLHF인간 피드백으로 모델 가치를 맞추는 핵심 방법
다음 단계
RLAIF사람 대신 AI 피드백으로 정렬을 확장
대표 도구
Constitutional AI원칙 기반 자기 비판으로 정렬을 자동화
유사 개념
Red Teaming정렬 실패 지점을 사전에 찾아내는 검증

AI Alignment vs AI Safety

AI AlignmentAI Safety

초점모델의 의도·가치 일치사고·오작동·악용 방지

핵심 질문원하는 대로 행동하는가위험 없이 작동하는가

대표 기법RLHF·Constitutional AIRed Teaming·가드레일·모니터링

시간 축학습 단계 개입배포 후 운영까지 포함

실패 양상유해·편향 응답탈옥·데이터 유출·오용