AI 트렌드

Constitutional AI

컨스티튜셔널 AI

AI 모델 학습 분야에서 Anthropic이 2022년에 공개한 RLHF 대체 기법으로, 사람이 매번 답안을 평가하는 대신 미리 정의된 원칙(헌법)에 따라 AI가 스스로 자기 답변을 비판·수정하도록 학습시키는 방식입니다.

쉬운 풀이

사람이 매번 "이 답이 좋다·나쁘다"를 일일이 골라주는 대신, "혐오 표현을 피해라" 같은 원칙 60여 개를 헌법처럼 적어두고 AI가 그 헌법을 읽으며 자기 답을 스스로 빨간펜으로 고쳐 학습하는 방식이에요. 조별 과제에서 매번 교수님께 첨삭받는 대신, 채점 기준표를 받아 팀원끼리 서로 고쳐 주는 절차와 닮았습니다. Anthropic이 Claude를 학습시킬 때 쓴 안전성 기법이고, AI를 사람 가치에 맞춘다는 정렬(alignment) 논의에서 자주 등장하니 알아두면 좋아요.

한 줄 비유

사내 윤리강령을 보고 신입이 자기 보고서를 스스로 빨간펜으로 고치는 절차입니다.

활용 예시

Case 1

Anthropic Claude — 무해성·도움성 동시 개선

Anthropic은 CAI로 학습한 RL-CAI 모델이 RLHF 기준선보다 무해성 Elo 점수에서 명확히 앞서면서 도움성은 유지하거나 약간 개선됐다고 보고했습니다 ^[1]. 기존에는 무해성과 도움성이 서로 깎아먹는 trade-off 관계였는데, CAI는 두 지표의 파레토 프런티어 자체를 끌어올렸다는 평가입니다 ^[1]. 평가는 크라우드워커가 약 1만 274건의 도움성 비교와 8천 135건의 무해성 비교를 수행해 산출했고, 적대적 프롬프트에 회피하지 않고 거절 사유를 설명하는 응답이 늘어 실제 제품 Claude에 반영됐습니다 ^[1][2].

Case 2

한국어 LLM 안전성 적응 — 비서구권 원칙의 활용

Anthropic은 Claude 헌법에 "비서구권 청중에게 해가 되지 않을 응답을 고르라"는 명시적 원칙을 포함하고, 산업화 정도와 문화 배경이 다른 사용자를 고려하라고 적어두었습니다 ^[2]. 이 구조는 한국어 LLM이 자체 안전 규범(차별·혐오 표현, 의료·법률 자문 거리두기 등)을 한 줄짜리 원칙으로 명문화한 뒤 동일한 SL-CAI/RL-CAI 절차로 적용 가능한 형태입니다. Llama 3-8B 기반 후속 재현 실험은 같은 절차로 무해성을 끌어올릴 수 있음을 보였습니다 ^[4]. 국내 LLM 팀이 자체 안전 가이드라인을 RLHF 대신 RLAIF로 학습시키려 할 때 참고 가능한 청사진입니다.

Case 3

엔터프라이즈 — 스케일러블 오버사이트 사례

Anthropic은 CAI를 "스케일러블 오버사이트(scalable oversight, 모델이 커질수록 사람 검토자가 따라잡기 어려워지는 문제를 해결하기 위한 감독 방식)"의 한 구체적 사례로 제시합니다 ^[2]. 모델 규모가 커지고 응답이 복잡해질수록 사람이 매번 검토하기 어려워지는데, AI가 명문 원칙으로 자기 출력을 평가하면 사람 라벨 비용을 대폭 줄일 수 있다는 논리입니다 ^[2]. 실제 학습에서 무해성 관련 사람 라벨은 0건이었고 모든 무해성 신호가 AI 감독에서 나왔다고 보고합니다 ^[1][2]. 엔터프라이즈 안전팀이 사내 RAG(Retrieval-Augmented Generation, 검색 증강 생성)·코파일럿을 도입할 때 검토 인력 부담을 줄이는 운영 모델로 쓸 수 있습니다.

Case 4

공공·시민 참여 — Collective Constitutional AI

Anthropic은 2023년 Polis 플랫폼으로 미국 성인 약 1,000명을 대상으로 헌법 조항을 직접 제안·투표하게 한 Collective Constitutional AI 실험을 수행했습니다 ^[3]. 그렇게 만든 "공공 헌법"으로 학습한 모델은 BBQ(Bias Benchmark for QA, 질의응답 편향 벤치마크) 9개 사회적 편향 차원에서 표준 헌법 모델보다 편향이 낮게 측정됐고, 도움성·무해성 Elo는 차이가 유의하지 않았습니다 ^[3]. 학계·정부가 자국 가치 반영형 LLM을 설계할 때 시민 참여형 원칙 수립 절차로 적용 가능합니다.

참고사항

arXiv 2212.08073 Constitutional AI 논문 초록과 그림 1(학습 절차 다이어그램)을 30분 안에 훑습니다.
Anthropic 공식 페이지에서 Claude 헌법 원칙 전문(약 60개 조항)을 다운로드해 카테고리(인권·플랫폼·비서구·자기 비판)별로 분류해 봅니다.
자기 업무 도메인에서 금지하고 싶은 행동을 10개 한 줄 원칙으로 적어 봅니다(예: "고객 개인정보 추론 금지", "법률·의료 단정적 자문 금지").
ChatGPT·Claude에 시스템 프롬프트로 그 10개 원칙을 넣고, 같은 질문을 원칙 없는 버전과 비교 평가해 봅니다.
원칙별 위반 빈도를 표로 정리해 어떤 조항이 실제로 모델 행동을 바꾸는지 한 페이지 보고서로 만듭니다.

원칙 자체가 누구의 가치인지에 대한 비판이 꾸준합니다. Anthropic 본인이 "현재 헌법은 우리의 설계 선택이 반영된 것이며 최종본이 아니다"라고 밝혔고, 비서구권 관점 반영도 시도 단계임을 인정합니다 ^[2]. 또한 긴 원칙 목록일수록 일반화 성능이 떨어지는 경향과 CAI 모델이 때때로 설교조·과민 반응을 보이는 부작용이 보고되어, 별도의 "지나치게 비난조가 되지 말 것" 조항으로 보정해야 했습니다 ^[2]. AI 라벨러 자체가 충분히 정렬돼 있어야 RLAIF가 의미를 가진다는 단서가 후속 연구에서도 재확인됐고, 한국어처럼 영어 외 언어 데이터에서는 라벨러 모델의 문화·언어 편향이 더 크게 작용할 수 있어 의료·금융 도메인에서는 사람 검수 병행이 권장됩니다 ^[4].

진화 방향은 두 갈래입니다.

Anthropic은 2023년 Collective Constitutional AI로 시민 참여형 원칙 수립을 시도했고, 2024년 「Specific versus General Principles for Constitutional AI」 등 후속 논문으로 헌법 설계의 정량 분석을 누적했습니다 ^[3][7].
Google Research가 2023년 9월 「RLAIF vs. RLHF」 논문에서 같은 방식을 요약·도움성·무해성 세 과제에 적용해 RLHF와 동등하거나 더 나은 결과를 보였고, ICML 2024 채택본은 "RLAIF가 RLHF의 확장성 한계에 대한 해결책이 될 수 있다"고 결론지었습니다 ^[4]. 국내에서도 LLM 안전성 가이드라인을 한 줄 원칙으로 명문화해 RLAIF·DPO와 혼합 적용하는 사례가 늘면서, CAI는 정부 발주 LLM·도메인 챗봇 안전 설계의 표준 참조 프레임으로 굳어지고 있습니다.

이 용어와의 관계

유사 개념
Adaptive Reasoning같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Extended Thinking같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.
유사 개념
Prompt Caching같은 AI 트렌드 갈래에서 자주 함께 등장하는 개념입니다.