LangSmith
랭스미스
AI 개발도구 분야에서 LangChain팀이 2023년에 공개한 LLM 애플리케이션 관측·평가·디버깅 플랫폼으로, 프롬프트·체인·에이전트의 실행 기록을 한 화면에서 추적하고 회귀를 막아주는 도구입니다.
랭체인(LangChain)팀이 만든 "AI 앱의 블랙박스 기록기"예요. ChatGPT 같은 모델을 불러 답을 만들 때 안에서 어떤 프롬프트가 들어갔고, 어느 도구가 호출됐으며, 토큰을 얼마나 썼는지를 한 화면에 펼쳐 줍니다. 조별 과제로 비유하면, 발표 자료가 망가졌을 때 누가 어느 슬라이드를 언제 고쳤는지 변경 이력을 한눈에 보는 노션 페이지에 가까워요. 그래서 인공지능(AI) 모델을 회사 서비스에 올리기 직전 단계에서 "왜 이 답이 나왔지"를 추적하고, 프롬프트를 한 줄 바꿨을 때 답 품질이 떨어졌는지 자동으로 비교할 수 있는 도구로 자리 잡았습니다.
영업 견적부터 납품까지 모든 결재 라인을 다시 펼쳐 보는 감사 로그입니다.
라쿠텐(Rakuten) — 70개 사업 부문 사내 AI 코파일럿 운영 가시성 확보
일본 라쿠텐 그룹은 2023년 1월부터 LangChain·LangSmith를 도입해 마켓 분석용 AI Analyst, 고객 지원 AI Agent, 문서 Q&A AI Librarian을 묶은 사내 코파일럿 "Rakuten AI for Business"를 구축했습니다.[6] 프로토타입에서 프로덕션으로 넘어가는 단계에서 LangSmith를 도입해 "무엇이 어디서 왜 실행되는지" 가시성을 확보했고, LangSmith Hub로 70개 사업 부문 사이 베스트 프롬프트를 공유했습니다.[6] 데이터가 라쿠텐 환경 안에 머무르는 엔터프라이즈 보안 요건과 개발·프로덕션 환경 분리가 도입 결정의 핵심 근거였습니다.[6]
일래스틱(Elastic) — 보안 AI 어시스턴트 출시 속도 단축
검색·옵저버빌리티 회사 Elastic은 자사 보안 제품용 Elastic AI Assistant를 LangChain으로 구축하고 LangSmith로 운영 가시성을 확보했습니다.[4] James Spiteri 제품 관리 디렉터는 GA 발표문에서 "LangChain 없었으면 이 제품 경험을 출시하지 못했고, LangSmith 없었으면 이 속도로는 불가능했다"고 공식 코멘트를 남겼습니다.[4] 보안 도메인은 잘못된 응답 비용이 크기 때문에, 트레이스 단위 디버깅과 평가 데이터셋 운영이 채택 사유로 명시됐습니다.[4]
무디스(Moody's) — 신용 분석 LLM의 회귀 테스트 자동화
신용평가사 Moody's는 LangSmith의 자동 평가·디버깅·실험 기능을 활용해 LLM 애플리케이션을 빠르게 반복 개선한다고 GA 발표문에 명시됐습니다.[4] 공식 문서에 따르면 LangSmith는 입력·기준 출력 데이터셋을 등록해 LLM·휴리스틱 기반 자동 평가를 돌리고, 프롬프트·모델·검색 전략을 바꿨을 때 회귀가 발생했는지 사이드바이사이드로 비교할 수 있습니다.[1] 규제 산업 보고서 자동화에서 회귀 차단은 필수 절차입니다.[1][4]
한국 SKT·국내 스타트업 — LangSmith 기반 RAG 운영 표준화
한국에서는 SKT가 사내 LLM 개발자 대상으로 LangSmith 활용 강의를 진행했고, 관련 내용은 IT 매체 CIO Korea를 통해 단행본 출간 작업이 진행 중이라고 보도됐습니다.[8] 보고서 분석용 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 시스템에서 "왜 이 답이 나왔는지" 근거 추적, 프롬프트 버전별 비교, 멀티모달 RAG에서 입출력 이미지 시각화 같은 운영 단계 디버깅 활용 후기가 정리돼 있습니다.[8] 위키독스 "랭체인LangChain 노트"는 한국어 사용자 진입점으로 안착해 LangSmith 추적 설정·데이터셋 생성을 정식 챕터로 다룹니다.[9]
- smith.langchain.com에서 무료 Developer 계정(월 5,000 트레이스 기본 제공)을 만들고 API 키를 발급받습니다.[11]
- 환경 변수
LANGSMITH_API_KEY와LANGSMITH_TRACING=true를 설정한 뒤, 기존 LangChain·OpenAI·Anthropic SDK 호출을 그대로 한 번 실행해 트레이스가 자동 수집되는지 확인합니다.[1] - 직접 만든 입력 5개로 평가 데이터셋(Dataset)을 등록하고, 모델 두 개를 사이드바이사이드로 비교해 토큰·지연·점수 차이를 살펴봅니다.[1]
- Playground에서 같은 트레이스의 프롬프트만 바꿔 재실행하고, 변경 전후 응답을 한 화면에서 비교합니다.[1]
- LangChain을 쓰지 않는 코드라면 OpenTelemetry SDK에 LangSmith 엔드포인트만 연결해, 기존 Datadog·Grafana 파이프라인과 함께 트레이스를 보내 봅니다.[5]
관측성 시장 비교 자료들은 LangSmith가 LangChain 스택 추적·프롬프트 관리·평가에 강점이 있는 반면, 좌석당 39달러로 시작가가 있고 단순 비용 추적·캐싱이 주된 목적이라면 헬리콘(Helicone) 같은 프록시 도구가 더 가벼울 수 있다고 정리합니다.[12] 파인튜닝·하이퍼파라미터 스윕까지 함께 다뤄야 한다면 Weights & Biases가 ML 전반에서 더 성숙합니다.[12] 또한 LangChain 친화 설계 특성상 비(非)LangChain 스택에서 동일한 깊이의 트레이스를 얻으려면 OpenTelemetry 수동 계측이 필요하고, 네이티브 SDK 대비 약간의 오버헤드가 따른다는 점이 공식 문서에 명시돼 있습니다.[5]
진화 방향은 프레임워크 중립성과 에이전트 엔지니어링 플랫폼화입니다. 2025년 LangSmith는 OpenTelemetry 종단간 지원을 도입해 OpenAI Agents SDK·Vercel AI SDK·Pydantic AI 같은 비LangChain 스택과도 양방향 연동이 가능해졌습니다.[5][13] 시리즈 B 발표문은 LangSmith를 "에이전트 엔지니어링 플랫폼"으로 재정의하며 관측·평가·배포·AI Agent Builder를 한 제품에 묶었고, Klarna·Uber·LinkedIn·Replit·Cisco·J.P. Morgan 같은 운영 사례를 함께 공개했습니다.[3] 매니지드 클라우드 외에 BYOC(자체 클라우드)·셀프 호스팅 옵션이 정식 출시돼 데이터 레지던시 요건에 대응할 수 있게 된 점도 엔터프라이즈 채택 확대의 근거가 됩니다.[1][3]
- 유사 개념AI Pair Programmer같은 AI 개발도구 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념AI IDE같은 AI 개발도구 갈래에서 자주 함께 등장하는 개념입니다.
- 유사 개념Cursor Tab같은 AI 개발도구 갈래에서 자주 함께 등장하는 개념입니다.
- LangSmith Observability — 공식 문서 — 공식 문서 · LangChain · 2026
- Announcing the General Availability of LangSmith and Our Series A Led By Sequoia Capital — 회사 공식 발표 · LangChain Blog · 2024-02-15
- LangSmith: AI Agent & LLM Observability Platform — 공식 제품 페이지 · LangChain · 2026
- Rakuten: Building Enterprise-Scale AI Applications with LangChain and LangSmith — 사례 연구 · ZenML LLMOps Database (원본 LangChain 블로그) · 2024
- LLM용 추적 및 디버깅 도구 '랭스미스' 따라잡기 — 권위 매체 · CIO Korea · 2023-10-16
- The Complete Guide to LLM Observability Platforms — 시장 비교 자료 · Helicone · 2025
- LangChain lands $25M round, launches platform to support entire LLM application lifecycle — 권위 매체 · VentureBeat · 2024-02-15
이 페이지가 도움이 되었나요?
제안·수정 요청은 meet@percent.ac 로 보내주시면 다음 갱신에 반영합니다.