Mistral Small 4, 오픈소스 119B MoE 모델로 AI 서비스 비용 구조를 바꾸다

Mistral AI가 공개한 119B MoE 모델 Mistral Small 4는 Apache 2.0 오픈소스로 기업 AI 서비스 비용 구조를 바꿀 수 있습니다. MoE 구조의 비용 효율과 자체 호스팅 가능성을 분석합니다.

# Mistral Small 4, 오픈소스 119B MoE 모델로 AI 서비스 비용 구조를 바꾸다

AI 서비스를 직접 운영하면서 가장 많이 받는 질문 중 하나가 "API 비용이 얼마나 드냐"입니다. Mistral AI가 최근 공개한 Mistral Small 4는 이 질문의 공식을 아예 바꿔버릴 가능성이 있습니다.

Mistral Small 4, 무엇이 다른가?

2026년 3월 말 출시된 Mistral Small 4는 119B(1190억) 파라미터의 Mixture-of-Experts(MoE) 구조 모델입니다. 언뜻 보면 "또 큰 모델이네"라고 넘어갈 수 있지만, 핵심은 두 가지입니다.

첫째, 128개의 전문가(expert) 중 실제 추론에서는 토큰당 4개만 활성화됩니다. 즉, 메모리에는 119B가 올라오지만 실제 연산량은 6B 수준입니다. 이게 MoE 구조의 핵심인데, 정확도는 대형 모델 수준을 유지하면서 속도와 비용은 소형 모델처럼 가져갈 수 있다는 의미입니다.

둘째, Apache 2.0 라이선스입니다. 상업적 이용, 파인튜닝, 자체 호스팅 모두 허용됩니다. 이 부분이 기업 입장에서는 GPT나 Claude API에 종속되지 않아도 된다는 실질적인 선택지를 제공합니다.

성능 수치로 보면 어느 정도인가?

Mistral AI가 공식 발표한 벤치마크에 따르면, Mistral Small 4는 GPT-4o-mini, Qwen2.5-72B, Llama 3.3-70B 등 비슷한 크기 혹은 유사 성능대의 모델들을 여러 벤치마크에서 앞서거나 비슷한 수준을 보입니다. 특히 코딩 작업에서 에이전틱 코딩 능력이 강화됐고, 256K 컨텍스트 윈도우를 지원하기 때문에 긴 문서나 대화 히스토리를 처리해야 하는 서비스에서도 유용합니다.

Mistral Small 3 대비로는 지연시간이 40% 줄었고, 처리량(throughput)은 3배 향상됐다고 합니다. 실제 배포 환경에서 이 수치가 그대로 재현되는지는 서버 스펙과 배치 크기에 따라 다르겠지만, 방향성 자체는 명확합니다.

멀티모달 지원과 에이전틱 코딩

Mistral Small 4는 텍스트만 처리하는 게 아닙니다. 이미지 이해(Vision) 기능을 내장하고 있어, 멀티모달 서비스 개발에도 바로 활용 가능합니다. 여기에 함수 호출(function calling)과 구조화된 출력(structured output)도 지원하기 때문에, AI 에이전트나 복잡한 워크플로우를 구성할 때 자연스럽게 통합됩니다.

나무숲에서도 고객사 AI 서비스를 설계할 때 "어떤 모델을 쓸 것인가"가 늘 중요한 결정 포인트입니다. 클로즈드 API는 빠르게 시작할 수 있지만 비용 예측이 어렵고, 데이터가 외부로 나간다는 점이 걸립니다. 오픈소스 모델은 이 두 문제를 해결하지만 성능과 유지보수가 리스크입니다. Mistral Small 4는 그 균형점으로서의 가능성을 보여주는 모델입니다.

기업 AI 서비스 도입에 실질적으로 어떤 의미인가?

비용 구조 재설계가 가능해진다

API 기반으로 서비스를 운영하면 트래픽이 늘수록 비용이 선형으로 증가합니다. 반면 자체 호스팅 모델은 초기 인프라 비용이 들지만 이후에는 고정 비용에 가까워집니다. MAU 수만 이상의 서비스라면 이 차이가 상당히 커질 수 있습니다.

데이터 주권을 유지할 수 있다

의료, 법률, 금융 등 민감한 도메인에서는 데이터가 외부 API로 나가는 것 자체가 규정 위반이 될 수 있습니다. 자체 서버에 올리는 오픈소스 모델은 이 문제를 원천 차단합니다.

파인튜닝으로 도메인 특화

Apache 2.0이라는 건 파인튜닝도 자유롭게 할 수 있다는 의미입니다. 기업 내부 문서, 도메인 특화 언어, 독자적인 스타일로 모델을 커스터마이즈하고 싶다면 Mistral Small 4는 좋은 베이스 모델이 됩니다.

자체 호스팅, 생각보다 어렵지 않을 수도 있다

"자체 호스팅"이라고 하면 막연하게 복잡해 보일 수 있습니다. H100이나 A100 GPU 서버를 직접 구축해야 한다고 생각하면 진입 장벽이 높습니다. 그러나 최근에는 vLLM, Ollama, Hugging Face Inference Endpoints 같은 도구들이 많이 성숙했고, AWS나 GCP의 GPU 인스턴스를 온디맨드로 활용하는 방법도 있습니다.

119B MoE 모델의 경우 실제로는 6B 수준의 연산량이기 때문에, 4비트 양자화(quantization)를 적용하면 A100 1~2장으로도 실용적인 추론이 가능합니다. 이 정도면 중견 스타트업도 충분히 검토해볼 만한 선택지입니다.

오픈소스 LLM 전략의 변곡점

오픈소스 LLM 시장은 매달 새로운 모델이 등장할 만큼 빠르게 움직이고 있습니다. Mistral Small 4는 그중에서도 기업 실무 적용 가능성이 높은 편에 속합니다. Apache 2.0 라이선스, MoE 구조의 비용 효율, 멀티모달 지원, 에이전틱 코딩 능력이 한 모델에 묶여 있으니까요.

AI 서비스를 구상 중인데 클로즈드 API 비용이 걱정된다면, 혹은 데이터 보안 때문에 자체 호스팅이 필요하다면 — Mistral Small 4가 하나의 현실적인 선택지가 될 수 있습니다. 모델 선택부터 인프라 구성, 서비스 개발까지 나무숲(TreeSoop)의 AI 개발 서비스와 함께 고민해보세요.