구글이 지난 6월 10일, 텍스트 생성 AI 하나를 조용히 공개했습니다. 이름은 DiffusionGemma. 기존 AI보다 최대 4배 빠르게 답변을 냅니다. Apache 2.0 라이선스라 무료입니다. 그리고 중요한 것 하나 더 — 인터넷 없이 내 PC에서 직접 실행할 수 있습니다.
고객 응대 챗봇이 느려서 고객이 기다리다 나가버리는 경험, 혹은 AI 서비스 요금이 부담스러운 경험이 있다면 한 번 읽어볼 만합니다.
▲ DiffusionGemma 핵심 스펙 · 출처: Google DeepMind 발표 (2026.06.10)
"4배 빠르다"는 게 실제로 어떤 차이일까
일반 AI는 답변을 한 글자씩 만듭니다. "안녕하세요, 무엇을 도와드릴까요?"라는 문장을 출력하려면 '안', '녕', '하', '세' 순서대로 하나씩 만들어냅니다. 사람이 키보드를 한 자 한 자 누르는 것과 같습니다.
DiffusionGemma는 다릅니다. 256개 토큰을 한 번에 동시 생성합니다. 타이피스트 대신 인쇄기를 쓰는 셈입니다. RTX 5090 기준으로 초당 700토큰 이상이 나옵니다. 200자짜리 답변도 1초 안에 완성됩니다.
기술 용어로는 확산 모델(Diffusion Model)이라고 합니다. 이미지 생성 AI(미드저니, DALL-E)가 쓰던 방식을 텍스트에 적용한 겁니다. 이미지 AI가 전체 그림을 한 번에 그리듯, DiffusionGemma도 문장을 덩어리째 만들어냅니다.

속도 차이, 숫자로 보면
▲ RTX 5090 기준 토큰 생성 속도 비교 · 출처: Google DeepMind DiffusionGemma 발표 자료 (2026.06.10)
고객 응대 챗봇에서 이 차이가 실감으로 연결됩니다. 기존엔 답변이 한 글자씩 스르르 나오는 게 보였습니다. DiffusionGemma는 답변이 통째로 바로 나타납니다. 고객 입장에서 "AI가 바로 답해줬다"는 느낌이 드는 것과 "기다리다 나가버리는" 차이입니다.
내 PC에서 실행할 수 있을까 — 솔직한 사양 안내
조건이 있습니다. 아무 PC에서나 되지 않습니다.

최소 요구 사양 (26B 모델, 4비트 양자화 기준)
| 항목 | 최소 | 권장 |
|---|---|---|
| GPU VRAM | 18GB | RTX 4090 (24GB) |
| RAM | 32GB | 64GB |
| 저장 공간 | 30GB 여유 | 50GB |
| 운영체제 | Windows 10 / macOS / Linux | — |
RTX 3090(24GB)도 이론상 가능하지만, RTX 4090이 가장 안정적입니다. VRAM이 16GB 이하라면 이 모델은 아직 내 PC용이 아닙니다.
참고: 위 사양표의 "권장: RTX 4090 (24GB)"는 VRAM 용량 기준입니다. 앞서 언급한 초당 700토큰 이상 수치는 RTX 5090 기준이며, RTX 4090에서는 속도가 다를 수 있습니다.
솔직한 장단점
| 장점 | 단점 |
|---|---|
| 응답 속도 최대 4배 빠름 | RTX 4090급 고사양 GPU 필요 |
| 완전 무료·오픈소스(Apache 2.0) | GPT-4o 등 최고급 모델보다 정확도 낮음 |
| 데이터 외부 유출 없음 | 복잡한 추론보다 반복·단순 작업에 적합 |
| 상업용 사용 가능 | 한국어 품질은 영어보다 낮을 수 있음 |
대안 비교: GPU가 없다면 Claude API(초당 100~200토큰, 사용량 과금)나 Ollama + Llama 3(8GB VRAM으로 소형 모델 실행)을 먼저 고려하는 게 현실적입니다. DiffusionGemma는 고사양 GPU가 이미 있는 곳에서 속도 극대화가 목적일 때 빛납니다.
중소기업에서 어떻게 써먹을 수 있나
속도가 빠르면 가장 먼저 "기다림"이 사라집니다. 고객 응대에서 이 차이는 작지 않습니다.

실사용 시나리오 3가지
1. 고객 응대 보조 — "반품 어떻게 해요?", "영업시간은요?" 같은 반복 질문에 빠르게 초안 답변을 생성합니다. 직원이 검토 후 발송하는 방식으로 활용합니다. 답변이 1초 내로 나오니 직원 대기 부담도 줄어듭니다.
2. 문서 초안 빠르게 만들기 — 견적서 안내 문구, 공지사항 초안, 이메일 초안. 반복되는 문서 형식을 빠르게 뽑고 사람이 다듬는 방식입니다. 하루 10~20건이면 시간 절약이 체감됩니다.
3. 내부 업무 FAQ 챗봇 — 사내 정책, 거래처 정보, 절차 안내를 내부용 챗봇으로 만들 수 있습니다. 내 PC에서 돌리니 회사 내부 데이터가 외부 서버로 나가지 않아 보안 걱정이 적습니다.
비젼솔루션이 보는 관점: AI 속도 경쟁에서 놓치기 쉬운 것이 있습니다. 빠른 응답은 결국 데이터가 얼마나 가까이 있느냐의 문제이기도 합니다. 클라우드 AI를 쓰면 질문과 답이 외부 서버를 매번 오갑니다. 로컬 AI는 그 과정이 없습니다. DiffusionGemma가 빠른 이유는 구조 때문이지만, 로컬에서 돌려야 하는 이유는 따로 있습니다 — 고객 데이터, 내부 문서가 어디에 있느냐입니다. 작은 회사일수록 데이터 주권이 생존과 직결됩니다.
Unsloth Studio로 5분 안에 실행하는 법
Unsloth Studio는 DiffusionGemma를 포함한 로컬 AI 모델을 쉽게 실행하는 무료 오픈소스 웹UI입니다. GitHub에서 누구나 내려받을 수 있습니다. (github.com/unslothai/unsloth)

설치 및 실행 — 4단계
1단계 — Python 버전 확인
python --version
Python 3.10 이상이어야 합니다. 없으면 python.org에서 설치합니다.
2단계 — Unsloth Studio 설치
pip install unsloth-studio
3단계 — 실행
unsloth-studio
브라우저가 자동으로 열립니다 (보통 http://localhost:7860).
4단계 — DiffusionGemma 모델 불러오기
- 상단 검색창에
diffusiongemma입력 unsloth/diffusiongemma-26B-A4B-it-GGUF선택- Download 클릭 (약 15~20GB 다운로드, 처음 한 번만 필요)
- 다운로드 완료 후 입력창에 질문 입력 → 즉시 답변
처음 실행 시 주의: 모델 다운로드에 인터넷 연결이 필요합니다. 이후 실행은 오프라인으로 가능합니다. RTX GPU 드라이버가 최신 버전인지 사전 확인하세요.
정리 — 이 AI가 맞는 회사는
RTX 4090급 GPU(24GB VRAM)가 이미 있고, 고객 응대·반복 문서 작업에 AI를 빠르게 붙여보고 싶은 곳이라면 DiffusionGemma + Unsloth Studio 조합이 실용적입니다. 완전히 무료이고, 설치도 어렵지 않습니다.
GPU가 없다면 클라우드 AI API(Claude, ChatGPT)를 먼저 써보고, 비용이 커지거나 데이터 보안이 중요해지는 시점에 로컬 AI 내재화를 검토하는 흐름이 현실적입니다.
AI 도입을 고려 중이지만 어디서부터 시작해야 할지 막막하다면 문의 주세요. 회사 상황에 맞는 방향을 같이 살펴봅니다.
Vision Solution AI 솔루션 문의: 📧 [email protected] 🌐 https://www.visionc.co.kr/ai-solution