Imun Farmer · Published:
- 예상 수확: 5 min read
DGX Spark vs M5 Max — 당신의 책상 위 AI 초소형 전쟁
DGX Spark vs M5 Max — 당신의 책상 위 AI 초소형 전쟁
2025년 말부터 개발자들 사이에서 이상한 논쟁이 불붙었다. “AI 작업을 위해 뭘 사야 하나” — 예전이라면 클라우드 구독이나 서버실 얘기가 나왔겠지만, 지금은 달랐다. 책상 위에 올려놓을 수 있는 두 기기가 서로 맞붙었다. NVIDIA DGX Spark와 Apple MacBook Pro M5 Max. 출발점부터 철학이 다르다. 그래서 비교가 재밌다.
핵심 스펙 한눈에
| 항목 | NVIDIA DGX Spark | MacBook Pro M5 Max |
|---|---|---|
| 칩 | NVIDIA GB10 Grace Blackwell Superchip | Apple M5 Max |
| CPU | 20코어 ARM (Cortex-X925 × 10 + Cortex-A725 × 10) | 18코어 (슈퍼코어 6 + 퍼포먼스코어 12) |
| GPU | Blackwell 아키텍처, 6,144 CUDA 코어 | 최대 40코어 GPU |
| 메모리 | 128GB LPDDR5X 통합 메모리 | 최대 128GB 통합 메모리 |
| 메모리 대역폭 | 273 GB/s | 최대 614 GB/s |
| AI 연산 성능 | 1 PFLOP (FP4 기준) | 공식 미공개 (M4 Max 대비 약 4× AI 성능) |
| 저장장치 | 4TB NVMe SSD | 최대 8TB SSD |
| 폼팩터 | 데스크탑 미니 PC (150×150×50mm) | 노트북 (14” / 16”) |
| 전력 소비 | 최대 240W (SOC TDP: 140W) | 최대 ~140W 충전 어댑터 (실부하 90W 안팎) |
| 운영체제 | DGX OS (Ubuntu 기반) | macOS |
| 가격 | $4,699 (2026년 2월 가격 인상 후) | $3,599~(14” M5 Max 기준) |
| 네트워크 | ConnectX-7 200Gbps QSFP, 10GbE | Thunderbolt 5, Wi-Fi 7 |
두 기기의 설계 철학
NVIDIA DGX Spark는 처음부터 AI 개발 전용으로 설계됐다. 데이터센터 급의 Blackwell GPU 아키텍처를 손바닥만 한 상자(150×150×50mm)에 욱여넣었다. CUDA 생태계, TensorRT-LLM, vLLM — NVIDIA가 쌓아온 AI 소프트웨어 스택이 그대로 따라온다. 그게 전부다. 화면도 없고 키보드도 없다. 순수하게 AI 추론과 파인튜닝을 위한 기기다.
M5 Max는 다르다. Apple은 “세계에서 가장 빠른 단일 CPU 코어”를 탑재한 노트북이라고 했다. 개발자들에게 AI는 부가 기능이었다. 그런데 M5 Max 128GB 구성이 나오면서 상황이 바뀌었다. 영상 편집, 코딩, 인터랙티브 LLM 추론 — 한 대로 다 된다. 그것도 배터리로 22시간.
AI 추론 성능 — 숫자로 따지면
여기서부터 복잡해진다.
DGX Spark의 FP4 1 PFLOP는 이론치다. 실전에서 Llama 3.3 70B 모델을 돌리면 decode 속도가 ~2.7 tokens/sec 수준에 그친다는 보고가 있다. 이유는 단순하다. 메모리 대역폭 병목. 273 GB/s는 Blackwell GPU의 거대한 연산 능력을 받쳐주기엔 부족하다. 배가 고픈 엔진에 연료가 부족한 격이다.
반면 M5 Max (128GB) 는 614 GB/s라는 압도적인 대역폭 덕분에 decode 작업에서 강점을 보인다. 벤치마크에서 Qwen3-122B-A10 모델 기준으로 4K 컨텍스트에서 65.9 tokens/sec, Llama 3.1 70B 계열에서 88.49 tokens/sec 수준을 기록했다. 일반 대화 속도(사람이 읽는 속도 기준 3~5 tokens/sec)의 몇 배를 훌쩍 넘는다.
소형 모델(8B 이하) 영역에서는 DGX Spark도 빠르다. MXFP4 기준 Llama 계열 8B 프롬프트 처리 속도가 ~1,723 tokens/sec 이고 파인튜닝 시 Llama 3.2B 기준 82,739 tokens/sec 피크를 찍는다. 이건 M5 Max가 따라가기 어려운 영역이다.
추론 속도 비교 요약
| 시나리오 | DGX Spark | M5 Max (128GB) |
|---|---|---|
| Llama 70B — Decode | ~2.7 t/s (llama.cpp) / ~49.7 t/s (MXFP4, TRT-LLM) | ~88 t/s (MLX, 4K ctx) |
| 8B 모델 — 프롬프트 처리 | ~1,723 t/s (MXFP4) | ~1,325 t/s (4K ctx) |
| 70B 파인튜닝 (QLoRA) | 5,079 t/s 피크 | 미지원 (학습 프레임워크 제한) |
| 200B 파라미터 모델 추론 | 지원 (단독 FP4 기준) | 지원 가능 (양자화 조건) |
| 405B 파라미터 모델 추론 | 2대 클러스터링 필요 | 사실상 불가 |
메모리 대역폭 — 이것이 핵심
로컬 LLM 추론에서 decode 단계는 메모리 대역폭에 종속된다. 토큰 하나 생성할 때마다 전체 모델 가중치를 메모리에서 한 번 읽어야 하기 때문이다.
- M5 Max: 614 GB/s (M4 Max 546 GB/s 대비 12.5% 향상)
- DGX Spark: 273 GB/s
대역폭 기준으로만 보면 M5 Max가 약 2.25배 넓다. 이것이 실전 interactive inference에서 M5 Max가 DGX Spark를 압도하는 근본 이유다.
물론 DGX Spark도 TensorRT-LLM과 NVFP4 조합으로 최적화하면 상당히 빠른 속도를 낸다. LMSYS의 테스트에서 GPT-OSS 20B MXFP4 모델로 49.7 tokens/sec decode를 기록했다. 이건 평범한 결과가 아니다. 설정이 중요하다.
CUDA vs MLX — 생태계 전쟁
DGX Spark의 진짜 장점은 CUDA 생태계다. AI 개발자의 99%가 PyTorch, TensorRT, vLLM 등 CUDA 기반으로 코드를 짠다. DGX OS(Ubuntu 기반)에 NVIDIA AI 소프트웨어 스택이 사전 설치된다. HuggingFace 모델을 바로 파인튜닝할 수 있고, 클라우드(AWS, GCP, Azure) GPU와 코드 호환이 된다. “클라우드에서 개발하던 것을 책상에서 그대로 돌린다”는 컨셉이 현실이 된다.
M5 Max는 Apple MLX 프레임워크에 의존한다. 오픈소스이고 빠르게 발전하고 있지만, 일부 모델이나 라이브러리는 MLX 지원이 늦다. Key-Value 캐시 재사용 같은 복잡한 기능에서 성숙도 차이가 보인다는 개발자들의 평가도 있다. CoreML과 macOS 커널 스케줄러의 통합 덕분에 인터페이스가 멈추지 않고 자연스럽게 AI 작업을 처리하는 건 큰 장점이다.
전력 효율과 폼팩터
DGX Spark는 최대 240W 외부 전원 어댑터를 필요로 한다. AI 추론 중에는 60–90W 수준에서 동작하는 경우가 많고, 아이들 시 최근 소프트웨어 업데이트 이후 약 22–25W로 낮아졌다. 크기는 두꺼운 하드커버 책 한 권 정도. 정말 작다.
M5 Max MacBook Pro는 무선 노트북이다. 충전 어댑터 용량은 140W이지만 실제 로드 시 CPU+GPU 통합 소비 전력은 약 90W 안팎이다. 배터리가 있으니 콘센트 없이도 쓸 수 있다. 그것도 22시간(동영상 스트리밍 기준). LLM 추론 중에는 당연히 배터리 소모가 빠르지만, 기동성 자체가 다른 차원이다.
가격 현실
원래 DGX Spark는 4,699으로 9,449이다.
MacBook Pro M5 Max는:
- 14인치: $3,599부터 (128GB 구성 시 상당히 올라감)
- 16인치: 7,349)
단순 가격만 보면 엇비슷하거나 M5 Max 쪽이 약간 비싸게 느껴질 수도 있다. 그러나 DGX Spark는 AI 전용 기기고, M5 Max는 일상 업무 + AI를 모두 커버한다. 그 차이를 고려하면 체감 가성비는 다르다.
누가 무엇을 골라야 하나
DGX Spark가 맞는 경우:
- 70B~200B 파라미터 모델 파인튜닝이 주요 목적인 경우
- 기존 PyTorch / CUDA 코드베이스를 그대로 로컬에서 돌리고 싶을 때
- 클라우드 AI 개발 워크플로를 로컬로 마이그레이션할 때
- 두 대를 묶어 405B 모델 추론까지 고려하는 경우
- 고정된 워크스테이션 환경, 이동 필요 없음
M5 Max가 맞는 경우:
- 대화형 LLM 추론, 로컬 코딩 어시스턴트 운용
- 일상 개발 + AI 작업을 한 대로 커버하고 싶을 때
- macOS 개발 환경 (iOS 개발자, 영상 편집 포함)
- 장소를 가리지 않고 쓰는 모바일 파워유저
- 배터리 기반의 오프그리드 AI 추론 환경
한 줄로 정리하면
DGX Spark는 AI를 훈련하고 배포하는 사람의 기기다. M5 Max는 AI를 쓰면서 일하는 사람의 기기다. 같은 128GB 메모리를 달고 있지만, 그 메모리를 어떤 방식으로 어떤 속도로 다루느냐가 둘을 갈라놓는다.
참고 자료
- NVIDIA DGX Spark 공식 사양: https://docs.nvidia.com/dgx/dgx-spark/hardware.html
- NVIDIA DGX Spark 발표 뉴스릴리즈: https://nvidianews.nvidia.com/news/nvidia-dgx-spark-arrives-for-worlds-ai-developers
- Apple M5 Max MacBook Pro 공식 사양 (애플): https://support.apple.com/ko-kr/126319
- Apple 뉴스룸 M5 Pro & M5 Max 발표: https://www.apple.com/newsroom/2026/03/apple-introduces-macbook-pro-with-all-new-m5-pro-and-m5-max/
- LMSYS DGX Spark 심층 리뷰 (추론 벤치마크): https://lmsys.org/blog/2025-10-13-nvidia-dgx-spark/
- Hardware-Corner M5 Max LLM 벤치마크 (2026.03): https://www.hardware-corner.net/m5-max-local-llm-benchmarks-20261233/
- Apple MLX + M5 Neural Accelerator 연구 블로그: https://machinelearning.apple.com/research/exploring-llms-mlx-m5
- DGX Spark 가격 인상 보도 (Tom’s Hardware): https://www.tomshardware.com/desktops/mini-pcs/nvidia-dgx-spark-gets-18-percent-price-increase-as-memory-shortages-bite
- NVIDIA 개발자 블로그 DGX Spark 성능 분석: https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/
- MacBook Pro M5 Max PCMag 리뷰: https://www.pcmag.com/reviews/apple-macbook-pro-16-inch-2026-m5-max
- Simon Willison DGX Spark 실사용 리뷰: https://simonwillison.net/2025/Oct/14/nvidia-dgx-spark/
- Reddit r/LocalLLM M4/M5 Max vs DGX Spark 토론: https://www.reddit.com/r/LocalLLM/comments/1qcmmvw/
- Tom’s Hardware DGX Spark 아이들 전력 업데이트: https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-dgx-spark-update-cuts-idle-power-by-32-percent-or-more
Contribution to this Harvest
내용이 유익했다면 물을 주어 글을 성장시켜주세요!
(0개의 물방울이 모였습니다)