딥러닝이나 생성 모델을 다루다 보면 Google Colab에서 제공되는 GPU 성능 차이가 체감됩니다. 특히 T4 → A100 → H100으로 넘어가면서 연산 속도뿐 아니라 메모리 측면에서도 큰 차이가 있습니다.
이번 글에서는 GPU 세대별 메모리 용량과 특성을 중심으로 차이를 정리합니다.
성능만 늘어나는 게 아니라, 메모리도 늘어날까?
1. T4 GPU – 기본형 GPU
T4는 Colab 무료 환경이나 기본 플랜에서 가장 흔히 제공되는 GPU입니다.
- 메모리 용량: 16GB GDDR6
- 메모리 대역폭: 낮은 편
- 사용 용도:
- 간단한 딥러닝 실습
- 소형 모델 추론
- 경량 CNN, 작은 Transformer
모델이 조금만 커져도 OOM(Out Of Memory) 문제가 쉽게 발생합니다.
2. A100 GPU – 본격적인 학습용 GPU
A100은 데이터센터급 GPU로, Colab Pro 이상에서 간헐적으로 할당됩니다.
- 메모리 용량: 40GB 또는 80GB
- 메모리 타입: HBM2e
- 특징
- T4 대비 메모리 용량 대폭 증가
- 메모리 대역폭도 수 배 이상 향상
A100부터는 Diffusion 모델, 중·대형 Transformer, 고해상도 입력 학습이 안정적으로 가능합니다.
3. H100 GPU – 최신 최상위 GPU
H100은 NVIDIA Hopper 아키텍처 기반의 최신 GPU로, 현존하는 AI 학습 환경 중 최상위 성능을 제공합니다.
- 메모리 용량: 80GB
- 메모리 타입: HBM3
- 특징
- A100과 용량은 같을 수 있지만
- 메모리 대역폭과 접근 효율이 크게 개선
- Transformer / Attention 연산에 최적화된 구조
즉, H100은 단순히 메모리가 “많다”기보다는 같은 용량에서도 훨씬 빠르게 읽고 쓰는 GPU입니다.
4. GPU별 메모리 비교 요약
| T4 | 16GB | GDDR6 | 소형 모델용 |
| A100 | 40 / 80GB | HBM2e | 대형 모델 학습 가능 |
| H100 | 80GB | HBM3 | 최고 속도·효율 |
5. 실제 체감 차이
실제 사용 시 다음과 같은 차이가 발생합니다. 저는 메모리 문제와 H100을 사용학기 위해 코랩 프로+를 결제해서 사용하고 있습니다.
- A100에서 batch size 2로 겨우 동작하던 모델이
→ H100에서는 batch size 4~8까지 확장 가능
- 고해상도 Diffusion 모델에서
→ OOM 발생 빈도 감소
- LLM 학습·추론에서
→ Attention 연산 속도 대폭 향상
결론
GPU가 고급화될수록 단순한 연산 성능 향상뿐 아니라 메모리 용량, 대역폭, 접근 효율까지 함께 개선됩니다.
- T4: 실습 및 경량 작업용
- A100: 본격적인 딥러닝 학습용
- H100: 초대형 모델 및 최신 AI 연구용
대형 모델을 다룰수록 GPU 성능보다 메모리 구조의 차이가 더 크게 체감된다는 점을 기억하는 것이 중요합니다.
'Computer Science > 딥러닝' 카테고리의 다른 글
| 딥러닝에서 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 차이 (0) | 2026.01.19 |
|---|---|
| Flow Matching이란? (0) | 2026.01.17 |
| 객체 탐지(Object Detection) 성능지표 - mAP (0) | 2025.12.10 |
| Pointwise Multiplication 예제 (0) | 2025.12.05 |
| 딥러닝에서 LayerNorm vs BatchNorm: 직관적으로 이해하기 (0) | 2025.12.03 |