데이터 분석이나 머신러닝 프로젝트를 진행하다 보면 이런 상황을 자주 겪습니다.
- “일단 모델부터 만들어볼까?”
- “데이터는 있는데 뭘 해야 할지 모르겠다”
- “분석은 끝났는데 이게 비즈니스에 도움이 되나?”
이런 문제를 방지하기 위해 만들어진 것이 바로 CRISP-DM입니다.
CRISP-DM은 Cross-Industry Standard Process for Data Mining으로 즉, 산업 전반에서 통용되는 데이터 분석 표준 프로세스입니다.
CRISP-DM이란?
CRISP-DM은 데이터 분석 프로젝트를 6단계의 순환 구조로 정의합니다.
중요한 점은 선형(직선)이 아니라 반복(iterative) 구조라는 것입니다. 중간에 언제든 이전 단계로 돌아갈 수 있습니다.
Business Understanding ↓
Data Understanding ↓
Data Preparation ↓
Modeling ↓
Evaluation ↓
Deployment ↺ (필요 시 반복)
1. Business Understanding (비즈니스 이해)
무엇을 위한 분석인가?
이 단계는 기술이 아니라 목적이 핵심입니다.
- 해결하고 싶은 문제는 무엇인가?
- 성공의 기준은 무엇인가?
- 제약 조건은 무엇인가? (시간, 데이터, 비용 등)
흔한 실수
- “일단 딥러닝 써보자”
- “정확도 99%가 목표”
좋은 질문 예시
- 고객 이탈을 줄이면 회사에 어떤 이익이 생기는가?
- 예측 오차가 어느 정도까지 허용 가능한가?
2. Data Understanding (데이터 이해)
데이터는 어떤 상태인가?
이 단계에서는 데이터를 만져보기 전에 관찰합니다.
- 데이터 수집
- 데이터 구조 파악
- 기초 통계 확인
- 결측치, 이상치 탐색
“데이터를 이해하지 못한 모델은 의미가 없다”
3. Data Preparation (데이터 준비)
모델이 먹을 수 있는 형태로 가공
실제 프로젝트 시간의 60~80%가 이 단계에 쓰입니다.
- 결측치 처리
- 정규화 / 스케일링
- 인코딩 (One-hot, Label encoding 등)
- Feature Engineering
- Train / Validation / Test 분리
이 단계에서의 결정은 모델 성능과 해석 가능성에 직접적인 영향을 줍니다.
4. Modeling (모델링)
모델을 학습시키는 단계
여기서야 비로소 우리가 흔히 말하는 ML/DL 모델이 등장합니다.
- 알고리즘 선택
- 하이퍼파라미터 설정
- 학습 및 비교
예:
- Regression / Classification
- RandomForest vs XGBoost
- CNN / U-Net / Transformer 등
중요
- 모델 선택은 문제 정의와 데이터 특성에 따라 달라진다
- 항상 여러 모델을 비교해야 한다
5. Evaluation (평가)
이 모델은 쓸 수 있는가?
단순한 정확도(Accuracy)만 보면 안 됩니다.
- Precision / Recall / F1
- ROC-AUC
- 비즈니스 관점의 손실 함수
“이 모델을 실제로 써도 되는가?”
- 과적합은 없는가?
- 새로운 데이터에서도 잘 작동하는가?
- 비즈니스 목표를 만족하는가?
6. Deployment (배포)
실제 세상에 적용하기
모델은 배포되지 않으면 의미가 없습니다.
- API 형태로 서비스
- 주기적 배치 예측
- 대시보드 연동
- 모델 성능 모니터링
배포 후에도:
- 데이터 분포 변화 (Data Drift)
- 성능 저하
- 재학습 필요성
다시 Business Understanding으로 돌아갑니다.
CRISP-DM의 핵심 철학
✔ 기술 중심이 아닌 문제 중심
✔ 한 번에 끝나는 것이 아닌 반복 개선
✔ 분석가, 개발자, 비즈니스 담당자 간 공통 언어
CRISP-DM이 여전히 유효한 이유
- 딥러닝, Diffusion, LLM 시대에도 그대로 적용 가능
- 오히려 모델이 복잡해질수록 프레임워크의 중요성 증가
- 논문, 실무, 포트폴리오 모두에서 설득력 있음
마무리
CRISP-DM은 “모델을 잘 만드는 방법”이 아니라 “문제를 제대로 푸는 방법” 입니다.
데이터 프로젝트가 자주 엉키거나 분석 결과가 설득력이 부족하다면 CRISP-DM을 기준으로 한 번 다시 점검해보세요.