원-핫 인코딩은 범주형 데이터를 안전하게 표현하는 가장 직관적인 방법입니다.
원핫 인코딩을 하는 이유
머신러닝이나 딥러닝을 공부하다 보면 가장 먼저 마주치는 전처리 기법 중 하나가 원-핫 인코딩(One-Hot Encoding)입니다. 단순히 “범주형 데이터를 숫자로 바꾸는 방법”이라고만 외우기엔, 왜 이
whitecode2718.tistory.com
하지만 실제 문제를 조금만 확장해보면, 곧 한계에 부딪히게 됩니다. 이때 등장한 개념이 임베딩(Embedding)입니다.
1. 원-핫 인코딩의 한계에서 출발
이전에 설명했듯 원-핫 인코딩은 아래와 같습니다.
- 차원 수 = 범주 개수
- 대부분의 값 = 0
- 의미는 “켜졌는지 / 꺼졌는지” 뿐
이 방식은 범주 수가 적을 땐 문제없지만, 현실 데이터는 그렇지 않습니다.
대표적인 문제
- 단어 수: 수만 ~ 수십만 개
- 제품 ID, 사용자 ID
- 재료 조합, 공정 조건, G-code 토큰
→ 원-핫 벡터의 차원이 너무 커짐
2. 차원 폭발 문제 (Curse of Dimensionality)
범주가 100,000개라면?
- 원-핫 벡터 차원 = 100,000
- 실제 정보는 단 하나의 1
모델입장에서는 다음과 같은 문제가 발생합니다.
- 메모리 낭비
- 연산 낭비
- 학습 효율 저하
여기서 더 중요한 문제가 있습니다.
→ 범주 간의 ‘관계’를 표현할 수 없다
3. 원-핫은 “동일함”만 표현
원-핫 벡터에서 두 범주는:
- 같으면 완전히 동일
- 다르면 완전히 무관
예를 들어:
- cat vs dog
- PLA vs ABS
- G1 X10 vs G1 X11
원-핫 관점에서는 전부 서로 완전히 다른 존재입니다.
(비슷함, 거리, 구조 같은 건 전혀 없음)
4. 임베딩의 핵심 아이디어
“이 범주를 낮은 차원의 연속적인 벡터 공간에 놓으면 어떨까?”
즉, 고차원 원-핫 벡터 → 저차원 실수 벡터
| cat | [0.12, -0.83, 1.45] |
| dog | [0.15, -0.79, 1.38] |
| car | [-1.2, 0.9, -0.4] |
여기서 중요한 점은 아래와 같습니다.
- cat ↔ dog: 가깝다
- cat ↔ car: 멀다
(의미적 거리가 생김)
5. 임베딩은 어떻게 만들어질까?
“임베딩은 사람이 정해주는 벡터다?”
임베딩은 사람이 일일히 정해주는 개념이 아닙니다.
임베딩은 학습함
실제로는 아래와 같이 동작합니다.
- 처음엔 임의의 값으로 초기화
- 모델 학습 과정에서
- 손실 함수(Loss)를 줄이는 방향으로 갱신
즉, 임베딩도 학습 가능한 파라미터(weight)입니다
6. 임베딩의 장점 3가지
(1) 차원 축소
- 100,000차원 → 128차원
- 계산량, 메모리 대폭 감소
(2) 관계와 구조를 학습
- 비슷한 것끼리 가까워짐
- 패턴, 군집, 방향성이 생김
이게 가능한 이유는:
- 임베딩 공간이 연속 공간이기 때문
(3) 다운스트림 모델이 쉬워진다
- Transformer
- LSTM
- Diffusion
- Inverse Design
이 모델들은 전부: “연속적인 벡터 공간”을 전제로 설계되어 있습니다.
7. 원-핫 vs 임베딩, 한 줄 비교
| 차원 | 범주 수 | 사용자가 정함 |
| 값 | 0 / 1 | 실수 |
| 관계 표현 | 불가 | 가능 |
| 학습 가능 | ❌ | ✅ |
| 확장성 | 낮음 | 높음 |
8. 언제 임베딩을 써야 할까?
임베딩은 주로 아래와 같은 경우에 사용합니다.
- 범주 개수가 많을 떄
- 비슷함 / 구조 / 맥락이 중요할 떄
- 시퀀스, 조합, 순서가 있을 때
9. 마무리
임베딩은 범주형 데이터를 ‘의미가 있는 좌표’로 바꾸는 과정이다.
원-핫이 “ID”라면 임베딩은 “위치”입니다.
후에 이 개념은 잠재공간으로 확장하게 됩니다.
Latent Space(잠재공간)란?
데이터의 본질적인 특성을 좌표로 표현한 숨겨진 공간 Latent space(잠재공간) 는 복잡하고 고차원적인 원본 데이터를 더 단순하면서도 의미 있는 형태로 압축하여 표현한 공간입니다. 이미지, 음
whitecode2718.tistory.com
'Computer Science > 딥러닝' 카테고리의 다른 글
| 딥러닝 모델의 최적화 기법 정리 (0) | 2026.02.14 |
|---|---|
| 원핫 인코딩을 하는 이유 (0) | 2026.02.07 |
| 다중공선성이란? (0) | 2026.02.05 |
| 파운데이션 모델(Foundation Model)이란? (0) | 2026.01.31 |
| Latent Space(잠재공간)란? (0) | 2026.01.23 |