티스토리 뷰
📘 2.9 Contextual Bandits ― 상황에 따라 다른 행동을 선택해야 한다는 말의 의미
✅ 정의: Contextual Bandits란?
Contextual Bandit(상황 기반 밴딧)은 기존의 단순 밴딧 문제보다 한 단계 더 현실적인 상황을 다룹니다.
기존 밴딧에서는 어떤 행동을 선택할지를 고민했다면,
Contextual Bandit은 "지금 이 상황에서 어떤 행동을 해야 하느냐"를 학습합니다.
즉, 모든 행동은 상황에 따라 보상이 달라진다는 전제를 갖고 있으며, 우리는 상황을 구별해서 그에 맞는 최적의 행동을 찾아야 합니다.
✅ 철학적 문제의식: 왜 상황을 고려해야 하는가?
앞선 Gradient Bandit 알고리즘이나 일반적인 밴딧 문제들은 행동의 기대 보상 \( Q(a) \)를 추정하고, 그 값이 가장 높은 행동을 반복해서 선택함으로써 보상을 극대화하려 했습니다.
그러나 이 방식은 세상 대부분의 문제에 적용할 수 없습니다.
왜냐하면 현실에서는 동일한 행동이더라도 상황에 따라 결과가 달라지기 때문입니다.
예를 들어:
- 낮에 커피를 마시면 각성 효과가 있지만 밤에 마시면 수면을 방해합니다.
- 비가 올 땐 우산을 챙기는 게 좋은 선택이지만, 맑은 날엔 의미 없는 선택입니다.
즉, “무조건적으로 좋은 행동”이라는 것은 존재하지 않으며, 그 행동이 좋은지는 오직 상황에 달려 있다는 점이 Contextual Bandit의 출발점입니다.
✅ 해결하려는 구조: \( Q(a \mid x) \), 즉 "상황에 따른 행동의 가치"
기존 알고리즘들은 다음과 같은 구조를 가졌습니다:
\[ Q(a): \text{행동 } a \text{의 고정된 기대 보상} \]
하지만 상황이 중요한 경우에는, 이렇게 표현해야 합니다:
\[ Q(a \mid x): \text{상황 } x \text{에서 행동 } a \text{를 했을 때 기대되는 보상} \]
이 말은 곧, 강화학습 시스템은 상황 \( x \)가 주어졌을 때, 어떤 행동 \( a \)가 가장 좋은지를 예측하는 구조를 학습해야 한다는 뜻입니다.
✅ 작동 방식: \( Q(x, a) \)라는 함수 근사기를 학습한다
Contextual Bandit은 결국 하나의 함수 \( Q(x, a) \)를 학습합니다.
이 함수는 특정 상황 \( x \)와 행동 \( a \)의 조합이
어떤 기대 보상을 가져오는지를 예측합니다.
여기서 중요한 건 상황 \( x \)도, 행동 \( a \)도 각각 독립적인 벡터로 표현될 수 있으며, 이 둘을 어떤 방식으로 “결합”하여 학습에 넣느냐가 모델링의 핵심이 됩니다.
✅ 현실적 수식 기반 예시 ― 약 추천 시스템
🔸 시나리오
병원에서 환자에게 증상에 따라 약을 추천해야 합니다.
- 상황 \( x \): 환자의 증상 (예: 고열 여부, 기침 여부 → 벡터 \( x = [x_1, x_2] \))
- 행동 \( a \): 약 종류 (예: 해열제 \( a_1 \), 기침약 \( a_2 \))
- 보상 \( R \): 실제로 환자가 나아졌는지 여부 (1 또는 0)
🔸 상황 예시
환자: 고열 있음, 기침 없음 → \( x = [1, 0] \)
🔸 결합 표현 \( \phi(x, a) \)
우리는 상황과 행동을 함께 표현해야 하므로 다음과 같이 만든다:
- \( \phi(x, a_1) = [1, 0, 0, 0] \) → 고열 + 해열제
- \( \phi(x, a_2) = [0, 0, 1, 0] \) → 고열 + 기침약
→ 각 행동마다 상황 벡터를 독립적으로 표현
🔸 모델 파라미터
\( w = [0.8, 0.0, 0.3, 0.0] \)
→ 각 조합의 중요도 (예: 고열+해열제 = 0.8)
🔸 보상 예측
\[ Q(x, a_1) = w^\top \phi(x, a_1) = 0.8 \]
\[ Q(x, a_2) = w^\top \phi(x, a_2) = 0.3 \]
→ 선택: 해열제 \( a_1 \)
✅ 일상적 비유: 넷플릭스 추천 알고리즘
넷플릭스는 사용자마다 상황이 다릅니다.
- 평일 오전에 로그인한 유저에게는 짧고 가벼운 콘텐츠 추천
- 주말 밤에 로그인한 유저에게는 긴 영화나 시리즈 추천
즉, 추천은 단순히 “좋은 콘텐츠”를 보여주는 것이 아니라 “이 사용자의 지금 상황”에 맞는 콘텐츠를 선택하는 것입니다.
✅ 기존 밴딧과의 차이
항목 | 기존 Bandit | Contextual Bandit |
---|---|---|
입력 | 없음 또는 고정 | 상황 벡터 \( x \) |
예측 구조 | \( Q(a) \) | \( Q(a \mid x) \) |
행동 기준 | 고정된 기대값 | 상황 조건부 기대값 |
모델 형태 | 테이블, 상수 | 함수 근사기 (벡터 기반 모델) |
현실 적용 | 제한적 | 추천, 광고, 처방 등 가능 |
✅ 철학적 전환 요약
기존 밴딧이 물었던 질문은:
“어떤 행동이 가장 좋은가?”
Contextual Bandit이 물어보는 질문은:
“지금 이 상황에서 어떤 행동이 가장 좋은가?”
→ 질문이 바뀌었기 때문에 → 모델의 구조, 학습 방식, 표현 방식 모두가 달라져야 합니다.
'머신러닝 > 강화학습' 카테고리의 다른 글
3.1 유한 마르코프 결정 과정과 에이전트–환경 구조 (1) | 2025.04.18 |
---|---|
2.8 Gradient Bandit Algorithms ― 가치 추정이 아니라, 선택 확률 그 자체를 학습한다 (0) | 2025.04.18 |
상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection) (0) | 2025.04.17 |
2.6 초기에 높은 Q값은 왜 학습을 빨리 시키는가? (0) | 2025.04.17 |
2.5 강화학습 행동가치, 점진적구현, 비정상성 (0) | 2025.04.16 |
- Total
- Today
- Yesterday
- stl
- 심리학
- C/C++
- 강화학습
- 사회심리학
- 정보처리기사
- 류근관
- 일문따
- 통계학
- 윤성우
- c++
- Python
- 열혈프로그래밍
- 데이터분석
- 뇌와행동의기초
- 백준
- C
- 일본어문법무작정따라하기
- 티스토리챌린지
- K-MOOC
- 파이썬
- 오블완
- 여인권
- 인지부조화
- 회계
- 통계
- 인프런
- 코딩테스트
- 보세사
- 일본어
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |