티스토리 뷰
🔁 2.4 Incremental Implementation — 왜, 어떻게 점진적으로 배우는가?
1. 평균은 좋은 추정 방식이다. 하지만...
강화학습에서 기계는 행동의 ‘좋고 나쁨’을 평가하기 위해 그 행동을 여러 번 했을 때 받은 보상들의 평균을 사용합니다.
예를 들어 어떤 행동을 다섯 번 수행해 보상으로 3점, 6점, 5점, 4점, 2점을 받았다면, 그 평균은 다음과 같이 계산됩니다:
이제 여섯 번째 시도에서 7점을 받았다면:
이 계산을 하려면 기계는 과거의 모든 보상을 저장해야 합니다. 학습 횟수가 많아지면 이 방식은 매우 비효율적입니다.
2. 기억 없이 평균을 갱신할 수 있을까?
Sutton과 Barto는 다음과 같은 질문을 던집니다:
“기존 평균값과 새로 받은 보상만으로 평균을 바로 갱신할 수는 없을까?”
그 해답이 바로 이번 절의 핵심 개념, Incremental Implementation (점진적 갱신 방식)입니다.
3. 수식 유도 — 한 줄도 생략 없이, 모든 계산을 직접 보여준다
지금까지 \( n \)번 행동을 했고, 보상값이 \( R_1, R_2, ..., R_n \)이라면 평균 행동 가치는 다음과 같습니다:
이제 \( R_{n+1} \)을 새로 받았을 때, 새로운 평균은 다음과 같이 계산됩니다:
분자 \( R_1 + \dots + R_n \)을 \( Q_n \cdot n \)으로 대체하면:
이 분수를 두 항으로 나눠 계산하면:
각 항을 곱셈 형태로 정리하면:
▶ 항등변환 세부 전개
전체 수식으로 다시 정리하면:
공통 분모 \( \frac{1}{n+1} \)으로 묶으면:
4. 이 수식은 단순한 계산이 아니다
이 수식은 기계가 판단을 어떻게 조정하는지를 설명합니다.
- \( Q_n \): 지금까지의 신념
- \( R_{n+1} - Q_n \): 예측과 실제의 차이 (오차)
- \( \frac{1}{n+1} \): 학습률
5. 일반화된 갱신 공식
- OldEstimate = 기존 판단
- Target = 새로운 보상
- \( \alpha \) = 학습률
6. 철학적 해석 — 인간은 이렇게 배운다
우리는 새 정보를 접할 때 기존 판단을 완전히 버리기보다, 그 차이를 오차로 보고 서서히 신념을 조정해 나갑니다.
경험이 쌓일수록 변화에 덜 흔들리고, 그게 바로 이 수식이 담고 있는 철학입니다.
'머신러닝 > 강화학습' 카테고리의 다른 글
상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection) (0) | 2025.04.17 |
---|---|
2.6 초기에 높은 Q값은 왜 학습을 빨리 시키는가? (0) | 2025.04.17 |
2.5 강화학습 행동가치, 점진적구현, 비정상성 (0) | 2025.04.16 |
[단단한 강화학습] 2장. k-armed machine (0) | 2025.04.16 |
[단단한 강화학습 1장] 강화학습이란 무엇인가 (0) | 2025.04.16 |
- Total
- Today
- Yesterday
- 윤성우
- K-MOOC
- 뇌와행동의기초
- 일문따
- Python
- 일본어문법무작정따라하기
- 데이터분석
- C/C++
- 오블완
- 강화학습
- 통계
- stl
- 파이썬
- 열혈프로그래밍
- 일본어
- 백준
- jlpt
- 통계학
- 인프런
- 심리학
- c++
- 코딩테스트
- 보세사
- 회계
- 류근관
- C
- 여인권
- 인지부조화
- 사회심리학
- 티스토리챌린지
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |