🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
🔁 2.4 Incremental Implementation — 왜, 어떻게 점진적으로 배우는가?1. 평균은 좋은 추정 방식이다. 하지만... 강화학습에서 기계는 행동의 ‘좋고 나쁨’을 평가하기 위해 그 행동을 여러 번 했을 때 받은 보상들의 평균을 사용합니다.예를 들어 어떤 행동을 다섯 번 수행해 보상으로 3점, 6점, 5점, 4점, 2점을 받았다면, 그 평균은 다음과 같이 계산됩니다:\( Q_5 = \frac{3 + 6 + 5 + 4 + 2}{5} = \frac{20}{5} = 4 \)이제 여섯 번째 시도에서 7점을 받았다면:\( Q_6 = \frac{3 + 6 + 5 + 4 + 2 + 7}{6} = \frac{27}{6} = 4.5 \)이 계산을 하려면 기계는 과거의 모든 보상을 저장해야 합니다. ..
- Total
- Today
- Yesterday
- 인지부조화
- c++
- 뇌와행동의기초
- C/C++
- 심리학
- 보세사
- stl
- 일문따
- 사회심리학
- 일본어
- 열혈프로그래밍
- 여인권
- 코딩테스트
- 데이터분석
- 인프런
- 윤성우
- 파이썬
- 류근관
- Python
- C
- jlpt
- K-MOOC
- 회계
- 통계학
- 통계
- 백준
- 일본어문법무작정따라하기
- 강화학습
- 티스토리챌린지
- 오블완
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |