2.5 강화학습 행동가치, 점진적구현, 비정상성
🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
머신러닝/강화학습
2025. 4. 16. 12:34
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 학습이론
- 통계학
- 물류관리사
- 데이터분석
- 티스토리챌린지
- 행동심리학
- 코딩테스트
- 윤성우
- 유통관리사
- 행동주의
- 백준
- 일문따
- 학습심리학
- 심리학
- 열혈프로그래밍
- 보세사
- 인지부조화
- c++
- Python
- K-MOOC
- 회계
- 정보처리기사
- 조건형성
- 일본어문법무작정따라하기
- 오블완
- 강화학습
- C
- 류근관
- 통계
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
글 보관함
반응형