2.5 강화학습 행동가치, 점진적구현, 비정상성
🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
머신러닝/강화학습
2025. 4. 16. 12:34
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 학습심리학
- 심리학
- 일본어문법무작정따라하기
- 회계
- 조건형성
- 행동주의
- 통계
- 류근관
- 통계학
- 강화학습
- 일문따
- 인지부조화
- 행동심리학
- 학습이론
- Python
- 티스토리챌린지
- 백준
- 코딩테스트
- 보세사
- c++
- 윤성우
- 유통관리사
- 파이썬
- K-MOOC
- 물류관리사
- 정보처리기사
- 열혈프로그래밍
- C
- 오블완
- 데이터분석
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
글 보관함
반응형