2.5 강화학습 행동가치, 점진적구현, 비정상성
🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
머신러닝/강화학습
2025. 4. 16. 12:34
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 류근관
- 행동심리학
- 조건형성
- 파이썬
- 강화학습
- 코딩테스트
- 학습심리학
- 인지부조화
- 백준
- 회계
- 통계학
- 통계
- 보세사
- 열혈프로그래밍
- 오블완
- 데이터분석
- 심리학
- 일본어문법무작정따라하기
- 윤성우
- 학습이론
- K-MOOC
- 물류관리사
- 티스토리챌린지
- 행동주의
- c++
- Python
- C
- 정보처리기사
- 일본어
- 일문따
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
글 보관함
반응형