2.5 강화학습 행동가치, 점진적구현, 비정상성
🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
머신러닝/강화학습
2025. 4. 16. 12:34
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 일본어문법무작정따라하기
- 윤성우
- 정보처리기사
- 코딩테스트
- C/C++
- 류근관
- 보세사
- 백준
- 통계
- K-MOOC
- 심리학
- 오블완
- c++
- Python
- 여인권
- 회계
- 파이썬
- C
- 열혈프로그래밍
- stl
- 티스토리챌린지
- 강화학습
- 사회심리학
- 일본어
- 인프런
- 인지부조화
- 통계학
- 일문따
- 뇌와행동의기초
- 데이터분석
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함