2.6 초기에 높은 Q값은 왜 학습을 빨리 시키는가?
📘 2.6 낙관적 초기값 (Optimistic Initial Values)>✅ 1. 강화학습의 출발점: 행동을 해보기 전까진 아무것도 알 수 없다강화학습에서 에이전트가 하는 일은 매우 단순합니다.어떤 행동을 선택하면,그 결과로 보상이 주어지고,그 보상을 바탕으로 다음 행동을 더 똑똑하게 고르게 되는 것입니다.하지만 여기서 아주 단순하지만 강력한 진실이 있습니다.“직접 해보기 전까진, 어떤 행동이 좋은지 알 수 없다.”이건 실생활에서도 똑같습니다.예를 들어 음식점을 선택할 때,인터넷 평점이나 추천으로는 어느 정도 감은 오지만,진짜 맛있는 집이 어딘지는 직접 먹어봐야 압니다.마찬가지로, 에이전트가 강화학습 환경에서 처음 접하는 행동들은모두 무지의 상태에서 출발합니다.즉, 지금 선택한 행동이 좋은지 나쁜지는..
머신러닝/강화학습
2025. 4. 17. 22:48
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 강화학습
- c++
- 인지부조화
- 일본어
- 심리학
- 백준
- 통계
- K-MOOC
- 열혈프로그래밍
- 인프런
- 통계학
- Python
- 파이썬
- 코딩테스트
- 회계
- 윤성우
- 사회심리학
- C
- 여인권
- jlpt
- 오블완
- 티스토리챌린지
- 류근관
- 데이터분석
- 뇌와행동의기초
- stl
- 보세사
- C/C++
- 일문따
- 일본어문법무작정따라하기
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함
반응형