[단단한 강화학습] 2장. k-armed machine
🎰 강화학습은 왜 실패를 허용해야 하는가?— 시행착오를 통해 배우는 선택, 가치, 전략의 원리우리는 날마다 정답이 없는 선택을 합니다점심시간, 늘 가던 식당에 갈지,새로 생긴 파스타집에 도전해볼지.유튜브 추천 영상 중 친숙한 채널을 고를지,처음 보는 썸네일을 눌러볼지.이런 선택에는 정해진 답이 없습니다.결과를 미리 알 수 없고,선택한 뒤에야 좋았는지 나빴는지를 알게 됩니다.강화학습은 바로 이런 구조—“결과를 통해 더 나은 행동을 학습하는 구조”를기계가 따르도록 만드는 방법입니다.1. 아무 정보 없이 보상을 최대화할 수 있을까?강화학습의 가장 기본적인 문제는여러 개의 선택지 중에서 반복된 시도를 통해가장 좋은 선택을 찾아내는 것입니다.이 구조를 k-armed bandit 문제라고 부릅니다.2. 슬롯머신 ..
머신러닝/강화학습
2025. 4. 16. 10:23
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 류근관
- 통계
- 정보처리기사
- C/C++
- 티스토리챌린지
- K-MOOC
- 일본어문법무작정따라하기
- 백준
- 강화학습
- Python
- 통계학
- 사회심리학
- stl
- 코딩테스트
- 회계
- 인지부조화
- C
- 심리학
- 오블완
- 열혈프로그래밍
- 데이터분석
- 여인권
- 뇌와행동의기초
- 인프런
- 윤성우
- 일본어
- c++
- 보세사
- 일문따
- 파이썬
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함