📘 2.7 상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection)✅ 1. 탐험이라는 문제는 끝나지 않았다지금까지 우리는 ε-greedy와 낙관적 초기값이라는 두 가지 방식으로 강화학습에서의 ‘탐험 문제’를 다루어 왔습니다.ε-greedy는 일정 확률로 무작위 행동을 고르고, 낙관적 초기값은 Q값을 일부러 높게 시작해서 실망을 유도함으로써 간접적으로 모든 행동을 탐험하게 했습니다.하지만 이들 방식에는 한 가지 근본적인 한계가 있었습니다."무작위로 고르거나, 실망을 유도하는 방식은 탐험의 타당성 여부를 판단하지 않는다."이런 질문을 수학적으로 정의해낸 방식이 바로 UCB(Upper Confidence Bound)입니다.✅ 2. 평균이 낮아도, 가능성은 클 ..
🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
📘 강화학습이란 무엇인가― 인간처럼 배우는 기계를 향한 첫걸음🧠 우리는 어떻게 배우는가?아이가 처음 숟가락을 쥐고 밥을 먹을 때,그 누구도 정답을 알려주지 않는다.다만 반복하며 행동하고, 결과를 보고, 스스로 개선할 뿐이다.이처럼 인간은 경험을 통해 배우며 성장한다.이러한 학습 방식은 단순한 정답 매칭이 아니다.우리는 행동하고 → 결과를 보고 → 다음 행동을 바꾸며세상 속에서 배우는 존재다.이것이 바로 **강화학습(Reinforcement Learning)**이 모방하려는 구조이다.❓ 기존 학습 방식은 왜 부족한가?기계학습은 크게 두 가지 방식으로 분류된다.지도학습: 정답이 있는 문제에서 학습한다.비지도학습: 데이터의 구조를 찾아낸다.하지만 다음과 같은 문제들은 어떠한가?로봇이 방을 청소할 때, 가장..
- Total
- Today
- Yesterday
- 사회심리학
- 데이터분석
- 오블완
- 파이썬
- stl
- 심리학
- K-MOOC
- 열혈프로그래밍
- 티스토리챌린지
- 일본어문법무작정따라하기
- 일문따
- c++
- 윤성우
- 뇌와행동의기초
- Python
- 통계학
- 회계
- 백준
- 코딩테스트
- 보세사
- 정보처리기사
- 인프런
- 일본어
- 여인권
- 통계
- 인지부조화
- 강화학습
- 류근관
- C
- C/C++
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |