📘 3.1 유한 마르코프 결정 과정과 에이전트–환경 구조― 선택, 결과, 그리고 목표를 향한 학습의 기본 구조✅ 1. 마르코프 결정 과정(MDP)이란?강화학습은 단순한 예측이 아니라, 선택을 통해 보상을 극대화하고 목표를 달성하는 과정입니다. 에이전트는 어떤 환경 안에서 반복적으로 상태(state)를 관찰하고, 그에 따라 행동(action)을 선택합니다. 그 선택의 결과로 보상(reward)을 받으며, 이 경험을 바탕으로 더 나은 전략을 학습합니다.이러한 상호작용 과정을 수학적으로 정의한 것이 바로 마르코프 결정 과정(Markov Decision Process, MDP)입니다.📌 MDP의 기본 구성요소구성 요소설명상태 \( S \)에이전트가 현재 처한 환경의 정보입니다.행동 \( A \)에이전트가 상..
📘 2.9 Contextual Bandits ― 상황에 따라 다른 행동을 선택해야 한다는 말의 의미✅ 정의: Contextual Bandits란?Contextual Bandit(상황 기반 밴딧)은 기존의 단순 밴딧 문제보다 한 단계 더 현실적인 상황을 다룹니다.기존 밴딧에서는 어떤 행동을 선택할지를 고민했다면, Contextual Bandit은 "지금 이 상황에서 어떤 행동을 해야 하느냐"를 학습합니다.즉, 모든 행동은 상황에 따라 보상이 달라진다는 전제를 갖고 있으며, 우리는 상황을 구별해서 그에 맞는 최적의 행동을 찾아야 합니다.✅ 철학적 문제의식: 왜 상황을 고려해야 하는가?앞선 Gradient Bandit 알고리즘이나 일반적인 밴딧 문제들은 행동의 기대 보상 \( Q(a) \)를 추정하고,..
📘 2.8 Gradient Bandit Algorithms ― 가치 추정이 아니라, 선택 확률 그 자체를 학습한다✅ 출발점: 기존 가치 기반 방식은 왜 탐험에 실패하는가?강화학습에서 행동을 선택하는 전통적인 방식은, 모든 행동의 평균 보상(기대값)을 추정한 후 그중 가장 좋은 행동을 선택하는 것이었다.예를 들어, 어떤 슬롯머신이 평균적으로 보상 5.0을 주고, 다른 슬롯은 3.0을 준다고 하자. 가장 좋은 슬롯을 반복해서 고르면 되는 것처럼 보인다.그래서 등장한 대표적인 가치 기반 알고리즘들에는 Q-learning, ε-greedy, UCB 등이 있다. 이들은 각 행동에 대해 평균 보상 \( q(a) \)를 추정하고, 가장 높은 값을 가진 행동을 선택한다. ✅ 하지만 이 방식은 ‘처음에..
📘 2.7 상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection)✅ 1. 탐험이라는 문제는 끝나지 않았다지금까지 우리는 ε-greedy와 낙관적 초기값이라는 두 가지 방식으로 강화학습에서의 ‘탐험 문제’를 다루어 왔습니다.ε-greedy는 일정 확률로 무작위 행동을 고르고, 낙관적 초기값은 Q값을 일부러 높게 시작해서 실망을 유도함으로써 간접적으로 모든 행동을 탐험하게 했습니다.하지만 이들 방식에는 한 가지 근본적인 한계가 있었습니다."무작위로 고르거나, 실망을 유도하는 방식은 탐험의 타당성 여부를 판단하지 않는다."이런 질문을 수학적으로 정의해낸 방식이 바로 UCB(Upper Confidence Bound)입니다.✅ 2. 평균이 낮아도, 가능성은 클 ..
📘 2.6 낙관적 초기값 (Optimistic Initial Values)>✅ 1. 강화학습의 출발점: 행동을 해보기 전까진 아무것도 알 수 없다강화학습에서 에이전트가 하는 일은 매우 단순합니다.어떤 행동을 선택하면,그 결과로 보상이 주어지고,그 보상을 바탕으로 다음 행동을 더 똑똑하게 고르게 되는 것입니다.하지만 여기서 아주 단순하지만 강력한 진실이 있습니다.“직접 해보기 전까진, 어떤 행동이 좋은지 알 수 없다.”이건 실생활에서도 똑같습니다.예를 들어 음식점을 선택할 때,인터넷 평점이나 추천으로는 어느 정도 감은 오지만,진짜 맛있는 집이 어딘지는 직접 먹어봐야 압니다.마찬가지로, 에이전트가 강화학습 환경에서 처음 접하는 행동들은모두 무지의 상태에서 출발합니다.즉, 지금 선택한 행동이 좋은지 나쁜지는..
🔄 2.5 Tracking a Nonstationary Problem— 환경이 바뀐다면, 과거를 믿을 수 없다 1. 지금까지는, 환경이 고정되어 있다는 가정앞선 2.4절에서는 다음 수식을 사용했습니다:\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)이 수식은 매우 효율적입니다. 과거의 모든 데이터를 저장하지 않아도 되고, 계산량도 적습니다.하지만 이 수식은 중대한 전제 하나를 깔고 있습니다:환경은 정상적(stationary)이다. 즉, 시간에 따라 보상 분포는 변하지 않는다. 2. 현실은 그렇게 고정되어 있지 않다많은 실제 환경에서는, 시간이 흐름에 따라 행동의 결과가 달라집니다.광고 클릭률은 계절이나 유행에 따라 달라지고슬롯머신의 기계 성능은 오래될수록 저하되..
🔁 2.4 Incremental Implementation — 왜, 어떻게 점진적으로 배우는가?1. 평균은 좋은 추정 방식이다. 하지만... 강화학습에서 기계는 행동의 ‘좋고 나쁨’을 평가하기 위해 그 행동을 여러 번 했을 때 받은 보상들의 평균을 사용합니다.예를 들어 어떤 행동을 다섯 번 수행해 보상으로 3점, 6점, 5점, 4점, 2점을 받았다면, 그 평균은 다음과 같이 계산됩니다:\( Q_5 = \frac{3 + 6 + 5 + 4 + 2}{5} = \frac{20}{5} = 4 \)이제 여섯 번째 시도에서 7점을 받았다면:\( Q_6 = \frac{3 + 6 + 5 + 4 + 2 + 7}{6} = \frac{27}{6} = 4.5 \)이 계산을 하려면 기계는 과거의 모든 보상을 저장해야 합니다. ..
🎰 강화학습은 왜 실패를 허용해야 하는가?— 시행착오를 통해 배우는 선택, 가치, 전략의 원리우리는 날마다 정답이 없는 선택을 합니다점심시간, 늘 가던 식당에 갈지,새로 생긴 파스타집에 도전해볼지.유튜브 추천 영상 중 친숙한 채널을 고를지,처음 보는 썸네일을 눌러볼지.이런 선택에는 정해진 답이 없습니다.결과를 미리 알 수 없고,선택한 뒤에야 좋았는지 나빴는지를 알게 됩니다.강화학습은 바로 이런 구조—“결과를 통해 더 나은 행동을 학습하는 구조”를기계가 따르도록 만드는 방법입니다.1. 아무 정보 없이 보상을 최대화할 수 있을까?강화학습의 가장 기본적인 문제는여러 개의 선택지 중에서 반복된 시도를 통해가장 좋은 선택을 찾아내는 것입니다.이 구조를 k-armed bandit 문제라고 부릅니다.2. 슬롯머신 ..
- Total
- Today
- Yesterday
- 인지부조화
- C
- C/C++
- 류근관
- 인프런
- 뇌와행동의기초
- 일본어
- 통계학
- 일본어문법무작정따라하기
- 강화학습
- K-MOOC
- 보세사
- Python
- stl
- 오블완
- 사회심리학
- 윤성우
- 데이터분석
- 통계
- 일문따
- 파이썬
- 여인권
- 코딩테스트
- 티스토리챌린지
- c++
- jlpt
- 회계
- 열혈프로그래밍
- 심리학
- 백준
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |