2.9 Contextual Bandits ― 상황에 따라 다른 행동을 선택해야 한다는 말의 의미
📘 2.9 Contextual Bandits ― 상황에 따라 다른 행동을 선택해야 한다는 말의 의미✅ 정의: Contextual Bandits란?Contextual Bandit(상황 기반 밴딧)은 기존의 단순 밴딧 문제보다 한 단계 더 현실적인 상황을 다룹니다.기존 밴딧에서는 어떤 행동을 선택할지를 고민했다면, Contextual Bandit은 "지금 이 상황에서 어떤 행동을 해야 하느냐"를 학습합니다.즉, 모든 행동은 상황에 따라 보상이 달라진다는 전제를 갖고 있으며, 우리는 상황을 구별해서 그에 맞는 최적의 행동을 찾아야 합니다.✅ 철학적 문제의식: 왜 상황을 고려해야 하는가?앞선 Gradient Bandit 알고리즘이나 일반적인 밴딧 문제들은 행동의 기대 보상 \( Q(a) \)를 추정하고,..
머신러닝/강화학습
2025. 4. 18. 15:39
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 오블완
- 심리학
- 일본어
- 티스토리챌린지
- 백준
- 파이썬
- 코딩테스트
- 통계학
- 열혈프로그래밍
- C/C++
- 류근관
- C
- 정보처리기사
- 윤성우
- 강화학습
- K-MOOC
- stl
- 회계
- 일본어문법무작정따라하기
- 여인권
- 데이터분석
- 뇌와행동의기초
- 보세사
- 인지부조화
- 통계
- 인프런
- 사회심리학
- Python
- c++
- 일문따
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함
반응형