'UCB' 태그의 글 목록

상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection)

📘 2.7 상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection)✅ 1. 탐험이라는 문제는 끝나지 않았다지금까지 우리는 ε-greedy와 낙관적 초기값이라는 두 가지 방식으로 강화학습에서의 ‘탐험 문제’를 다루어 왔습니다.ε-greedy는 일정 확률로 무작위 행동을 고르고, 낙관적 초기값은 Q값을 일부러 높게 시작해서 실망을 유도함으로써 간접적으로 모든 행동을 탐험하게 했습니다.하지만 이들 방식에는 한 가지 근본적인 한계가 있었습니다."무작위로 고르거나, 실망을 유도하는 방식은 탐험의 타당성 여부를 판단하지 않는다."이런 질문을 수학적으로 정의해낸 방식이 바로 UCB(Upper Confidence Bound)입니다.✅ 2. 평균이 낮아도, 가능성은 클 ..

머신러닝/강화학습 2025. 4. 17. 23:08

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

일상 일기 블로그

티스토리툴바