'마르코프 과정' 태그의 글 목록

3.1 유한 마르코프 결정 과정과 에이전트–환경 구조

📘 3.1 유한 마르코프 결정 과정과 에이전트–환경 구조― 선택, 결과, 그리고 목표를 향한 학습의 기본 구조✅ 1. 마르코프 결정 과정(MDP)이란?강화학습은 단순한 예측이 아니라, 선택을 통해 보상을 극대화하고 목표를 달성하는 과정입니다. 에이전트는 어떤 환경 안에서 반복적으로 상태(state)를 관찰하고, 그에 따라 행동(action)을 선택합니다. 그 선택의 결과로 보상(reward)을 받으며, 이 경험을 바탕으로 더 나은 전략을 학습합니다.이러한 상호작용 과정을 수학적으로 정의한 것이 바로 마르코프 결정 과정(Markov Decision Process, MDP)입니다.📌 MDP의 기본 구성요소구성 요소설명상태 \( S \)에이전트가 현재 처한 환경의 정보입니다.행동 \( A \)에이전트가 상..

머신러닝/강화학습 2025. 4. 18. 17:27

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

일상 일기 블로그

티스토리툴바