티스토리 뷰

머신러닝/강화학습

3.1 유한 마르코프 결정 과정과 에이전트–환경 구조

키성열 2025. 4. 18. 17:27

📘 3.1 유한 마르코프 결정 과정과 에이전트–환경 구조

― 선택, 결과, 그리고 목표를 향한 학습의 기본 구조

✅ 1. 마르코프 결정 과정(MDP)이란?

강화학습은 단순한 예측이 아니라, 선택을 통해 보상을 극대화하고 목표를 달성하는 과정입니다. 에이전트는 어떤 환경 안에서 반복적으로 상태(state)를 관찰하고, 그에 따라 행동(action)을 선택합니다. 그 선택의 결과로 보상(reward)을 받으며, 이 경험을 바탕으로 더 나은 전략을 학습합니다.

이러한 상호작용 과정을 수학적으로 정의한 것이 바로 마르코프 결정 과정(Markov Decision Process, MDP)입니다.

📌 MDP의 기본 구성요소

구성 요소	설명
상태 $S$	에이전트가 현재 처한 환경의 정보입니다.
행동 $A$	에이전트가 상태에서 선택할 수 있는 가능한 조치입니다.
보상 $R$	환경이 에이전트의 행동에 대해 제공하는 수치 기반 피드백입니다.
전이확률 $p (s^{'}, r ∣ s, a)$	현재 상태 $s$ 에서 행동 $a$ 를 했을 때, 다음 상태가 $s^{'}$ 가 되고 보상 $r$ 이 주어질 확률입니다.

이 네 가지 구성요소는 강화학습 알고리즘이 작동하기 위한 가장 기본적인 학습 단위를 구성합니다.

✅ 2. 왜 유한한 마르코프 결정 과정부터 다루는가?

현실 세계의 많은 문제들은 상태나 행동이 연속적이거나 무한합니다. 예를 들어 드론의 위치는 실수 좌표로 표현되며, 로봇 관절의 각도나 속도도 실수값을 가질 수 있습니다.

이러한 환경에서는 전이확률 $p (s^{'}, r ∣ s, a)$ 을 명시적으로 저장하거나 계산하는 것이 매우 어렵습니다. 따라서 이론을 정립하거나 알고리즘을 분석하기 위해서는, 먼저 유한한 상태와 행동을 전제로 한 간단한 모델부터 출발하는 것이 일반적입니다.

📌 유한 MDP의 정의

유한 마르코프 결정 과정(Finite MDP)이란 다음과 같은 구조를 갖는 경우를 의미합니다.

상태 집합 $S$ , 행동 집합 $A$ , 보상 집합 $R$ 이 유한 개수로 구성됨
전이확률 $p (s^{'}, r ∣ s, a)$ 이 모든 경우에 대해 명시적으로 정의 가능

📘 비교 예시: 체스 vs 드론 제어

사례	상태/행동 구조	MDP 유형
체스	말의 위치, 규칙이 유한하고 명확함	유한 MDP
드론 제어	좌표, 속도, 회전 등 연속적인 물리량	무한 MDP

대부분의 강화학습 이론은 이처럼 유한 MDP 구조를 기반으로 정립되며, 현실 문제에 접근하기 전 개념적 기초를 다지는 데 유리한 출발점이 됩니다.

✅ 3. MDP 예시: 미로 탈출 문제

MDP 구조의 실제 작동 방식을 살펴보기 위한 간단한 예로, 미로에서 출구를 찾는 문제를 생각해 보겠습니다.

📘 예시 구조

요소	설명
상태 $s$	에이전트의 현재 위치 (예: (2, 3))
행동 $a$	상, 하, 좌, 우 중 하나 선택
보상 $r$	출구 도달 시 +10, 벽 충돌 시 -1, 일반 이동은 0
전이 $p (s^{'}, r ∣ s, a)$	해당 행동에 따라 다음 위치로 이동하며, 그에 따라 보상이 결정됩니다.

에이전트는 이 경험을 반복하며, 보상을 더 많이 받을 수 있는 방향으로 행동 전략(policy)을 학습하게 됩니다.

✅ 4. 에이전트–환경 인터페이스란 무엇인가?

지금까지 MDP의 구성요소를 살펴보았다면, 이제는 그 구성요소들이 시간의 흐름 속에서 어떻게 상호작용하는지를 이해해야 합니다. 이를 설명하기 위해 Sutton & Barto는 에이전트–환경 인터페이스(Agent–Environment Interface)라는 구조를 도입하였습니다.

이 구조는 강화학습의 학습 단위를 명확히 설명해 주며, 상태와 행동, 보상, 다음 상태가 어떻게 이어지는지를 시간 축 위에서 정의합니다.

📌 시간 흐름 속의 인터페이스 구조

에이전트는 시간 $t$ 에 상태 $S_{t}$ 를 받습니다.
에이전트는 이에 따라 행동 $A_{t}$ 를 선택합니다.
환경은 이 행동에 반응하여 보상 $R_{t + 1}$ 과 다음 상태 $S_{t + 1}$ 를 제공합니다.
에이전트는 이 경험을 통해 학습하며, 다음 반복 주기로 넘어갑니다.

이러한 상호작용은 한 번에 끝나지 않고 계속 반복되며, 이 반복되는 단위가 강화학습에서 학습의 최소 단위가 됩니다.

✅ 5. 인터페이스 예시 – 시간 흐름 위에서의 경험 단위

📘 예시 1: 자율주행 자동차

시점	상태 $S_{t}$	행동 $A_{t}$	보상 $R_{t + 1}$	다음 상태 $S_{t + 1}$
0	차량 위치, 속도, 신호등 상태	정지	+1 (충돌 없음)	정지 상태 유지
1	신호등 초록불	가속	+2 (진행 성공)	전방 도로 진입

📘 예시 2: 격투 게임 AI

시점	상태 $S_{t}$	행동 $A_{t}$	보상 $R_{t + 1}$	다음 상태 $S_{t + 1}$
0	상대가 점프 중	앉아서 방어	+1	방어 성공 상태
1	상대가 착지함	강펀치	-2	반격 받음

이러한 예시를 통해 우리는 에이전트가 상태를 인식하고 행동을 선택하며, 보상을 통해 전략을 개선하는 구조를 반복적으로 경험하고 있다는 점을 확인할 수 있습니다.

✅ 6. 상태전이확률함수와 확률분포 설명

지금까지는 상태–행동–보상–다음 상태라는 구조가 항상 명확하게 결정되는 것처럼 보였습니다. 하지만 실제 환경에서는 동일한 행동을 해도 매번 같은 결과가 나오는 것이 아닙니다.

예를 들어 같은 장소에서 “콜라 버튼”을 누른다고 해도 항상 콜라가 나오는 것이 아니라, 때때로 사이다가 나오거나 아무것도 안 나올 수도 있습니다.

이처럼 동일한 선택에 대해 여러 결과가 확률적으로 발생하는 상황을 모델링하기 위해 상태전이확률함수 $p (s^{'}, r ∣ s, a)$ 가 사용됩니다.

📌 수학적 정의

$p (s^{'}, r ∣ s, a) = Pr (S_{t + 1} = s^{'}, R_{t + 1} = r ∣ S_{t} = s, A_{t} = a)$

즉, 현재 상태 $s$ 에서 행동 $a$ 를 했을 때 다음 상태가 $s^{'}$ 가 되고 보상 $r$ 이 주어질 확률 분포를 의미합니다.

📘 예시 1: 촛불 앞에서 바람을 불었을 때

다음 상태	보상	확률
촛불이 꺼짐	+1	0.7
촛불이 유지됨	0	0.3

같은 바람을 불었지만 결과는 항상 같지 않습니다. 이러한 불확실성을 다루는 것이 바로 확률적 전이 개념이며, MDP는 이를 수학적으로 통합하여 기대값 기반의 정책 학습을 가능하게 합니다.

✅ 7. MDP는 왜 목표 지향적인 구조인가?

마르코프 결정 과정(MDP)은 단순히 환경의 변화를 예측하는 모델이 아닙니다. 그 본질은 “무엇을 선택해야 하는가?”에 있으며, 그 판단의 기준은 보상(reward)입니다.

에이전트는 상태를 관찰하고 행동을 선택하지만, 그 선택이 의미를 가지기 위해서는 반드시 무언가를 이루고자 하는 목적이 있어야 합니다. 이 목적이 바로 MDP의 구조를 목표 지향적(goal-directed)으로 만듭니다.

📌 보상이 없으면 학습도 없다

만약 보상이 존재하지 않는다면, 어떤 행동이 좋은지 나쁜지를 구분할 수 없습니다. 모든 행동이 같다면 전략을 바꿀 이유도 사라지고, 학습 자체가 무의미해집니다.

반면, 보상이 정의되어 있다는 것은 “어떤 상태가 바람직한가”, “어떤 행동이 유리한가”에 대한 명확한 기준이 있다는 뜻입니다. 즉, 보상의 존재 자체가 목표의 존재를 전제합니다.

📘 예시: 출근 시간의 교통수단 선택

어떤 사람이 아침 8시에 집 앞에서 출근을 준비한다고 가정해 보겠습니다. 이때 선택할 수 있는 행동은 다음과 같습니다.

1호선 지하철을 타기
버스를 타기

각 선택에 대해 예상되는 결과(보상)는 다음과 같습니다:

행동	결과	보상
1호선 지하철	20분 내 도착	+10
버스	30분 소요, 지연 가능성 있음	+3

이처럼 보상이 명시되어 있을 때, 에이전트는 행동의 기대값을 계산하고 보상이 더 클 것으로 예상되는 쪽으로 점차 전략을 변경해 나갑니다.

따라서 MDP는 처음부터 끝까지 보상에 기반한 선택 구조이며, 그 구조는 학습을 통해 목적을 달성하게끔 설계된 목표 지향적 시스템입니다.

✅ 8. MDP의 목적성을 드러내는 예시 2가지 (교재 기반)

📘 예시 1: Bioreactor (생물 반응기)

화학 공정 안에서 반응기의 온도와 교반 속도를 제어해 유효한 화학물질을 최대한 생산하는 것이 목표인 시스템입니다.

요소	구성
상태	센서 정보(온도, 점도 등) + 목표 물질 정보
행동	목표 온도 및 교반 속도 설정
보상	단위 시간당 유효한 화학물질 생산량

에이전트는 상태에 따라 적절한 온도와 속도를 설정하여 수율을 극대화하는 방향으로 전략을 학습하게 됩니다.

📘 예시 2: Pick-and-Place Robot (로봇 암)

산업현장에서 부품을 집어 정확한 위치에 옮기는 로봇입니다. 성공률뿐 아니라 움직임의 효율성도 학습 목표에 포함됩니다.

요소	구성
상태	관절 위치 및 속도 정보
행동	각 관절에 가하는 전압 제어
보상	부품 정확히 옮기면 +1, 불안정한 움직임엔 -0.1씩 감점

에이전트는 단순히 목표 위치에 도달하는 것뿐 아니라 움직임의 부드러움과 효율성까지 통합적으로 고려하는 전략을 형성하게 됩니다.

이처럼 MDP 구조는 다양한 형태의 목표를 수용할 수 있으며, 그 목표가 수치적 보상으로 변환되어 행동의 선택을 유도하게 됩니다.

✅ 9. 리사이클링 로봇 예시 (Example 3.3)

이 예시는 단순한 구조 안에 강화학습의 핵심 개념을 거의 모두 담고 있습니다. 리사이클링 로봇은 캔을 수거하며 보상을 얻지만, 배터리 잔량이라는 제약 아래에서 탐험과 리스크 사이에서 전략적 선택을 해야 합니다.

📌 기본 구성

요소	설명
상태	배터리 상태: high / low
행동	search, wait, recharge
보상	수거 성공 시 +r, 방전 시 -3, 대기 +0.5
전이	search 중 배터리 감소 확률 존재 (1−α, 1−β)

로봇은 search 행동을 통해 수거 보상을 노릴 수 있지만, low 상태에서 이를 시도하면 방전으로 큰 손해를 입을 수도 있습니다.

따라서 로봇은 다음을 고려해야 합니다:

지금 탐험하는 것이 더 큰 보상을 줄 것인가?
지금 대기하거나 충전해 미래를 준비하는 것이 더 이익인가?

이 모든 전략 판단은 상태에 따라 달라지며, 정책은 상태에 종속된 조건부 전략으로 구성됩니다.

이 예시는 간단한 구조 속에서 MDP의 모든 요소(state, action, reward, transition)를 포함하며, 정책, 가치 함수, 리스크, 기대값 기반 학습까지 전부 아우르는 강화학습 교과서 예제 중 가장 핵심적인 사례입니다.

'머신러닝 > 강화학습' 카테고리의 다른 글

2.9 Contextual Bandits ― 상황에 따라 다른 행동을 선택해야 한다는 말의 의미 (0)	2025.04.18
2.8 Gradient Bandit Algorithms ― 가치 추정이 아니라, 선택 확률 그 자체를 학습한다 (0)	2025.04.18
상한 신뢰구간 기반 행동 선택 (Upper Confidence Bound Action Selection) (0)	2025.04.17
2.6 초기에 높은 Q값은 왜 학습을 빨리 시키는가? (0)	2025.04.17
2.5 강화학습 행동가치, 점진적구현, 비정상성 (0)	2025.04.16

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

일상 일기 블로그

티스토리 뷰