티스토리 뷰

반응형

🎰 강화학습은 왜 실패를 허용해야 하는가?

— 시행착오를 통해 배우는 선택, 가치, 전략의 원리


우리는 날마다 정답이 없는 선택을 합니다

점심시간, 늘 가던 식당에 갈지,
새로 생긴 파스타집에 도전해볼지.
유튜브 추천 영상 중 친숙한 채널을 고를지,
처음 보는 썸네일을 눌러볼지.

이런 선택에는 정해진 답이 없습니다.
결과를 미리 알 수 없고,
선택한 뒤에야 좋았는지 나빴는지를 알게 됩니다.

강화학습은 바로 이런 구조—
“결과를 통해 더 나은 행동을 학습하는 구조”
기계가 따르도록 만드는 방법입니다.


1. 아무 정보 없이 보상을 최대화할 수 있을까?

강화학습의 가장 기본적인 문제는
여러 개의 선택지 중에서 반복된 시도를 통해
가장 좋은 선택을 찾아내는 것입니다.

이 구조를 k-armed bandit 문제라고 부릅니다.


2. 슬롯머신 10대, 각기 다른 보상

Sutton & Barto는 다음과 같은 실험 환경을 설정합니다.
10개의 슬롯머신이 있고, 각 슬롯은 평균적으로 서로 다른 보상을 줍니다.

슬롯 번호 평균 보상
1번1.2
2번0.5
3번1.8
4번1.1
5번0.0
6번2.4 ← 가장 좋음
7번1.3
8번0.9
9번2.0
10번1.6

문제는,
이 보상값들을 기계는 전혀 모른다는 점입니다.
직접 눌러보고, 받은 보상을 기억하면서
점점 더 나은 선택을 찾아야 합니다.


3. 지금까지 좋았던 걸 반복할까, 아직 안 해본 걸 해볼까?

기계는 매 순간 고민합니다.
가장 좋은 결과를 반복할까?
아직 모르는 선택을 탐험할까?

전략 의미
활용 (exploitation) 지금까지 가장 좋은 결과를 반복
탐험 (exploration) 아직 모르는 선택을 시도

4. 기계는 어떻게 판단을 배우는가? — 행동 가치

기계는 '느낌'이 없습니다.
대신, 행동의 평균 보상을 숫자로 계산합니다.
이 값을 행동 가치(action-value)라고 부릅니다.

슬롯 별 예시

슬롯 시도 횟수 보상 기록 행동 가치 (평균)
슬롯1 5번 1.0, 1.5, 0.5, 1.2, 1.3 1.1
슬롯2 1번 2.4 2.4
슬롯3 3번 1.8, 2.1, 1.5 1.8

주의: 슬롯2는 1번밖에 시도되지 않아 신뢰하기 어렵습니다.
또한, 슬롯6이 실제로 가장 좋지만 처음 0점, 1점만 받았다면
평균 0.5로 평가되어 잘못된 판단으로 이어질 수 있습니다.


5. 시행착오를 통해 보상을 극대화한다

기계는 다음을 반복합니다:
선택 → 보상 → 가치 계산 → 다음 선택 개선

이 과정을 거듭하면서
더 나은 행동을 더 자주 선택하게 됩니다.


6. 결국 가장 좋은 선택을 자주 하게 된다

충분한 시간이 지나면,
기계는 결국 슬롯6처럼 보상이 가장 높은 선택
가장 자주 시도하게 됩니다.

그리고 실제로 얻게 되는 보상의 총합도 증가합니다.


마무리: 강화학습은 정답이 아니라 방향을 찾는 일이다

이 단순한 문제는 강화학습의 철학을 보여줍니다:

- 정답은 없다
- 해봐야 안다
- 실패도 배움의 일부다

시도하고 계산하고 수정하다 보면
기계도 결국 방향을 찾아갑니다.

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형