티스토리 뷰

반응형

🔁 2.4 Incremental Implementation — 왜, 어떻게 점진적으로 배우는가?

1. 평균은 좋은 추정 방식이다. 하지만...

 

강화학습에서 기계는 행동의 ‘좋고 나쁨’을 평가하기 위해 그 행동을 여러 번 했을 때 받은 보상들의 평균을 사용합니다.

예를 들어 어떤 행동을 다섯 번 수행해 보상으로 3점, 6점, 5점, 4점, 2점을 받았다면, 그 평균은 다음과 같이 계산됩니다:

\( Q_5 = \frac{3 + 6 + 5 + 4 + 2}{5} = \frac{20}{5} = 4 \)

이제 여섯 번째 시도에서 7점을 받았다면:

\( Q_6 = \frac{3 + 6 + 5 + 4 + 2 + 7}{6} = \frac{27}{6} = 4.5 \)

이 계산을 하려면 기계는 과거의 모든 보상을 저장해야 합니다. 학습 횟수가 많아지면 이 방식은 매우 비효율적입니다.

 

2. 기억 없이 평균을 갱신할 수 있을까?

Sutton과 Barto는 다음과 같은 질문을 던집니다:

“기존 평균값과 새로 받은 보상만으로 평균을 바로 갱신할 수는 없을까?”

그 해답이 바로 이번 절의 핵심 개념, Incremental Implementation (점진적 갱신 방식)입니다.

 

3. 수식 유도 — 한 줄도 생략 없이, 모든 계산을 직접 보여준다

지금까지 \( n \)번 행동을 했고, 보상값이 \( R_1, R_2, ..., R_n \)이라면 평균 행동 가치는 다음과 같습니다:

\( Q_n = \frac{R_1 + R_2 + \dots + R_n}{n} \)

이제 \( R_{n+1} \)을 새로 받았을 때, 새로운 평균은 다음과 같이 계산됩니다:

\( Q_{n+1} = \frac{R_1 + R_2 + \dots + R_n + R_{n+1}}{n+1} \)

분자 \( R_1 + \dots + R_n \)을 \( Q_n \cdot n \)으로 대체하면:

\( Q_{n+1} = \frac{n \cdot Q_n + R_{n+1}}{n+1} \)

이 분수를 두 항으로 나눠 계산하면:

\( Q_{n+1} = \frac{n \cdot Q_n}{n+1} + \frac{R_{n+1}}{n+1} \)

각 항을 곱셈 형태로 정리하면:

\( Q_{n+1} = Q_n \cdot \frac{n}{n+1} + R_{n+1} \cdot \frac{1}{n+1} \)

 

반응형

▶ 항등변환 세부 전개

1. 1을 공통 분모로 바꿉니다:
\( 1 = \frac{n+1}{n+1} \)
2. 분모가 같으므로 분자끼리 뺍니다:
\( \frac{n+1}{n+1} - \frac{1}{n+1} = \frac{(n+1) - 1}{n+1} \)
3. 분자를 계산하면:
\( \frac{n}{n+1} \)
4. 따라서 항등식은 성립합니다:
\( \frac{n}{n+1} = 1 - \frac{1}{n+1} \)
5. 이 값을 원래 수식에 대입하고 분배법칙 적용:
\( Q_n \cdot \frac{n}{n+1} = Q_n \cdot (1 - \frac{1}{n+1}) = Q_n - Q_n \cdot \frac{1}{n+1} \)

전체 수식으로 다시 정리하면:

\( Q_{n+1} = Q_n - Q_n \cdot \frac{1}{n+1} + R_{n+1} \cdot \frac{1}{n+1} \)

공통 분모 \( \frac{1}{n+1} \)으로 묶으면:

\( Q_{n+1} = Q_n + \frac{1}{n+1}(R_{n+1} - Q_n) \)

 

4. 이 수식은 단순한 계산이 아니다

이 수식은 기계가 판단을 어떻게 조정하는지를 설명합니다.

  • \( Q_n \): 지금까지의 신념
  • \( R_{n+1} - Q_n \): 예측과 실제의 차이 (오차)
  • \( \frac{1}{n+1} \): 학습률

 

5. 일반화된 갱신 공식

\( \text{NewEstimate} = \text{OldEstimate} + \alpha(\text{Target} - \text{OldEstimate}) \)
  • OldEstimate = 기존 판단
  • Target = 새로운 보상
  • \( \alpha \) = 학습률

 

6. 철학적 해석 — 인간은 이렇게 배운다

우리는 새 정보를 접할 때 기존 판단을 완전히 버리기보다, 그 차이를 오차로 보고 서서히 신념을 조정해 나갑니다.

경험이 쌓일수록 변화에 덜 흔들리고, 그게 바로 이 수식이 담고 있는 철학입니다.

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형