티스토리 뷰

반응형

📘 2.6 낙관적 초기값 (Optimistic Initial Values)


>

✅ 1. 강화학습의 출발점: 행동을 해보기 전까진 아무것도 알 수 없다



강화학습에서 에이전트가 하는 일은 매우 단순합니다.
어떤 행동을 선택하면,
그 결과로 보상이 주어지고,
그 보상을 바탕으로 다음 행동을 더 똑똑하게 고르게 되는 것입니다.

하지만 여기서 아주 단순하지만 강력한 진실이 있습니다.

“직접 해보기 전까진, 어떤 행동이 좋은지 알 수 없다.”


이건 실생활에서도 똑같습니다.
예를 들어 음식점을 선택할 때,
인터넷 평점이나 추천으로는 어느 정도 감은 오지만,
진짜 맛있는 집이 어딘지는 직접 먹어봐야 압니다.

마찬가지로, 에이전트가 강화학습 환경에서 처음 접하는 행동들은
모두 무지의 상태에서 출발합니다.
즉, 지금 선택한 행동이 좋은지 나쁜지는
직접 보상을 받아보기 전에는 절대 알 수 없습니다.

그렇기 때문에 초기 행동 선택은 학습의 향방을 결정짓는 중요한 문제입니다.

✅ 2. 탐험 vs 이용: 지금 좋은 것만 계속할 것인가, 혹은 다른 것도 시도해볼 것인가



이제 이 문제는 곧바로 다음 딜레마로 연결됩니다.

- 내가 지금까지 해봤을 때 가장 좋았던 행동만 반복하면,
당장은 보상이 높을 수 있습니다.
하지만 아직 해보지 않은 행동이 진짜 더 좋은 것일 수도 있습니다.

이렇게 해서 등장하는 것이 바로
탐험(Exploration)이용(Exploitation)의 균형입니다.

- 이용은 지금 가장 좋아 보이는 행동만 반복하는 것
- 탐험은 아직 잘 모르거나 덜 좋아 보이는 행동을 일부러 시도해보는 것

이 둘은 상충하는 관계입니다.
이용만 하면 최적을 놓칠 수 있고,
탐험만 하면 현재 좋은 보상을 포기하게 됩니다.

만약 어떤 행동이 초기에 운 좋게 보상이 높게 나왔다면,
그 행동이 정말 최적인지 확인도 하지 않고
계속 반복하게 될 수도 있습니다.

반응형

 



✅ 3. ε-greedy는 명시적으로 탐험을 넣어주는 방법이다



이 문제를 해결하기 위해 가장 널리 쓰이는 방식이 ε-greedy 정책입니다.

에이전트는 다음처럼 행동을 선택합니다:

- 확률 ε만큼은 완전히 무작위로 아무 행동이나 고름 (탐험)
- 나머지 확률 1–ε는 지금까지 Q값이 가장 높은 행동 선택 (이용)

예를 들어 ε = 0.1이라면,
10%는 “일부러 아무거나” 선택하고,
90%는 “지금까지 가장 좋아 보이는 행동”만 선택합니다.

이 방식은 탐험을 구조 안에 강제로 포함시켜 줍니다.

그 결과:
  • 모든 행동이 언젠가는 시도됩니다.
  • 지금까지 안 해본 행동도 선택될 기회가 주어집니다.

그렇다면 ε를 아주 작게 설정하면 어떤 문제가 발생할까요?

✅ 4. ε가 작으면 좋은 행동을 발견하기까지 오래 걸린다



ε 값이 작다는 것은 탐험을 자주 하지 않겠다는 뜻입니다.
즉, 대부분의 시간은 Q값이 높은 행동만 반복하게 됩니다.

그런데 문제는,
초기 Q값은 아직 충분한 보상 경험을 거치지 않았기 때문에 부정확할 수 있다는 점입니다.

만약 운이 나빠서 초기에 덜 좋은 행동을 선택했다면,
ε 값이 작아서 다른 행동을 거의 시도하지 않으면
진짜 좋은 행동을 너무 늦게 발견하게 됩니다.

당신이 리뷰 평점순으로만 음식점을 골라 간다고 해봅시다.
리뷰가 많은 순으로만 가게 되면,
진짜 맛있는 집인데 리뷰가 적어서 순위가 낮은 집은
계속 방문 대상에서 제외됩니다.


이럴 때 10% 확률로 무작위로 아무 집이나 간다면
언젠가는 그 숨겨진 맛집을 발견할 수 있겠죠.

하지만 ε가 너무 작으면?
그 맛집을 발견하기까지 오랜 시간이 걸릴 수 있습니다.
→ 이게 바로 탐험이 부족할 때 수렴이 늦어지는 이유입니다.
반응형

 



✅ 5. 낙관적 초기값은 탐험을 흉내 내지만, 방식은 완전히 다르다



ε-greedy가 명시적으로 “탐험을 해라”고 알려주는 방식이라면,
낙관적 초기값은 전혀 다른 방식입니다.

이 방법은 다음 아이디어에 기반합니다:

“모든 행동의 Q값을 시작부터 엄청 높게 잡으면,
처음에는 전부 좋아 보일 테니 결국 하나씩 다 시도하게 되지 않을까?”


즉, 탐험을 정책이 아니라 심리적 기대 조작으로 유도하는 방식입니다.

에이전트는 행동을 선택할 때 항상 Q값이 가장 높은 것을 고릅니다.
그런데 처음에는 전부 Q값이 똑같이 크기 때문에,
→ 선택은 무작위로 결정됩니다.
→ 그런데 더 중요한 건 그 이후입니다.

✅ 6. 핵심 메커니즘: 실망이 선택을 바꾼다



Sutton & Barto는 이 과정을 다음과 같이 설명합니다:

“보상은 항상 초기 Q값보다 낮기 때문에, 에이전트는 실망하고 다른 행동으로 전환하게 된다.”


이 말의 구조를 단계별로 풀어보면 이렇습니다:
  1. Q₁(a₁) = Q₁(a₂) = Q₁(a₃) = 10.0
  2. a₂를 선택함 → 보상은 3점 → Q₂ = 3.0
  3. 이제 Q₂는 다른 행동보다 낮아짐
  4. 다음 선택은 Q₁ 또는 Q₃ → 그 중 아직 안 해본 행동 선택
  5. → a₁을 선택 → 보상 5점 → Q₁ = 5.0
  6. → a₃ 선택 → 보상 1점 → Q₃ = 1.0
  7. 그 이후? Q₁ = 5.0이 가장 높음 → 계속 a₁ 선택

이 구조 덕분에:
  • 모든 행동을 한 번씩 해보게 되고,
  • 가장 좋은 행동에 수렴하게 됩니다.

여기에는 탐험이라는 명시적 전략이 전혀 없습니다.
단지 “기대 > 현실” → 실망 → 전환이라는 흐름이 있을 뿐입니다.

✅ 7. 낙관적 초기값은 탐험처럼 보이지만, 탐험은 아니다



“낙관적 초기값은 탐험을 유도한다.” → ✅ 맞습니다.
“낙관적 초기값은 탐험을 수행한다.” → ❌ 틀립니다.


탐험의 정의현재 Q값이 가장 높은 행동이 아님에도 불구하고,
정보를 얻기 위해 일부러 다른 행동을 선택하는 것입니다.

하지만 낙관적 초기값 방식에서는:
- 항상 Q값이 가장 높은 행동만 선택함 (greedy)
- 아직 시도하지 않은 행동의 Q값이 높기 때문에 고르게 됨
- 결과적으로 탐험처럼 보이는 효과 발생

이건 탐험을 명시적으로 수행하는 것이 아니라,
구조적으로 탐험처럼 보이게 만드는 장치입니다.

✅ 8. Q값은 결국 수렴한다 — 하지만 방식이 다르다



낙관적 초기값 방식에서는
모든 행동을 한 번씩 경험하게 되는 구조가 자동으로 만들어집니다.

이때 Q값은 무엇을 향해 수렴할까요?
→ 바로 각 행동의 기대 보상입니다.

이 점은 ε-greedy 방식과 동일합니다.
결국 학습이 진행되면, 두 방식 모두 가장 보상이 높은 행동에 수렴합니다.
하지만 방식이 다릅니다:
  • ε-greedy는 무작위로 탐험해서 전체 정보를 얻게 됨
  • 낙관적 초기값은 처음의 실망을 계기로 선택을 분산

학습 속도나 패턴이 다르다는 것만 다를 뿐, 수렴 자체는 보장됩니다.

✅ 9. 책 실험 (Fig 2.3): 초기값 설정만 바꿨을 뿐인데



Sutton & Barto 책의 Fig 2.3에서는
ε = 0.1인 에이전트ε = 0.0이지만 낙관적 초기값을 갖는 에이전트를 비교합니다.

조건:
- 행동은 10개
- 모든 행동의 실제 기대 보상은 서로 다름
- ε-greedy: 초기값 = 0, ε = 0.1
- 낙관적 초기값: 초기값 = 5.0, ε = 0.0

결과:
  • 초기에는 낙관적 초기값이 더 고르게 다양한 행동을 선택함
  • ε-greedy는 일부 행동만 반복하는 경향이 있음
  • 몇 백 회 반복 후에는 두 방식 모두 최적 행동에 수렴

“낙관적 초기값은 ε 없이도 고르게 탐험하는 구조를 만든다.”


반응형

 



✅ 10. 장점: 정책 변경 없이도 탐험이 일어난다



낙관적 초기값의 핵심 장점은 매우 단순합니다:

탐험을 위한 별도 정책이 필요 없다.
Q값 초기 설정만으로 탐험 효과를 낼 수 있다.

이는 다음과 같은 상황에서 유용합니다:
- 탐험 정책(ε 설정 등)을 복잡하게 설계하기 어려운 경우
- 초기 학습 속도가 매우 중요한 경우
- 안정적 greedy 정책 안에서 탐험 효과를 유도하고 싶은 경우

✅ 11. 한계: 환경이 변하면 더 큰 문제가 된다



하지만 낙관적 초기값 방식에는 치명적인 한계가 있습니다:

“환경이 nonstationary, 즉 시간이 지나며 바뀌는 경우”


이런 경우에는 초기에 한 번 실망한 행동은
Q값이 낮게 고정되어 다시 선택되지 않게 됩니다.

그 결과:
  • 처음에는 안 좋았지만 나중에 좋아진 행동을 전혀 다시 시도하지 않음
  • 낙관적 초기값은 단 한 번 실망하면 기회가 사라짐
  • 탐험이 구조적으로 차단됨

반면 ε-greedy는
무작위 탐험이 지속되기 때문에,
언젠가는 다시 그 행동을 시도할 수 있습니다.

✅ 12. 철학적 해석: 실망 기반의 전략



낙관적 초기값은 철학적으로 흥미로운 전략입니다.

에이전트는 처음부터 모든 행동을 과대평가하고 출발합니다.
그 기대가 깨질 때, 즉 실망이 발생할 때,
비로소 새로운 행동으로 눈을 돌리게 됩니다.

“탐험하라”는 외부 명령 없이
“기대가 무너졌기 때문에” 움직이게 되는 방식입니다.


이런 점에서 낙관적 초기값은
탐험을 정책이 아니라 감정 구조로부터 유도된 탐색이라고 볼 수 있습니다.

이 방식은 탐험의 본질을
“확신하지 못했기 때문에 해보는 것”이 아니라,
“기대가 무너졌기 때문에 바꾸는 것”
으로 해석하게 해줍니다.
반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함