티스토리 뷰

반응형

 

 

Chapter 1. 강화학습이란 무엇인가?

강화학습은 학습 주체가 환경상호작용을 하는 것

 

상호작용을 한다는 것은?

-> 학습주체가 자신의 행동에 대한 결과로 자신의 행동을 바꿔나가는 과정이다.

 

예를 들어, 테니스를 친다고 하면, 처음엔 어정쩡한  자세를 테니스 라켓을 휘두를 것이다.

그러면 공도 이상한 곳으로 가는 결과를 낳을 것이다.

이 결과를 보고 자신의 행동을 수정해 더 나은 결과를 낳을 수 있다.

팔의 각도를 바꾸든가 타이밍을 바꾸든가 등 여러 가지 행동을 하면 결과는 바뀔 것이고 여러번 수행한다면 이전보다 나은 결과로 이끌 것이다.

 

 

Chapter 2. 강화학습의 특징

보상(reward)란 결과의 좋고 나쁨을 뜻한다.

위의 예시에서 보면, 공이 제대로 날라가는지가 결과라고 할 수 있다.

결국 보상이 최대화되는 행동을 하는 것이 강화학습이다.

 

그러나 강화학습은 지금 받는 보상만이 최대가 되는 행동을 하는 것이 아니라 보상의 합이 최대가 되는 행동을 하는 것이 중요하다.

예를 들어, '시험 공부하기 vs 놀기'를 고민한다면, 놀기가 지금 당장은 더 큰 보상(도파민)을 줄지도 모른다.

그러나 나중에 시험을 망치면 드는 자책감과 후회감을 생각하면 지금 노는 것이 더 좋다고 볼 수는 없다.

 

강화학습의 탐험(exploration) vs 이용(exploitation)의 문제가 있다.

테니스를 하면 늘 치던방법으로 치는 게 효과가 좋을 것이다.

반면 새로운 방법을 시도한다면 익숙해지기 전까지는 성과가 좋지 않을 수 있다.

그러나 나중에는 새로운 스킬이 더 좋은 성과를 낼 수도 있다.

지금 당장의 최적의 방법을 사용하는 것을 '탐험'이라 하고, 당장의 손실을 감수하더라도 새로운 행동을 하는 것은 이용이라고 한다.

 

 

강화학습과 지도학습, 비지도학습과의 차이

  강화학습 지도학습 비지도학습
정답 X O X
학습데이터 X O O
데이터 고정X 고정된 데이터 고정된 데이터

 

 

Chapter. 3 강화학습의 정형화

Agent: 환경과 상호작용을 하는 학습 주체

Environment: Agent가 상호작용을 하는 대상

St (state): 특정시점 t의 환경상태

at(action): 특정 시점 t에 agent가 취한 행동

rt+1(reward):특정 시점 t+1에 agent가 받은 보상

Trasnsition: 환경이 action을 받아 next state로 변화되는 현상

 

여태까지는 강화학습을 예시로 무엇인가 살펴보았다면, 이제부터는 위와 같이 정형화를 하려고 한다.

왜냐하면 강화학습의 기반이 수학적인 기반을 두고 있기 때문에 그와 관련된 기호나 수식을 알아두는 것이 좋다.

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형