[스크래치부터 시작하는 강화학습의 모든 것] Part. 1

티스토리 뷰

국비/이어드림스쿨

[스크래치부터 시작하는 강화학습의 모든 것] Part. 1

키성열 2024. 5. 6. 20:35

728x90

Chapter 1. 강화학습이란 무엇인가?

강화학습은 학습 주체가 환경과 상호작용을 하는 것

상호작용을 한다는 것은?

-> 학습주체가 자신의 행동에 대한 결과로 자신의 행동을 바꿔나가는 과정이다.

예를 들어, 테니스를 친다고 하면, 처음엔 어정쩡한 자세를 테니스 라켓을 휘두를 것이다.

그러면 공도 이상한 곳으로 가는 결과를 낳을 것이다.

이 결과를 보고 자신의 행동을 수정해 더 나은 결과를 낳을 수 있다.

팔의 각도를 바꾸든가 타이밍을 바꾸든가 등 여러 가지 행동을 하면 결과는 바뀔 것이고 여러번 수행한다면 이전보다 나은 결과로 이끌 것이다.

Chapter 2. 강화학습의 특징

보상(reward)란 결과의 좋고 나쁨을 뜻한다.

위의 예시에서 보면, 공이 제대로 날라가는지가 결과라고 할 수 있다.

결국 보상이 최대화되는 행동을 하는 것이 강화학습이다.

그러나 강화학습은 지금 받는 보상만이 최대가 되는 행동을 하는 것이 아니라 보상의 합이 최대가 되는 행동을 하는 것이 중요하다.

예를 들어, '시험 공부하기 vs 놀기'를 고민한다면, 놀기가 지금 당장은 더 큰 보상(도파민)을 줄지도 모른다.

그러나 나중에 시험을 망치면 드는 자책감과 후회감을 생각하면 지금 노는 것이 더 좋다고 볼 수는 없다.

강화학습의 탐험(exploration) vs 이용(exploitation)의 문제가 있다.

테니스를 하면 늘 치던방법으로 치는 게 효과가 좋을 것이다.

반면 새로운 방법을 시도한다면 익숙해지기 전까지는 성과가 좋지 않을 수 있다.

그러나 나중에는 새로운 스킬이 더 좋은 성과를 낼 수도 있다.

지금 당장의 최적의 방법을 사용하는 것을 '탐험'이라 하고, 당장의 손실을 감수하더라도 새로운 행동을 하는 것은 이용이라고 한다.

강화학습과 지도학습, 비지도학습과의 차이

	강화학습	지도학습	비지도학습
정답	X	O	X
학습데이터	X	O	O
데이터	고정X	고정된 데이터	고정된 데이터

Chapter. 3 강화학습의 정형화

Agent: 환경과 상호작용을 하는 학습 주체

Environment: Agent가 상호작용을 하는 대상

\(S_t\) (state): 특정시점 t의 환경상태

\(a_t\)(action): 특정 시점 t에 agent가 취한 행동

\(r_{t+1}\)(reward):특정 시점 t+1에 agent가 받은 보상

Trasnsition: 환경이 action을 받아 next state로 변화되는 현상

여태까지는 강화학습을 예시로 무엇인가 살펴보았다면, 이제부터는 위와 같이 정형화를 하려고 한다.

왜냐하면 강화학습의 기반이 수학적인 기반을 두고 있기 때문에 그와 관련된 기호나 수식을 알아두는 것이 좋다.

728x90

'국비 > 이어드림스쿨' 카테고리의 다른 글

[패스트캠퍼스] 평생 무료로 써먹는 나만의 ChatGPT 영어 선생님 Review (0)	2025.01.10
[패캠]한 번에 끝내는 컴퓨터비전 초격자 패키지.review (0)	2024.09.26
[패스트캠퍼스] 딥러닝 유치원 강의 Review (4)	2024.09.01
[패스트캠퍼스 리뷰] OpenCV를 활용한 컴퓨터비전과 딥러닝 리뷰 (0)	2024.08.06
05-27 학습일지 (0)	2024.05.28

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

250x250

일상 일기 블로그

티스토리 뷰