티스토리 뷰

반응형

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.

 

 

보상은 조작적 정의로서 물체, 행동, 또는 내적상태에 대해 생물들이 갖는 정적 가치이다.

보상이 학습에 필요한데, 조작적 조건화 실험을 생각해보자.우리가 아는 파블로프의 개의 실험에서 종소리와 함께 먹이를 주자 종소리만 들어도 침을 흘리게 되었다.이 때, 먹이는 무조건자극(Uncoditional  stimulus)이다. 이것만으로 무조건 침을 흘리게 할 수 있다.반면, 종소리는 조건자극(conditional stimulus)이다. 중립자극으로서 이것만 있으면 침을 흘리지는 않는다.

 

이 조건자극과 무조건자극이 서로 연합되면, 조건자극만으로도 행동을 유도할 수 있다.반드시 조건자극이 무조건자극에 선행되어야만 한다.

 

그러나 학습에 있어서 중요한 것은 이 연합이 기대와 다를 때 학습이 일어난다는 것이다.만약 불빛을 켜면 무조건 음식이 나온다면, 더 이상 학습은 일어나지 않는다.반면 불빛이 있을 때 음식이 나온 경우가 있지만 안나온 경우도 있다면 다른 조건이 있는지 학습을 시작할 것이다.이러한 예측과 실제의 차이를 오류(error)라 하고 여기서 학습이 시작된다.

 

 

Information encoded in Dopaminergic Activity

도파민은 VTA(ventral tegmental area)와 흑색질(substantia nigra)에서 보상신호를 처리하는 것으로 알려져있다.도파민이 보상과 관련된 사건에 관여한다는 증거가 있다.1) 암페타민(amphetamine)이나 코카인(cocaine)은 도파민의 영향력을 더 오래가게 함으로써 자신들의 영향력을 발휘한다.2) 도파민 경로의 자극은 전기적 자기자극에 최적이다. 쥐 실험에서도 뉴런을 흥분시키려고 버튼을 계속누른다.3) 도파민 수용체를 막게하면 덜 빨리 학습을 한다.

 

중뇌의 도파민 관련한 현상을 실험을 봐보자.보상이 주어졌을 때, 도파민 뉴런을 짧게 반응을 한다. 

 

 

위의 그림을 보면, 조건자극이 연합이 되지 않았을 경우에는 반응 이후에 도파민 뉴런의 활성화가 보인다.

그러나 조건자극이 연합된 이후에는 보상에서는 다른 때나 별 차이없이 반응을 한다.

오히려 조건자극이 주어졌을 경우에 발화가 많다. 이 때 보상이 올 것이 예측하는 것으로 볼 수 있다.

맨 아래에는 조건자극은 주어졌으나 보상이 주어지지 않았을 경우에는 도파민 활성이 거의 없다.

회피적 자극에는 반응하는 뉴런이 적은 것으로 보인다.

 

이를 통해 도파민은 단지 보상이 주어졌을 때 활성화되는 것이 아니라, 에러나 편차(deviation or error)에 의해 일어나는 것으로 보인다.

도파민 뉴런은 앞선 단서에 의해 예측되지 않을 때만 활성화된다.

도파민 뉴런은 보상이 예상보다 좋을 경우 활성화되지만, 예측한대로 있다면 신호가 없다.

예상보다 보상이 안좋다면 신호가 매우 적어진다.

 

 

Computational Theory and Model

심리학적 강화학습 뿐 아니라 컴퓨터 이론에서도 강화학습이 있다.

시간차학습(Temporal difference, TD)를 통해 도파민 뉴런을 예측할 수 있는 것처럼 보인다.

 

시간차학습에서는 두 가지 가정이 있다.

1) 컴퓨터 학습의 목표는 감각단서를 가치함수를 예측하는데 사용한다.

V(t)=E[r(t)+γr(t+1)+γ2r(t+2)]

E는 기대값을 말하며

γ는 할인율(discount factor)

V는 가치를 의미한다.

 

2) 마크로브 특성을 따른다

각 행동이 현재의 사건에만 영향을 받는다.

 

예측치가 V(t)^라면, 실제는 V(t)이다.

이 경우 둘의 차이가 최소화 될 수 있게해야 한다.

 

가치함수는 다음과 같이 바꿀 수 있는데

V(t)=E[r(t)+γV(t+1)]

시간차학습 오류를 다음과 같이 표현할 수 있다.

δ(t)=r(t)+γV^(t+1)V^(t)

 

이 공식이 실험에서도 증명이 됐는데, 원숭이의 행동과 도파민의 양의 관게에 있었다.

감각단서를 

x(t)=x1(t),x2(t), 로 표현한다.

이는 빛을 비추는 시간을 나타내는 벡터로 나타낸다.

그리고 각 값은 예측 가중치(w)를 갖고 있다.

 

V^(t)v^(x(t))=iwixi(t)

가중치와 감각신호의 값으로 가치의 예측치가 결정된다.

 

이 가중치는 자극 표상과 예측에러의 상관관계에 따라 바뀐다.

Δwi=αxixi(t)δ(t)

αx는 학습률을 가리킨다.

 

위의 시간차학습방법을 신경에서 쓰려면 네가지 조건을 만족해야 한다.

1) 보상 가치를 측정할 수 있어야한다.

2) 보상의 예측에 대한 변화율에 대한 신호를 알아야한다.

3) 이 신호들이 어디서 합쳐지는지 알아야 한다

4) 오류 신호의 전달이 가소성을 만들어내야 한다.

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형