티스토리 뷰

728x90
반응형
같은 보상을 받아도 왜 어떤 행동은 더 자주 일어날까?

🧠 같은 보상을 받아도 왜 어떤 행동은 더 자주 일어날까?

— 직관에서 시작해 실험으로 들어가는 학습 원리의 퍼즐

🚪 들어가며: 똑같이 주면, 똑같이 움직이지 않을까?

누군가에게 똑같은 보상을 준다면, 당연히 행동도 비슷하게 나타날 것 같지 않나요?

예를 들어, 게임을 할 때 한 시간마다 뽑기를 한 번 줄 때와, 10번 클릭할 때마다 한 번 뽑기를 줄 때를 생각해보세요. 뽑기를 받을 수 있는 횟수가 똑같다면, 우리는 두 조건에서 비슷한 속도로 클릭할 것 같다고 생각할 수 있습니다.

하지만 실제로는 전혀 다릅니다.



🔍 직관과 다른 실제 행동

행동심리학에서는 이와 비슷한 구조의 실험이 많이 수행되어 왔습니다. 특히 다음 두 가지 보상 방식이 대표적입니다.

🕒 1. 변동 간격 스케줄 (VI: Variable Interval)

일정한 시간이 지나고 나면, 단 한 번의 반응으로 보상이 주어지는 방식
예: 10초~60초 사이의 무작위 시간 후, 버튼을 한 번 누르면 먹이 제공

🔢 2. 변동 비율 스케줄 (VR: Variable Ratio)

일정한 횟수만큼 반응해야 보상이 주어지는 방식
예: 10~60번 버튼을 누르면 보상 (시간은 중요하지 않음)

이 두 조건은 보상의 총량, 즉 시간당 보상 횟수는 같도록 조정됩니다. 그런데 실험 결과는 직관과 완전히 어긋납니다.

VR(반응 횟수 기준) 조건에서는 훨씬 더 빠르고 자주 반응하고
VI(시간 기준) 조건에서는 반응 속도가 느리고 일정하게 유지됩니다.


❓ 왜 이런 차이가 생길까?

처음에는 "반응을 많이 하면 보상을 더 받기 때문 아닐까?" 하고 생각할 수 있습니다. 하지만 앞서 말했듯, 시간당 보상 횟수는 동일하게 맞춰져 있기 때문에, 단순히 "많이 반응해서 더 많이 받는다"는 설명으로는 부족합니다.

이 차이는 단순한 우연이 아니라, 행동이 어떤 원리에 따라 형성되고 유지되는지를 보여주는 결정적인 실마리입니다. 즉, 우리가 일상에서

  • 어떤 조건에서는 열심히 반응하고,
  • 어떤 조건에서는 미적지근하게 행동하는 이유를

실험적으로 검증 가능한 형태로 드러낸 사례입니다.



⚔️ 두 가지 상반된 설명: 미시이론 vs 거시이론

구분 이론명 핵심 질문 설명 방식
미시이론 (Molecular Theory) "바로 직전 반응과 보상 사이에 무슨 일이 있었나?" 짧은 시간 간격에서의 반응 패턴에 주목
거시이론 (Molar Theory) "전체적으로 보면 어떤 반응이 얼마나 보상을 받았나?" 실험 전체 시간의 평균적인 상관관계에 주목


이제 이 두 이론이 무엇을 근거로 어떤 주장을 펼치는지, 그리고 어떤 실험 결과가 이를 지지하는지를 차례로 살펴보겠습니다.



 


🔬 본문 1부. 미시이론(molecular theory): 반응과 보상 사이의 ‘타이밍’에 집중하다

📌 미시이론(molecular theory)이란?

미시이론(molecular theory)은 행동이 형성되는 과정에서 “그 직전에 어떤 일이 있었는가?”에 주목하는 이론입니다.

특히, 어떤 행동이 보상을 유발했는지에 따라 그 행동을 계속 반복할지 말지 결정된다고 봅니다.

즉, 이 이론은 ‘한 번의 반응’과 ‘그 직후 보상’ 사이의 관계, 특히 반응 간의 시간 간격(IRT)에 집중합니다.



⏱️ IRT(반응 간 시간)란 무엇인가?

IRT(Interresponse Time)

두 번의 반응 사이에 걸린 시간을 말합니다.

예를 들어, 비둘기가 버튼을 이렇게 눌렀다고 해봅시다:

  • 첫 번째 반응: 1초
  • 두 번째 반응: 3초 → 두 번째 반응의 IRT는 2초

미시이론은 동물이 보상을 받을 때마다

“지금 이 반응을 할 때까지 얼마나 쉬었지?”를 학습한다고 봅니다.

이런 경험이 반복되면, 보상이 자주 따르는 IRT 간격을 자연스럽게 선호하게 됩니다.



🔄 변동 간격 vs 변동 비율 — 행동 속도가 왜 달라지는가?

실험에서 보상 횟수가 같도록 맞춰놓았을 때도, 왜 변동 비율에서는 빠르게 반응하고, 변동 간격에서는 느리게 반응할까요?

그 이유는 어떤 IRT가 보상과 잘 연결되는지(=수반성)에 따라 강화되는 반응 방식이 달라지기 때문입니다.



🟦 변동 간격 스케줄 (Variable Interval)

  • 일정 시간이 지나야 보상이 생기고,
  • 그 후 한 번만 반응하면 보상이 주어짐

예시 상황:

  • 평균 30초 간격으로 보상이 생기도록 설정
  • 즉, 버튼을 누르기 전에 최소 30초가 지나야 보상이 ‘대기 중’ 상태가 됨

이렇게 반응하면?

  • 5초마다 계속 누르면 → 보상은 가끔 나옴 → 성공률 낮음
  • 35초 기다렸다가 누르면 → 보상은 대부분 나옴 → 성공률 높음
“기다렸다가 누르면 보상을 자주 받네!”
긴 IRT가 보상을 부르므로, 긴 IRT가 강화됨
→ 반응 속도는 느려짐


🟩 변동 비율 스케줄 (Variable Ratio)

  • 정해진 횟수만큼 반응하면 보상이 주어짐
  • 시간은 상관없고, 오직 ‘몇 번 눌렀는지’만 중요

예시 상황:

  • 평균 30번 누르면 보상이 주어지도록 설정

이렇게 반응하면?

  • 3초 간격으로 30번 → 총 90초 후 보상
  • 1초 간격으로 30번 → 총 30초 후 보상
“빠르게 눌러야 보상에 빨리 도달할 수 있네!”
짧은 IRT가 보상을 부르므로, 짧은 IRT가 강화됨
→ 반응 속도는 빨라짐


🧪 실험 1: Shimp (1968) — 특정 IRT 구간을 강화한 실험

📋 실험 조건

  • 비둘기가 버튼을 누르면 먹이를 받을 수 있음
  • 단, 특정 IRT 구간만 보상 조건
  • 예: 1.5초~2.5초, 또는 3.5초~4.5초에 해당하는 반응만 보상
  • 나머지 시간 간격에서는 아무리 눌러도 보상이 없음

📊 실험 결과

  • 시간이 지날수록 보상되는 두 개의 IRT 구간에서 반응이 집중적으로 나타남
  • 나머지 시간 구간에서는 거의 반응하지 않음

🔍 해석

비둘기는 자신도 모르게 보상이 따르는 반응 간격을 정확히 학습함
→ 이 실험은 “어떤 IRT가 보상으로 이어지느냐”가 행동을 결정한다는 미시이론의 핵심 주장을 뚜렷하게 보여줌


 


🧪 실험 2: Shimp (1973) — 시간 타이머 없이 IRT만으로 조절하기

📋 실험 조건

  • 이번 실험은 진짜 변동 간격 스케줄이 아님
  • 즉, 시간이 흐른 뒤에 보상이 생기게 하는 시스템 없음
  • 단지 반응 간 시간(IRT)에 따라 보상 확률을 조절

예:

  • IRT가 1초 미만 → 보상 확률 10%
  • IRT가 2~3초 → 보상 확률 80%


📊 실험 결과

  • 비둘기들은 반응을 점점 느리게 함
  • 보상이 잘 따르는 긴 IRT 쪽으로 반응이 몰림


🔍 해석

시간 타이머 없이도,
보상 확률이 IRT에 따라 달라지기만 해도
비둘기의 행동 패턴이 변동 간격 스케줄처럼 변함

핵심 메시지:

동물은 절대적인 시간 흐름보다는
자신의 행동과 보상 사이의 타이밍 관계를 학습합니다.


✅ 요약 정리

조건 보상과 연결되는 IRT 행동 패턴
변동 간격 스케줄 긴 IRT (천천히 반응) 느리고 안정적인 반응
변동 비율 스케줄 짧은 IRT (빠른 반응) 빠르고 빈번한 반응


핵심 정리:
행동은 단순히 반복해서 일어나는 것이 아니라,
“이 반응 직후에 보상이 왔는가?”라는
순간적인 타이밍 학습에 따라 조절됩니다.

미시이론(molecular theory)은 바로 이 점을 강조하면서,
어떻게 타이밍이 행동을 형성하는가를 과학적으로 설명합니다.



📏 본문 2부. 거시이론(molar theory): 전체 흐름 속의 상관관계를 계산하다

📌 거시이론(molar theory)이란?

거시이론은 행동이 일어나는 이유를 개별적인 순간보다는
오랜 시간 동안의 평균적 관계에서 찾습니다.

“내가 자주 행동했을 때 보상도 자주 따라왔다면,
그 행동은 앞으로 더 자주 일어날 것이다.”

즉, 행동의 원리를 이렇게 봅니다:

  • 반응률(얼마나 자주 행동했는가)
  • 보상률(얼마나 자주 보상을 받았는가)
  • → 두 요소의 상관관계가 행동을 결정함


🔗 핵심 개념: 반응률과 보상률의 상관관계

거시이론은 동물이 단순히 “이번 행동에 보상이 있었나?”를 따지기보다는,

“요즘 들어 내가 많이 행동했더니, 보상도 더 많이 생겼는가?”

를 따진다고 설명합니다.

  • 상관관계가 강하면 → “많이 하면 많이 받는다” → 행동 증가
  • 상관관계가 약하면 → “많이 해도 소용없다” → 행동 감소


📊 변동 비율 vs 변동 간격: 상관관계 비교

🟩 변동 비율 스케줄 (VR)

  • 보상은 반응 횟수에 따라 주어짐
  • 반응을 많이 하면 보상도 더 많이 옴
  • 반응률과 보상률의 상관관계 매우 강함
분당 반응 수 시간당 보상 수
30회 30개
60회 60개
90회 90개
“내가 더 자주 행동하면 보상이 더 자주 따라와!”
→ 상관관계가 강하므로 → 더 자주, 더 빠르게 행동


🟦 변동 간격 스케줄 (VI)

  • 보상은 일정한 시간이 지나야 생성됨
  • 아무리 자주 반응해도 시간이 지나야만 보상 가능
  • 반응률과 보상률 사이의 상관관계 약함
분당 반응 수 시간당 보상 수
10회 약 55개
60회 약 60개
100회 약 60개
“내가 행동을 많이 하든 적게 하든, 보상은 비슷하게 온다”
→ 상관관계 약함 → 굳이 자주 행동하지 않음


🧪 실험: 가상의 수치로 상관관계 이해하기

상관관계의 영향을 실제 수치로 시뮬레이션해봅시다.
두 조건 모두 시간당 보상 수(60개)는 동일하지만, 반응량에 따라 보상의 효율성이 달라집니다.

변동 비율 조건 (상관관계 높음)

분당 반응 수 시간당 보상 수 보상 1개당 반응 수
30회 30개 1
60회 60개 1
90회 90개 1
→ 반응량과 보상량이 정비례
→ 동물은 “더 자주 행동 = 더 많이 보상”을 명확히 느낌
행동 가속화


변동 간격 조건 (상관관계 낮음)

분당 반응 수 시간당 보상 수 보상 1개당 반응 수
10회 58개 약 10.3
60회 60개 약 60
100회 60개 약 100
→ 반응량이 늘어도 보상량은 거의 일정
→ “행동을 많이 해도 보상이 안 는다”는 결론에 도달
행동 억제 또는 최적화된 느린 행동 전략 선택


✅ 요약: 거시이론의 핵심 논리

조건 반응–보상 상관관계 행동 결과
변동 비율 강함 (r ≈ +1) 빠르게, 자주 행동
변동 간격 약함 (r ≈ 0) 느리고 일정하게 행동


거시이론(molar theory)
단기적인 타이밍이 아니라,
장기적인 반응–보상 관계 전체를 보고 행동을 조절한다고 설명합니다.
특히 상관관계의 강도가 행동 빈도를 결정짓는 핵심 변수입니다.


 


🔬 행동을 설명하는 두 이론, 실험은 어느 쪽이 옳다고 말하는가?

🎯 목적: 두 이론의 대립을 실제 행동으로 판별하기

동물이 얼마나 자주 어떤 행동을 하게 되는지를 설명하는 데에는
대표적인 두 가지 이론이 존재합니다:

  • 미시이론 (molecular theory)
    지금 이 반응에 보상이 따르는가?라는 즉각적 수반성 중심
  • 거시이론 (molar theory)
    전체적으로 자주 했을 때 얼마나 보상을 받았는가?라는 장기적 상관관계 중심

대부분의 조건에서는 두 이론이 비슷한 예측을 하지만,
특정 조건을 만들면 정반대 예측을 하게 됩니다.

이러한 충돌 조건을 실험적으로 설계하여,
실제 행동은 어떤 이론의 예측을 따르는가?
를 검증할 수 있습니다.


🧪 실험: 두 이론이 정반대 예측을 하도록 설계하기

✅ 핵심 설계 아이디어

많이 반응할수록 총 보상 수는 많아지지만,
각 반응의 보상 확률은 오히려 낮아진다.

이 설계를 통해 다음 두 수반성이 충돌하게 됩니다:

구분 구조 유도되는 행동
거시적 수반성 반응을 많이 할수록 총 보상이 많아짐 빠르게 행동하라
미시적 수반성 반응 간 시간이 길수록 각 반응의 보상 확률이 높아짐 천천히 행동하라


📊 가상의 수치 예시

전략 IRT 분당 반응 수 보상 확률 분당 보상 수
전략 A (거시 전략) 0.6초 200회 10% 20개
전략 B (미시 전략) 4초 15회 80% 12개
  • 전략 A: 보상 수는 많지만 비효율적 (거시적 수반성 강화)
  • 전략 B: 보상 수는 적지만 효율적 (미시적 수반성 강화)


✅ 결과: 동물은 어떤 행동을 선택했는가?

실험 결과,
동물은 전략 A가 아닌 전략 B를 선택했습니다.
  • 총 보상을 더 받을 수 있는 빠른 전략은 선택되지 않았고,
  • 각 반응의 보상 확률이 높은 느린 전략이 선택됨

이 결과는 거시이론의 예측과는 어긋나고,
미시이론의 예측과 일치합니다.



🧾 결론

항목 요약
🎯 목적 두 이론의 상반된 예측을 실험으로 비교
🧪 실험 총 보상은 빠른 행동에서 많지만, 보상 확률은 느린 행동에서 높도록 설계
✅ 결과 동물은 느리게 반응했고, 이는 미시이론의 예측과 일치
이 실험은 행동을 형성하는 데 있어
즉각적인 수반성(미시 구조)
전체 보상량(거시 구조)보다 더 강한 영향력을 가진다는 것을 보여주었습니다.

✅ 결론:
동물의 행동은 미시이론(molecular theory)이 더 정확하게 설명합니다.



🔚 최종 결론 및 요약

이번 실험은 단순히 행동의 빠르고 느림을 비교한 것이 아닙니다.
동물의 행동이 무엇을 기준으로 형성되는지, 즉

  • 즉각적인 보상(미시 수반성)에 따라 움직이는지,
  • 전체 평균 보상률(거시 수반성)에 따라 움직이는지를

직접 실험을 통해 검증한 것입니다.

실험 조건은 일부러 두 이론이 정반대의 행동을 예측하도록 설계되었습니다:

  • 빠르게 많이 반응할수록 총 보상은 많아지도록 설계거시적 강화 구조
  • 반응 간 간격이 길수록 각 반응의 보상 확률은 높아지도록 설계미시적 강화 구조

그리고 실제로 동물은:

  • 전체 보상을 극대화할 수 있는 빠른 전략이 아닌,
  • 반응 하나하나의 보상 확률이 높은 느린 전략을 선택했습니다.
✅ 이는 명확히 다음을 보여줍니다:
동물은 ‘전체적으로 얼마나 보상을 많이 받았는가’보다
‘지금 이 반응에 보상이 따를 가능성’에 더 민감하게 반응한다.


📊 핵심 요약 표

항목 미시이론 (molecular theory) 거시이론 (molar theory)
설명 기준 개별 반응과 보상 사이의 즉각적인 수반성 전체 시간에 걸친 행동-보상 상관관계
예측 행동 느리게, 간격 두고 반응 빠르게, 자주 반응
실험 조건 반응 간 시간이 길수록 보상 확률 ↑ 자주 반응할수록 총 보상 수 ↑
실제 행동 느리게 반응 (보상 확률 높은 쪽 선택) 예측 실패
결론 ✅ 행동은 미시 수반성에 따라 형성됨 ❌ 행동 예측 실패


🧾 한줄 요약 결론

동물은 전체 평균 보상보다,
“반응 하나하나에 보상이 따를 가능성”에 따라 행동한다.
미시이론이 행동을 더 정확하게 설명한다.
728x90
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함
반응형
250x250