티스토리 뷰
변동비율(VR) vs 변동간격(VI)는 왜 행동의 차이를 보이는가? 실험적 증명!
키성열 2025. 6. 4. 16:28🧠 같은 보상을 받아도 왜 어떤 행동은 더 자주 일어날까?
— 직관에서 시작해 실험으로 들어가는 학습 원리의 퍼즐
🚪 들어가며: 똑같이 주면, 똑같이 움직이지 않을까?
누군가에게 똑같은 보상을 준다면, 당연히 행동도 비슷하게 나타날 것 같지 않나요?
예를 들어, 게임을 할 때 한 시간마다 뽑기를 한 번 줄 때와, 10번 클릭할 때마다 한 번 뽑기를 줄 때를 생각해보세요. 뽑기를 받을 수 있는 횟수가 똑같다면, 우리는 두 조건에서 비슷한 속도로 클릭할 것 같다고 생각할 수 있습니다.
하지만 실제로는 전혀 다릅니다.
🔍 직관과 다른 실제 행동
행동심리학에서는 이와 비슷한 구조의 실험이 많이 수행되어 왔습니다. 특히 다음 두 가지 보상 방식이 대표적입니다.
🕒 1. 변동 간격 스케줄 (VI: Variable Interval)
일정한 시간이 지나고 나면, 단 한 번의 반응으로 보상이 주어지는 방식
예: 10초~60초 사이의 무작위 시간 후, 버튼을 한 번 누르면 먹이 제공
🔢 2. 변동 비율 스케줄 (VR: Variable Ratio)
일정한 횟수만큼 반응해야 보상이 주어지는 방식
예: 10~60번 버튼을 누르면 보상 (시간은 중요하지 않음)
이 두 조건은 보상의 총량, 즉 시간당 보상 횟수는 같도록 조정됩니다. 그런데 실험 결과는 직관과 완전히 어긋납니다.
▶ VR(반응 횟수 기준) 조건에서는 훨씬 더 빠르고 자주 반응하고
▶ VI(시간 기준) 조건에서는 반응 속도가 느리고 일정하게 유지됩니다.
❓ 왜 이런 차이가 생길까?
처음에는 "반응을 많이 하면 보상을 더 받기 때문 아닐까?" 하고 생각할 수 있습니다. 하지만 앞서 말했듯, 시간당 보상 횟수는 동일하게 맞춰져 있기 때문에, 단순히 "많이 반응해서 더 많이 받는다"는 설명으로는 부족합니다.
이 차이는 단순한 우연이 아니라, 행동이 어떤 원리에 따라 형성되고 유지되는지를 보여주는 결정적인 실마리입니다. 즉, 우리가 일상에서
- 어떤 조건에서는 열심히 반응하고,
- 어떤 조건에서는 미적지근하게 행동하는 이유를
실험적으로 검증 가능한 형태로 드러낸 사례입니다.
⚔️ 두 가지 상반된 설명: 미시이론 vs 거시이론
구분 | 이론명 | 핵심 질문 | 설명 방식 |
---|---|---|---|
① | 미시이론 (Molecular Theory) | "바로 직전 반응과 보상 사이에 무슨 일이 있었나?" | 짧은 시간 간격에서의 반응 패턴에 주목 |
② | 거시이론 (Molar Theory) | "전체적으로 보면 어떤 반응이 얼마나 보상을 받았나?" | 실험 전체 시간의 평균적인 상관관계에 주목 |
이제 이 두 이론이 무엇을 근거로 어떤 주장을 펼치는지, 그리고 어떤 실험 결과가 이를 지지하는지를 차례로 살펴보겠습니다.
🔬 본문 1부. 미시이론(molecular theory): 반응과 보상 사이의 ‘타이밍’에 집중하다
📌 미시이론(molecular theory)이란?
미시이론(molecular theory)은 행동이 형성되는 과정에서 “그 직전에 어떤 일이 있었는가?”에 주목하는 이론입니다.
특히, 어떤 행동이 보상을 유발했는지에 따라 그 행동을 계속 반복할지 말지 결정된다고 봅니다.
즉, 이 이론은 ‘한 번의 반응’과 ‘그 직후 보상’ 사이의 관계, 특히 반응 간의 시간 간격(IRT)에 집중합니다.
⏱️ IRT(반응 간 시간)란 무엇인가?
IRT(Interresponse Time)는
두 번의 반응 사이에 걸린 시간을 말합니다.
예를 들어, 비둘기가 버튼을 이렇게 눌렀다고 해봅시다:
- 첫 번째 반응: 1초
- 두 번째 반응: 3초 → 두 번째 반응의 IRT는 2초
미시이론은 동물이 보상을 받을 때마다
“지금 이 반응을 할 때까지 얼마나 쉬었지?”를 학습한다고 봅니다.
이런 경험이 반복되면, 보상이 자주 따르는 IRT 간격을 자연스럽게 선호하게 됩니다.
🔄 변동 간격 vs 변동 비율 — 행동 속도가 왜 달라지는가?
실험에서 보상 횟수가 같도록 맞춰놓았을 때도, 왜 변동 비율에서는 빠르게 반응하고, 변동 간격에서는 느리게 반응할까요?
그 이유는 어떤 IRT가 보상과 잘 연결되는지(=수반성)에 따라 강화되는 반응 방식이 달라지기 때문입니다.
🟦 변동 간격 스케줄 (Variable Interval)
- 일정 시간이 지나야 보상이 생기고,
- 그 후 한 번만 반응하면 보상이 주어짐
예시 상황:
- 평균 30초 간격으로 보상이 생기도록 설정
- 즉, 버튼을 누르기 전에 최소 30초가 지나야 보상이 ‘대기 중’ 상태가 됨
이렇게 반응하면?
- 5초마다 계속 누르면 → 보상은 가끔 나옴 → 성공률 낮음
- 35초 기다렸다가 누르면 → 보상은 대부분 나옴 → 성공률 높음
“기다렸다가 누르면 보상을 자주 받네!”
→ 긴 IRT가 보상을 부르므로, 긴 IRT가 강화됨
→ 반응 속도는 느려짐
🟩 변동 비율 스케줄 (Variable Ratio)
- 정해진 횟수만큼 반응하면 보상이 주어짐
- 시간은 상관없고, 오직 ‘몇 번 눌렀는지’만 중요
예시 상황:
- 평균 30번 누르면 보상이 주어지도록 설정
이렇게 반응하면?
- 3초 간격으로 30번 → 총 90초 후 보상
- 1초 간격으로 30번 → 총 30초 후 보상
“빠르게 눌러야 보상에 빨리 도달할 수 있네!”
→ 짧은 IRT가 보상을 부르므로, 짧은 IRT가 강화됨
→ 반응 속도는 빨라짐
🧪 실험 1: Shimp (1968) — 특정 IRT 구간을 강화한 실험
📋 실험 조건
- 비둘기가 버튼을 누르면 먹이를 받을 수 있음
- 단, 특정 IRT 구간만 보상 조건
- 예: 1.5초~2.5초, 또는 3.5초~4.5초에 해당하는 반응만 보상
- 나머지 시간 간격에서는 아무리 눌러도 보상이 없음
📊 실험 결과
- 시간이 지날수록 보상되는 두 개의 IRT 구간에서 반응이 집중적으로 나타남
- 나머지 시간 구간에서는 거의 반응하지 않음
🔍 해석
비둘기는 자신도 모르게 보상이 따르는 반응 간격을 정확히 학습함
→ 이 실험은 “어떤 IRT가 보상으로 이어지느냐”가 행동을 결정한다는 미시이론의 핵심 주장을 뚜렷하게 보여줌
🧪 실험 2: Shimp (1973) — 시간 타이머 없이 IRT만으로 조절하기
📋 실험 조건
- 이번 실험은 진짜 변동 간격 스케줄이 아님
- 즉, 시간이 흐른 뒤에 보상이 생기게 하는 시스템 없음
- 단지 반응 간 시간(IRT)에 따라 보상 확률을 조절
예:
- IRT가 1초 미만 → 보상 확률 10%
- IRT가 2~3초 → 보상 확률 80%
📊 실험 결과
- 비둘기들은 반응을 점점 느리게 함
- 보상이 잘 따르는 긴 IRT 쪽으로 반응이 몰림
🔍 해석
시간 타이머 없이도,
보상 확률이 IRT에 따라 달라지기만 해도
→ 비둘기의 행동 패턴이 변동 간격 스케줄처럼 변함
핵심 메시지:
동물은 절대적인 시간 흐름보다는
자신의 행동과 보상 사이의 타이밍 관계를 학습합니다.
✅ 요약 정리
조건 | 보상과 연결되는 IRT | 행동 패턴 |
---|---|---|
변동 간격 스케줄 | 긴 IRT (천천히 반응) | 느리고 안정적인 반응 |
변동 비율 스케줄 | 짧은 IRT (빠른 반응) | 빠르고 빈번한 반응 |
핵심 정리:
행동은 단순히 반복해서 일어나는 것이 아니라,
“이 반응 직후에 보상이 왔는가?”라는
순간적인 타이밍 학습에 따라 조절됩니다.
미시이론(molecular theory)은 바로 이 점을 강조하면서,
어떻게 타이밍이 행동을 형성하는가를 과학적으로 설명합니다.
📏 본문 2부. 거시이론(molar theory): 전체 흐름 속의 상관관계를 계산하다
📌 거시이론(molar theory)이란?
거시이론은 행동이 일어나는 이유를 개별적인 순간보다는
오랜 시간 동안의 평균적 관계에서 찾습니다.
“내가 자주 행동했을 때 보상도 자주 따라왔다면,
그 행동은 앞으로 더 자주 일어날 것이다.”
즉, 행동의 원리를 이렇게 봅니다:
- 반응률(얼마나 자주 행동했는가)
- 보상률(얼마나 자주 보상을 받았는가)
- → 두 요소의 상관관계가 행동을 결정함
🔗 핵심 개념: 반응률과 보상률의 상관관계
거시이론은 동물이 단순히 “이번 행동에 보상이 있었나?”를 따지기보다는,
“요즘 들어 내가 많이 행동했더니, 보상도 더 많이 생겼는가?”
를 따진다고 설명합니다.
- 상관관계가 강하면 → “많이 하면 많이 받는다” → 행동 증가
- 상관관계가 약하면 → “많이 해도 소용없다” → 행동 감소
📊 변동 비율 vs 변동 간격: 상관관계 비교
🟩 변동 비율 스케줄 (VR)
- 보상은 반응 횟수에 따라 주어짐
- 반응을 많이 하면 보상도 더 많이 옴
- → 반응률과 보상률의 상관관계 매우 강함
분당 반응 수 | 시간당 보상 수 |
---|---|
30회 | 30개 |
60회 | 60개 |
90회 | 90개 |
“내가 더 자주 행동하면 보상이 더 자주 따라와!”
→ 상관관계가 강하므로 → 더 자주, 더 빠르게 행동
🟦 변동 간격 스케줄 (VI)
- 보상은 일정한 시간이 지나야 생성됨
- 아무리 자주 반응해도 시간이 지나야만 보상 가능
- → 반응률과 보상률 사이의 상관관계 약함
분당 반응 수 | 시간당 보상 수 |
---|---|
10회 | 약 55개 |
60회 | 약 60개 |
100회 | 약 60개 |
“내가 행동을 많이 하든 적게 하든, 보상은 비슷하게 온다”
→ 상관관계 약함 → 굳이 자주 행동하지 않음
🧪 실험: 가상의 수치로 상관관계 이해하기
상관관계의 영향을 실제 수치로 시뮬레이션해봅시다.
두 조건 모두 시간당 보상 수(60개)는 동일하지만, 반응량에 따라 보상의 효율성이 달라집니다.
변동 비율 조건 (상관관계 높음)
분당 반응 수 | 시간당 보상 수 | 보상 1개당 반응 수 |
---|---|---|
30회 | 30개 | 1 |
60회 | 60개 | 1 |
90회 | 90개 | 1 |
→ 반응량과 보상량이 정비례
→ 동물은 “더 자주 행동 = 더 많이 보상”을 명확히 느낌
→ 행동 가속화
변동 간격 조건 (상관관계 낮음)
분당 반응 수 | 시간당 보상 수 | 보상 1개당 반응 수 |
---|---|---|
10회 | 58개 | 약 10.3 |
60회 | 60개 | 약 60 |
100회 | 60개 | 약 100 |
→ 반응량이 늘어도 보상량은 거의 일정
→ “행동을 많이 해도 보상이 안 는다”는 결론에 도달
→ 행동 억제 또는 최적화된 느린 행동 전략 선택
✅ 요약: 거시이론의 핵심 논리
조건 | 반응–보상 상관관계 | 행동 결과 |
---|---|---|
변동 비율 | 강함 (r ≈ +1) | 빠르게, 자주 행동 |
변동 간격 | 약함 (r ≈ 0) | 느리고 일정하게 행동 |
거시이론(molar theory)은
단기적인 타이밍이 아니라,
장기적인 반응–보상 관계 전체를 보고 행동을 조절한다고 설명합니다.
특히 상관관계의 강도가 행동 빈도를 결정짓는 핵심 변수입니다.
🔬 행동을 설명하는 두 이론, 실험은 어느 쪽이 옳다고 말하는가?
🎯 목적: 두 이론의 대립을 실제 행동으로 판별하기
동물이 얼마나 자주 어떤 행동을 하게 되는지를 설명하는 데에는
대표적인 두 가지 이론이 존재합니다:
- 미시이론 (molecular theory)
→ 지금 이 반응에 보상이 따르는가?라는 즉각적 수반성 중심 - 거시이론 (molar theory)
→ 전체적으로 자주 했을 때 얼마나 보상을 받았는가?라는 장기적 상관관계 중심
대부분의 조건에서는 두 이론이 비슷한 예측을 하지만,
특정 조건을 만들면 정반대 예측을 하게 됩니다.
이러한 충돌 조건을 실험적으로 설계하여,
실제 행동은 어떤 이론의 예측을 따르는가?
를 검증할 수 있습니다.
🧪 실험: 두 이론이 정반대 예측을 하도록 설계하기
✅ 핵심 설계 아이디어
많이 반응할수록 총 보상 수는 많아지지만,
각 반응의 보상 확률은 오히려 낮아진다.
이 설계를 통해 다음 두 수반성이 충돌하게 됩니다:
구분 | 구조 | 유도되는 행동 |
---|---|---|
거시적 수반성 | 반응을 많이 할수록 총 보상이 많아짐 | 빠르게 행동하라 |
미시적 수반성 | 반응 간 시간이 길수록 각 반응의 보상 확률이 높아짐 | 천천히 행동하라 |
📊 가상의 수치 예시
전략 | IRT | 분당 반응 수 | 보상 확률 | 분당 보상 수 |
---|---|---|---|---|
전략 A (거시 전략) | 0.6초 | 200회 | 10% | 20개 |
전략 B (미시 전략) | 4초 | 15회 | 80% | 12개 |
- 전략 A: 보상 수는 많지만 비효율적 (거시적 수반성 강화)
- 전략 B: 보상 수는 적지만 효율적 (미시적 수반성 강화)
✅ 결과: 동물은 어떤 행동을 선택했는가?
실험 결과,
동물은 전략 A가 아닌 전략 B를 선택했습니다.
- 총 보상을 더 받을 수 있는 빠른 전략은 선택되지 않았고,
- 각 반응의 보상 확률이 높은 느린 전략이 선택됨
이 결과는 거시이론의 예측과는 어긋나고,
미시이론의 예측과 일치합니다.
🧾 결론
항목 | 요약 |
---|---|
🎯 목적 | 두 이론의 상반된 예측을 실험으로 비교 |
🧪 실험 | 총 보상은 빠른 행동에서 많지만, 보상 확률은 느린 행동에서 높도록 설계 |
✅ 결과 | 동물은 느리게 반응했고, 이는 미시이론의 예측과 일치 |
이 실험은 행동을 형성하는 데 있어
즉각적인 수반성(미시 구조)이
전체 보상량(거시 구조)보다 더 강한 영향력을 가진다는 것을 보여주었습니다.
✅ 결론:
동물의 행동은 미시이론(molecular theory)이 더 정확하게 설명합니다.
🔚 최종 결론 및 요약
이번 실험은 단순히 행동의 빠르고 느림을 비교한 것이 아닙니다.
동물의 행동이 무엇을 기준으로 형성되는지, 즉
- 즉각적인 보상(미시 수반성)에 따라 움직이는지,
- 전체 평균 보상률(거시 수반성)에 따라 움직이는지를
직접 실험을 통해 검증한 것입니다.
실험 조건은 일부러 두 이론이 정반대의 행동을 예측하도록 설계되었습니다:
- 빠르게 많이 반응할수록 총 보상은 많아지도록 설계 → 거시적 강화 구조
- 반응 간 간격이 길수록 각 반응의 보상 확률은 높아지도록 설계 → 미시적 강화 구조
그리고 실제로 동물은:
- 전체 보상을 극대화할 수 있는 빠른 전략이 아닌,
- 반응 하나하나의 보상 확률이 높은 느린 전략을 선택했습니다.
✅ 이는 명확히 다음을 보여줍니다:
동물은 ‘전체적으로 얼마나 보상을 많이 받았는가’보다
‘지금 이 반응에 보상이 따를 가능성’에 더 민감하게 반응한다.
📊 핵심 요약 표
항목 | 미시이론 (molecular theory) | 거시이론 (molar theory) |
---|---|---|
설명 기준 | 개별 반응과 보상 사이의 즉각적인 수반성 | 전체 시간에 걸친 행동-보상 상관관계 |
예측 행동 | 느리게, 간격 두고 반응 | 빠르게, 자주 반응 |
실험 조건 | 반응 간 시간이 길수록 보상 확률 ↑ | 자주 반응할수록 총 보상 수 ↑ |
실제 행동 | 느리게 반응 (보상 확률 높은 쪽 선택) | 예측 실패 |
결론 | ✅ 행동은 미시 수반성에 따라 형성됨 | ❌ 행동 예측 실패 |
🧾 한줄 요약 결론
동물은 전체 평균 보상보다,
“반응 하나하나에 보상이 따를 가능성”에 따라 행동한다.
→ 미시이론이 행동을 더 정확하게 설명한다.