티스토리 뷰

반응형

 

네가 생각하는 것을 측정하고 숫자로 표현할 수 있을 때,

너는 그것에 대해 무언가를 아는 것이다. 반면에 네가 그렇지 못하다면

너의 지식은 빈약하고 만족할 수 없는 것이다.

이것이 아마 지식의 시작이다. 조금씩 과학의 상태로 다가갈 것이다.

 

 

이 책은 문항반응이론(item response theory)에 대해 다룬다. 문항반응이론은 잠재적 특성 이론(latent trait theory) 혹은 문항 특성 곡선(item characteristic curve theory)이라고도 한다.

 

측정(measurement)을 논하기에 앞서 무엇이 측정인지를 알아보자.

측정은 여러 정의가 있을 수 있다.

그 중 고전적인 정의는 '규칙에 따라 사건이나 대상에게 숫자를 부여하는 것'으로 정의할 수 있다.

위애서 말했듯이 규칙을 따른다고 했기 때문에 다른 규칙에는 다른 척도(scale)이나 다른 방법의 측정이 적용된다.

그러나 이런 고전적인 측정의 정의는 한계가 있다.

 

측정은 단순히 규칙에 따라 숫자를 부여하는 것이 아니라 변수(variable)의 특징을 알아내려고 하는 한 과정(process)으로 볼 수 있다. 이 과정은 숫자로된 가치(value)를 만든다. 이 가치에 있는 내재된 특성이나 집단의 구분은 우리가 관심을 갖고 있는 가치가 연속적인가 아니면 이산적인가에 따라 다르다. 

문항반응이론은 이 변수들이 본질적으로 연속적이라고 여긴다.

 

 

측정(Measurement)

과정으로서의 측정은 무엇인가? 한 예시를 들어 봐보자.

연구자가 일반적인 불안의 측정에 관심이 있다고 해보자. 아마 불안은 느슨하게 정의되어 있을 것이다. 

'불안은 어떤 감정을 말하는데 일반적인 불편감에서 부터 아무것도 하지 못하게 하는 공포'처럼 정의될 수 있다. 

하지만 감정이라는 것은 직접적으로 관찰할 수 없기에 잠재변인(latent variable or latent construct)로 불린다.

 

잠재변인(latent variable)이란?

:측정할 수 없는 변수(ex 성격, 불안, 행복)와 같은 것들이다. 그렇기에 제품 선호도는 구매량과 같이 측정 가능한 변수를 통해 측정하려고 한다.

 

과정으로서앞서 말한 '불안'이라는 잠재변인에 대해 살펴보자. 

먼저 잠재변인을 연속형 혹은 이산형 아니면 둘다로 나누어야 한다. 

만약 이산형(categorical)인 경우라면, 우리는 개인을 다른 잠재 그룹으로 나눌 수 있다.

한 그룹은 '높은 불안감'을 가진 그룹이 되며, 다른 그룹은 '불안 없음'인 그룹이 될 수 있다.

불안감이 높은 그룹과 낮은 그룹은 잠재변인에서 다른 사람이 되며, 이러한 잠재변인의 분류는 잠재 집단(latent class)가 된다(높은 불안 집단, 낮은 불안 집단).

잠재 집단은 하위모집단으로 불안이라는 공통된 특성을 공유하지만, 그 정도는 다른 것을 의미하는 것이다.

 

잠재변인이 직접 관찰할 수 없기에, 잠재변인의 존재는 관찰변수(menifest variables) 또는 관찰(menifestations)로부터 추론된다. 예를 들어 근전도와 같은 생리적인 반응을 측정할 수 있으며, 수면시간이나 두통의 지속시간 등을 통해서도 추론할 수 있다. 

이러한 접근은 조작적 정의(operational defintion)을 제공하고, 조작적 정의는 우리가 어떻게 관찰할 대상을 수집할지를 구체화해준다.

 

이제 측정 과정에서 잠재변인과 조작적 정의가 됐다면, 우리는 관찰결과와 개인의 불안 수준을 매칭시킬 필요가 있다. 일반적으로 척도화(scaling)은 잠재변인 위에 관찰과 개인의 위치를 정하는 것이다. 

예를 들면 3점은 중간 불안, 5점은 높은 불안처럼 개인을 관찰변인 위에 놓을 수 있다. 

문항반응이론은 이러한 종류의 측정의 한 방법이다. 

 

 

다른 측정 이슈들(Some measurement issues)

잠재 변수를 척도화하기 전에 4가지 이슈가 있다.

1) 측정의 일관성(the consistency of the measures)

예를 들면, 상자의 높이를 잰다고 하면 잴 때 마다 일관되게 점수가 나온다면 그 점수는 신뢰성(reliability)이 높다. 그러나 잴 때마다 수치가 제각각이라면 신뢰성이 낮게 나올 것이다. 신뢰성이 낮다는 것은 높은 오류(error)를 갖고 있다는 것이다.

2) 측정의 타당성(the validity of the measures)

측정하고자 하는 잠재변인을 정확하게 측정하고 있느냐의 문제이다. 예를 들어 키를 재는 데에 체중을 잰다면 이것은 잘못된 것을 측정하고 있는 것이다. 불안을 측정할 때 두통의 지속시간 등을 측정하는 것이 불안을 측정하는지가 중요하다.

3) 바람직한 특성(a desirable property)

측정 도구가 측정하는 것과 독립적이어야 하며, 이런 특성이 성립되면 측정의 불변성(invariance)을 이 도구가 갖고 있다고 할 수 있다. 만약 상자의 크기를 잰다면 줄자를 사용할 수 있다. 그러면 줄자가 신발 박스를 잴 때와 옷 상자를 잴 때와 상관없이 정확히 그 크기를 잴 수 있어야한다. 

4) 측정의 고전적 정의(the classic definition of measurement)

어떻게 불안을 재냐에 따라 해석의 다양성이 존재할 수 있다. 만약 두통의 지속시간으로 불안을 잰다면, 이 값은 무조건 양수이다. 아마 절대영점이 존재하기에 비율척도를 사용할 것이다.

 

 

문항 반응 이론(Item response theory)

문항반응이론은 잠재변인과 그 현상을 일치시켜주는 하나의 방법이다. 문항반응이론은 개인이나 아이템의 잠재적인 특성을 관찰된 반응의 예측으로 쓴다. 반응에서의 위치는 각각의 사람을 구분할 수 있게 해준다.

이게 무슨 말이냐면 결국, 문항이 1점인 사람과 5점인 사람은 각각 불안의 수준이 다르다는 것 같다. 즉 둘이 다른 위치에 있으면 다른 불안정도를 가진다는 것을 말한다는 것이다.

 

또한 문항반응이론의 요지(gist)는 관찰된 반응의 회귀(regression)분석이라고 한다.

 

 

고전적 시험 이론(Classical test theory)

문항반응이론과 고전적 시험 이론은 모두 잠재변인이 연속적이라고 생각한다. 불안의 수준은 1,2,3,4,5 이산적으로 표현했을지라도 불안이 끊어져서 존재한다고 생각하지 않는다. 

이 두 이론의 차이점은 문항반응이론은 초점이 '문항'  이지만 고전적 이론은 '관찰자'에 초점이 맞춰져있다.

 

고전적시험이론의 관찰된 점수는 X이고, 이것은 가중치가 없는 각 문항의 합이다. 이는 X로 나타내고 능력이나 성과 평가에서 정확한 반응의 수를 반영한다. 즉 수학 시험에서 10개중에 5개 맞으면 5개가 능력이 된다.

 

고전적 점수이론은 참 점수 모델(True score model)에 기반한다. 이 모델은 개인의 관찰된 점수를 사람의 잠재변인에 위치시킨다. 예를 들어 사람이 어떤 수행을 무한번 반복한다고 하면, 이 무한번의 수치의 평균이 아마 기대값이 될 것이다.

ex) 동전을 무한번 던지면 앞면과 뒷면의 확률은 각각 1/2이 되는 것을 예시한 것 같다.

 

하지만 동전을 무한 번 던진다고 해서 정확히 5:5로 나뉘어지지는 않을 것이다. 만약 2000번을 던진다고 해도 1002:998 등으로 근사는 하겠지만 차이는 있을 것이다. 이 차이를 오류(Error)로 부른다.

 

Xi=μi+Ei식 1.1 

 

여기서 μi는 평균(기댓값)을, Xi는 개인의 점수를, Ei는 오류를 나타낸다.

즉 위의 예시에서 보면 mui라는 건 1000번일것이다. Ei=2이다. 그렇기에 관찰값(Xi이 1002가 나왔다.

여기서 오차가 없다면 진짜 값은 μ일 것이다. 이 값은 개인의 특성값(trait score), 참값으로 생각해서 T로 표시해보자.

그렇다면

 

Xi=Ti+Ei식 1.2     

 

고전적 검사이론은 가정을 갖고 있다.

1) 오류들은 검사에 있어 참값과 상관관계가 없다

2) 한 검사의 오류는 다른 검사의 참값과 상관이 없다

3) 한 검사의 오류는 다른 검사의 오류와 상관이 없다

이런 가정은 약한(weak) 가정이라고 한다.

왜냐하면 이 가정들은 데이터에서 마주할 수 있다.

반면 IRT는 강한 가정에 기반하고 있다. 이 내용은 다음장에서 다룬다고 한다.

 

고전적 이론에서 신뢰도를 구함에 있어 신뢰도 계수라는 것을 사용한다.

 

PXX=σT2σX2식 1.3

 

'참값의 분산 / 관찰된 점수의 분산'으로 구한다.

σT2=σX2σE2으로 σT2으로 구할 수 있다.

여기서 σT2은 무조건 sigmaX2보다 더 작거나 같다. 왜냐하면 sigmaT2이 참값에서 에러를 뺀 값이기 떄문이다.

만약 σE2, 즉 에러가 0이라면 이 PXX는 1이 되어 신뢰도가 1이 되고, 만약 에러가 1에 가깝다면 신뢰도는 낮다고 볼 수 있다.

 

우리가 알듯이 이 관찰된 값은 검사의 특성에 따라 영향을 받는다. 쉬운 검사와 어려운 검사는 같은 사람에게 다른 결과를 낳는다. 고전적 검사이론은 불변성(invariance)를 가질 수 없다고 한다.

왜인지 몰라서 챗GPT에 물어봤는데, 한 번 읽어보자. 뭔지 모르겠다.

 

고전적 검사 이론(Classical Test Theory, CTT)에서 불변성(invariance)이 불가능한 주된 이유는 CTT가 테스트 점수의 구성 요소들에 대해 단순한 가정을 하기 때문입니다. CTT는 개인의 관찰된 점수(observed score)가 참 점수(true score)와 오차 점수(error score)의 합이라고 가정합니다. 이 이론은 다음과 같은 제한 사항을 가지고 있어 불변성을 달성하기 어렵습니다:

  1. 개인 참 점수의 직접적 측정 부재: CTT는 개인의 참 점수를 직접 측정할 수 없습니다. 참 점수는 이론적인 개념으로, 실제로 관찰되거나 측정될 수 없습니다. 이는 참 점수가 상황이나 집단에 따라 어떻게 변하는지를 알 수 없다는 것을 의미합니다.
  2. 문항 난이도와 차별도의 고려 부족: CTT는 모든 문항이 모든 응시자에게 동일한 난이도와 차별도를 가진다고 가정합니다. 그러나 실제로는 문항의 난이도와 차별도가 응시자의 능력 수준에 따라 다를 수 있습니다. 이는 테스트 점수가 다른 집단 간에 불변하지 않을 수 있음을 의미합니다.
  3. 신뢰도의 상황 의존성: CTT에서 신뢰도는 특정 테스트와 특정 집단에만 적용됩니다. 다른 집단이나 조건에서 신뢰도가 동일하다고 가정할 수 없으며, 이는 테스트 점수의 불변성을 제한합니다.
  4. 테스트 점수의 비교 문제: CTT는 다른 시간이나 상황, 또는 다른 테스트 간의 점수를 직접 비교할 수 있는 메커니즘을 제공하지 않습니다. 이는 테스트 점수가 다른 조건에서 동일한 의미를 가지고 있다고 가정할 수 없다는 것을 의미합니다.
  5. 문항 반응 이론(Item Response Theory, IRT)과의 대조: IRT는 개인의 능력과 문항의 특성을 동시에 고려합니다. 이는 문항의 난이도와 차별도가 개인의 능력 수준에 따라 다르게 적용될 수 있음을 인정하며, 이로 인해 더 높은 수준의 불변성을 달성할 수 있습니다.

CTT의 이러한 제한 사항들은 테스트 점수의 불변성을 달성하는 데 있어 중요한 장애물이 됩니다. 이는 테스트 점수가 다른 집단이나 상황에서 동일한 의미를 가지고 있지 않을 수 있음을 의미하며, 이로 인해 테스트의 타당성과 공정성에 영향을 미칠 수 있습니다.

 

 

 

잠재 계층 분석(Latent class analysis)

잠재변인은 연속적인 변수의 가정이 있지만, 잠재 계층 분석에서는 이산적으로 가정한다.

이 분석에서는 개인의 비교를 잠재 계층의 멤버로 놓고 비교한다.

예를 들어 조현병, 우울증 등 이런 이산적인 분야에 넣을 수 있다.

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형