티스토리 뷰

반응형

1. 자료의 중심과 퍼진 정도

 

평균(mean)과 중앙값(median) -중심

표준편차(standard deviation)와 사분위수 범위(interquartile range) -중심으로부터 퍼진 정도

 

2. 평균

관측치의 총합을 관측치의 개수로 나누어 구한다.

 

평균은 자료를 요약하는데 효과적이지만, 개인적 차이는 무시한다.

평균이 173이라고 해서 다 173인 건 아니고 사실은 180이상이 많을 수도 있다.

또한 한국  평균이라면 연령별 차이가 무시되며, 개발 시기에 태어난 세대는 키가 작기 때문에 출생집단(birth cohort)가 무시된다.

 

렉시스도표(Lexis diagram)

 

시계열자료에 대해 비교에 유용하다.

우리가 종적 자료를 갖고 있으면 출생집단 효고와 연령효과를 분리해낼 수 있다.

 

횡단면 분석은 한 시점에서 상이한 개체를 비교하는데 반해, 종단면 분석은 여러 시점에 한 개체를 비교한다. 

여러 시점에 여러 개체를 비교하면 풍부한 분석이 가능하다.

 

-연령 효과를 주장하기 전에 먼저 사용한 자료가 횡단면자료인지 종적 자료인지부터 구분해야한다.

 

3. 평균, 중앙값, 최빈치

히스토그램은 평균에서 균형을 이룬다.

히스토그램에서 중앙값은 좌우면적을 같게 한다.

 

중앙값이 왼쪽에 치우쳐져있으면 꼬리는 오른쪽으로 늘어져있고, 평균 임금은 낮고 상위에 소수가 있을 수 있다.

중앙값이 오른쪽에 있으면 왼쪽으로 꼬리가 늘어져있다.

 

히스토그램은 중앙값에서 그 면적이 양분된다.

히스토그램은 최빈치에서 그 높이가 제일높다.

 

->평균과 중앙값의 차이가 크면 적절한 대표값을 찾아야한다.

 

4. 제곱근 평균-제곱

(제곱근 평균 제곱 Root Mean Square, RMS)

 

0, 5, -8, 7, -3 이 있으면 숫자 값이 더해지면서 음과 양의 수가 상쇄된다.

숫자의 크기를 알기 위해서 RMS를 사용한다.

RMS=√숫자들의 제곱 평균

 

5. 표준편차(SD, standard deviation)

평균으로부터 자료가 얼마나 떨어져 있는지를 보여준다.

숫자들의 68%가 1SD 떨어진 곳에 위치하고 95%가 2SD 떨어진 곳에 위치한다.

 

6. 자유도

평균을 구할 때 나누어 주는 그 무언가의 숫자, 그것이 바로 자유도이다.

자유도는 합쳐진 값들 중에서 실질적인 독립인 값들의 갯수다.

 

4개의 자료에서 편차의 합이 0이고, 3개의 편차의 합을 안다면 1개의 편차는 값이 정해진다. 그렇기에 3개만이 자유롭게 바뀔 수 있는 수가 된다.

 

그렇다면 왜 자료의 개수가 아닌 자유도로 나누어 표준편차를 구하는가?

자료의 개수가 1개라면, 1로 값을 나누어 전혀 퍼지지 않았다는 인상을 준다.

사실은 얼마나 퍼진지를 모르기 때문에 나눌 수 없는 수 0이 되는 것이 더 적절하다.

 

7. 반복측정치의 표준편차는 측정오차의 크기

이상적인 세계에서는 동일한 대상을 여러 번 측정할 때 매번 동일한 측정치가 얻어지지만 현실은 그렇지 않다.

 

측정오차(measurement error): 개별관측치가 실제의 값과 다르게 나타나는 것

 

측정오차로 관측치의 값은 측정할 때마다 변한다. 그럼에도 왜 측정을 반복하는가?

첫째, 단 한번 측정한 값은 참값과 많이 다르지만, 여러번해서 평균을 내면 그 차이가 줄어든다.

 

편의(bias): 방향성을 갖는 체계적인 오차로 반복측정해도 없어지지않는다.

1m가 95cm로 된 자처럼 측정도구의 잘못같은 체계적 오류로 인해 발생한다.

 

편의는 모든 관측치에 동일한 방향으로 작용하지만 측정오차는 크게 할 수도 있고, 작게할 수도 있다.

 

이탈값: 관측치에서 크게 벗어난 값

이탈값을 어떻게 처리할 것인가? 이론적으로 이를 제거하는 사람도 많지만 그것은 현실과 이론이 반대되는 상황이다. 현실을 위해 이론이 존재하는 것이기 때문에 명백한 착오가 없는 게 아닌 이상 모든 자료를 받아들여야한다.

 

 

 

반응형

'통계학 > 류근관-통계학' 카테고리의 다른 글

제 6장 회귀분석  (0) 2022.03.29
제5장 상관관계  (0) 2022.03.28
제4장 정규분포로의 근사  (0) 2022.03.28
제2장 히스토그램  (0) 2022.03.25
제1장 통계학과 자료  (0) 2022.03.24
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형