티스토리 뷰

반응형

평균이 중심위치로 적절한 이유

중심위치는 중심으로부터 거리가 최소화되는 곳을 삼는다.

분산은 평균으로부터 점의 거리를 나타내는데, 이 공식을 사용하여 특정점으로부터 거리가 최소화되는 점을 찾는다.

$$ \sum_{x_i}^{n}(x_i -\bar{x})^2 $$

위 공식이 어떻게 나오게 된걸까?

 

중심이 평균일 경우와 평균이 아닌 다른 경우를 보면의 거리들의 합을 살펴보자.

 

평균인 경우: 거리 17.5

 

중심 거리 제곱
1 3.5 6.25
2   2.25
3   0.25
4   0.25
5   2.25
6   6.25
  sum 17.5

위의 공식을 쓰면 평균에서 거리가 가장 짧게 나타난다.

다른 점들도 봐보자

 

중심이 3, 2, 1인 경우. 점점 멀어진다 

중심 거리 제곱
1 3 4
2   1
3   0
4   1
5   4
6   9
  sum 19
중심 거리 제곱
1 1 0
2   1
3   4
4   9
5   16
6   25
  sum 55

 

중심 거리 제곱
1 2 1
2   0
3   1
4   4
5   9
6   16
  sum 31

 

거리가 모두 크게 나온다.

 


직관적으로 데이터를 보고 살폈으니 수식적으로 보자.

거리 공식의 미분을 구하면 그 기울기가 최소가 되는 값을 구할 수 있다.

분산이 공식이 2차식이기 때문에, 2차함수에서 최소인 값을 시각화하면 아래와 같다.

 

 

즉 위와 같은 점에서 0이 기울기가 0이고 최소값임이 보인다.

그렇다면 어떤점이 거리를 최소로 하는 점인지 모른 체, 어떤 특정한 점 a에 대해 미분을 구해보자.
이 값의 미분이 0이라면 그곳이 최소가 되는 지점이다.

 

$$ \sum_{x_i}^{n}(x_i -a)^2 $$ 의 미분을 하면, $$ -2 * \sum_{i=1}^n (x_i - a) $$

$$ -2\{ \sum_{i=1}^n x_i -na \} =0 $$

즉 이 때,

 

$$ a= \frac{1}{n} \sum_{i=1}^n x_i $$

라는 식이 나오고 오른쪽 값은 전체값을 n으로 나눈 값이니 표본평균이 된다.

'a= 표본평균'이라는 값이 나왔다.

이로 인해 값들의 중심위치로 표본평균이 쓰일 수 있다.

 

 

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함
반응형