티스토리 뷰
평균이 중심위치로 적절한 이유
중심위치는 중심으로부터 거리가 최소화되는 곳을 삼는다.
분산은 평균으로부터 점의 거리를 나타내는데, 이 공식을 사용하여 특정점으로부터 거리가 최소화되는 점을 찾는다.
$$ \sum_{x_i}^{n}(x_i -\bar{x})^2 $$
위 공식이 어떻게 나오게 된걸까?
중심이 평균일 경우와 평균이 아닌 다른 경우를 보면의 거리들의 합을 살펴보자.
평균인 경우: 거리 17.5
점 | 중심 | 거리 제곱 |
1 | 3.5 | 6.25 |
2 | 2.25 | |
3 | 0.25 | |
4 | 0.25 | |
5 | 2.25 | |
6 | 6.25 | |
sum | 17.5 |
위의 공식을 쓰면 평균에서 거리가 가장 짧게 나타난다.
다른 점들도 봐보자
중심이 3, 2, 1인 경우. 점점 멀어진다
점 | 중심 | 거리 제곱 |
1 | 3 | 4 |
2 | 1 | |
3 | 0 | |
4 | 1 | |
5 | 4 | |
6 | 9 | |
sum | 19 |
점 | 중심 | 거리 제곱 |
1 | 1 | 0 |
2 | 1 | |
3 | 4 | |
4 | 9 | |
5 | 16 | |
6 | 25 | |
sum | 55 |
점 | 중심 | 거리 제곱 |
1 | 2 | 1 |
2 | 0 | |
3 | 1 | |
4 | 4 | |
5 | 9 | |
6 | 16 | |
sum | 31 |
거리가 모두 크게 나온다.
직관적으로 데이터를 보고 살폈으니 수식적으로 보자.
거리 공식의 미분을 구하면 그 기울기가 최소가 되는 값을 구할 수 있다.
분산이 공식이 2차식이기 때문에, 2차함수에서 최소인 값을 시각화하면 아래와 같다.
즉 위와 같은 점에서 0이 기울기가 0이고 최소값임이 보인다.
그렇다면 어떤점이 거리를 최소로 하는 점인지 모른 체, 어떤 특정한 점 a에 대해 미분을 구해보자.
이 값의 미분이 0이라면 그곳이 최소가 되는 지점이다.
$$ \sum_{x_i}^{n}(x_i -a)^2 $$ 의 미분을 하면, $$ -2 * \sum_{i=1}^n (x_i - a) $$
$$ -2\{ \sum_{i=1}^n x_i -na \} =0 $$
즉 이 때,
$$ a= \frac{1}{n} \sum_{i=1}^n x_i $$
라는 식이 나오고 오른쪽 값은 전체값을 n으로 나눈 값이니 표본평균이 된다.
'a= 표본평균'이라는 값이 나왔다.
이로 인해 값들의 중심위치로 표본평균이 쓰일 수 있다.
'통계학 > 여인권-통계학의 이해' 카테고리의 다른 글
확률변수란? (0) | 2025.03.31 |
---|---|
Z점수 표준화가 평균0, 표준편차 1이 되는 이유 (0) | 2025.03.31 |
왜 통계학에서는 절댓값보다 제곱을 쓸까 (0) | 2025.03.31 |
통계학이란 무엇인가? (0) | 2025.03.31 |
기대값이 확률 x 확률변수인 이유 (0) | 2025.01.24 |
- Total
- Today
- Yesterday
- 코딩테스트
- 보세사
- 사회심리학
- 인프런
- 윤성우
- 통계학
- jlpt
- 백준
- 회계
- 일문따
- 일본어
- Python
- 심리학
- 데이터분석
- 인지부조화
- 일본어문법무작정따라하기
- C/C++
- 오블완
- K-MOOC
- EBS
- 류근관
- 열혈프로그래밍
- 티스토리챌린지
- 뇌와행동의기초
- 통계
- 파이썬
- stl
- 여인권
- c++
- C
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |