
통계학 입문자에게 좋은 책 일수도 있고 아닐 수도 있다. 근본적으로 책은 예시도 많고 복잡한 수식에 의존하지 않는 좋은 통찰이 들어간 책이다. 얼마나 공부를 많이했는지를 보여주는지 보여준다. 이 책은 목적성을 갖고 있는데 통계의 본질인 우연성에 관한 것을 잘 논하며, 그 우연성을 검정함에 있어서 필요한 전제 조건이 있는지를 분명하게 알려준다. 근데 이 책이 입문자에게 좋다 안좋다라고 말하기 어려운 건, 그건 아마 통계가 가지고 있는 함정때문일 것이다. 본질적으로 통계는 그냥 어렵다. 어떤 책으로 하든 어렵고 어떤 강의로 하든 어렵다. 각 챕터가 짧고 간결하게 구성되어 있는데, 그 짧은 구성요소에 비해 공부하는 시간은 좀 오래걸릴 수 있다. 말하는 내용을 그냥 글로 읽는 게 아니라 자신이 이 책이 요구하는..

1. 실제값과 추정값의 차이 회귀분석은 x로부터 y를 예측한다. 하지만 실제값과 예측치 사이에는 차이가 있다. 그 차이를 아는 방법은? 제곱근-평균-제곱 오차(RMSE, root mean square error) =추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차(standard error of regression) 추정오차=실제의값-추정치 키 170에 회귀방정식에 추정된 몸무게가 50이고 실제가 40이라면 그 차이는 10이다. 각 개별값마다 이런 값이 있을 것이다. 이 모든 추정오차의 값을 제곱해서 루트를 씌우면 그것이 RMSE다. RMSE에서 표본으로 나눌 떄는 자유도 -2를 해서 분모가 n-2이다. (x에서 하나의 자유도, y에서 하나의 자유도) 회귀직선과 RM..

1. 두 변수간의 관계 회귀 분석(regression analysis) 키와 몸무게가 있다면 키 1단위가 증가하면 몸무게는 어느 정도 증가할까? 표준편차선(SD):평균점을 지나며 두 변수의 표준단위가 같은 점들로 이루어진 직선 키의 평균이 167.5이고 표준편차가 11.5라면, 키가 표준편차 1단위 증가한다면, 몸무게는 얼마나 증가하는가? 몸무게의 평균은 63.5이고 표준편차가 11.9일 때 SD 1단위인 11.9만큼 상승할까? ->상관계수가 0.67이기에 0.67*11.9인 단위만큼 상승한다. 회귀직선 y의 x에 대한 회귀직선은 각각의 x값에 대응하는 y값의 평균을 추정한다. 2. 평균의 그래프(graph of averages) 각각의 키에 대하여 그 키에 해당하는 집단의 평균 몸무게를 나타낸다. 그 ..

1. 자료의 중심과 퍼진 정도 평균(mean)과 중앙값(median) -중심 표준편차(standard deviation)와 사분위수 범위(interquartile range) -중심으로부터 퍼진 정도 2. 평균 관측치의 총합을 관측치의 개수로 나누어 구한다. 평균은 자료를 요약하는데 효과적이지만, 개인적 차이는 무시한다. 평균이 173이라고 해서 다 173인 건 아니고 사실은 180이상이 많을 수도 있다. 또한 한국 평균이라면 연령별 차이가 무시되며, 개발 시기에 태어난 세대는 키가 작기 때문에 출생집단(birth cohort)가 무시된다. 렉시스도표(Lexis diagram) 시계열자료에 대해 비교에 유용하다. 우리가 종적 자료를 갖고 있으면 출생집단 효고와 연령효과를 분리해낼 수 있다. 횡단면 분석은..

1. 자료의 정리 자료를 정리할 때 그림도 그리고 수치도 계산한다. 대표적인 그림은 시계열 그림, 줄기-잎 그림, 히스토그램, 파이 도표, 상자그림, 산포도 통계치 평균, 중앙값, 표준편차, 백분위수, 사분위수, 상관계수 등이 있다. 1920 1921 1922 1923 1924 1925 1926 54 59 35 41 46 25 47 표로된 데이터를 그림으로 바꿔서 요약, 정리할 수 있다. 자료와 그림은 다르지만, 매칭을 시킬 수 있다. 줄기 잎 그림(stem-and leaf plot) 큰 단위 숫자를 줄기로, 작은 단위 숫자를 잎으로 해보자 히스토그램 줄기별로 잎의 '개수'를 나타내주는 것이다. 겹-줄기-잎 그림 두 명의 사람을 같이 비교할 수 있다. 파이 도표(pie chart) 파이 조각의 크기로 자..
1. 왜 통계학을 배워야 하나? 통계는 유용하기 떄문! ->직업훈련은 재 취업률을 높이는가? 임금률은 왜 올리는가? 엉터리 통계로부터 타산지석 ->3번실패하면 다음은 성공이다. 통계는 미지의 세계의 안내자이다. 잘못쓰면 이는 거짓말이 된다. 2. 자료 통계학은 자료를 분석하는 학문이다. 왜 자료를 분석할까? -> 이론만으로 충분치 않다. 왜 일부만 분석할까? ->자료가 없어서 모집단(Population): 관심이 되는 대상 전체 표본(Sample): 조사된 일부 모수(Parameter): 모집단의 특성 통계량(statistics): 표본의 특성 추론(inference0: 모집단의 특성을 알아내는 것 '제대로 된 자료를 제대로 분석하는 것이 중요하다.' 자료를 얻는 2가지 방법 실험과 관측 3. 변수 변수..
- Total
- Today
- Yesterday
- 여인권
- 회계
- 보세사
- 정보처리기사
- 오블완
- K-MOOC
- 일문따
- 뇌와행동의기초
- stl
- 열혈프로그래밍
- 티스토리챌린지
- 백준
- C
- 일본어
- c++
- 사회심리학
- 일본어문법무작정따라하기
- 인지부조화
- C/C++
- 심리학
- EBS
- 데이터분석
- 류근관
- 통계학
- jlpt
- 코딩테스트
- 인프런
- 파이썬
- 윤성우
- Python
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |