
통계학 입문자에게 좋은 책 일수도 있고 아닐 수도 있다. 근본적으로 책은 예시도 많고 복잡한 수식에 의존하지 않는 좋은 통찰이 들어간 책이다. 얼마나 공부를 많이했는지를 보여주는지 보여준다. 이 책은 목적성을 갖고 있는데 통계의 본질인 우연성에 관한 것을 잘 논하며, 그 우연성을 검정함에 있어서 필요한 전제 조건이 있는지를 분명하게 알려준다. 근데 이 책이 입문자에게 좋다 안좋다라고 말하기 어려운 건, 그건 아마 통계가 가지고 있는 함정때문일 것이다. 본질적으로 통계는 그냥 어렵다. 어떤 책으로 하든 어렵고 어떤 강의로 하든 어렵다. 각 챕터가 짧고 간결하게 구성되어 있는데, 그 짧은 구성요소에 비해 공부하는 시간은 좀 오래걸릴 수 있다. 말하는 내용을 그냥 글로 읽는 게 아니라 자신이 이 책이 요구하는..

1. 가능성, 확률 가능성 또는 확률이란 무엇인가? 1)도수이론(frequency theory) 어떤 시행을 반복적으로 실시하면, 하나의 사건이 일어나는 상대도수의 반복횟수가 무한히 증가함에 따라 하나의 상수에 수렴하게 된다. 도수이론에 따르면 이 상수가 바로 그 사건의 확률이 된다. 2) 주관적 견해 왜 주관적 견해? -> 무한히 많은 시행은 불가 기말고사에서 1등을 차지할 확률은? -> 기말고사를 무한히 볼 수 없다. 2. 구슬이 든 상자: 복원추출과 비복원추출 복원추출: 뽑은 구슬을 다시 넣는다. 비복원추출: 뽑은 구술을 다시 넣지 않는다. 빨간 구슬 3개와 파란 구슬 2개가 있다면, 빨간 구슬을 뽑을 확률은 3/5이다. 즉 비율이 중요하다. 3. 가능한 경우를 모두 나열하여 확률을 계산하는 방법 ..

1. 기울기와 절편 기울기는 어떻게 구할까? 기울기= 변화량 (기울기)= r x \(\frac{SDy}{SDx}\) x가 1단위 증가할 때 y가 증가하는 정도를 나타낸다 x가 1SDx만큼 증가할 때 y가 rSDy만큼 증가한다. 회귀직선의 절편은 x가 0일 때 y의 추정치이다. y절편을 구하는 법 x가 0일때 y의 값으로 평균-(기울기 * X)를 통해 구한다. -> 평균이 163만원이고 기울기가 12.7만이면 x가 12.7년이면 이를 통해 값을 구한다. 기울기는 외부로부터 개입하여 x값을 변화시킬 경우 y값의 변화를 나타낸다. 즉, 외부개입-내부반응을 의미한다. 하지만 기울기가 순수반응을 의미하는 것은 아니다. 만약, 한 대졸과 고졸의 평균 소득의 차이가 있다면, 이는 순수한 교육의 차이인가? ->가정환경..

1. 실제값과 추정값의 차이 회귀분석은 x로부터 y를 예측한다. 하지만 실제값과 예측치 사이에는 차이가 있다. 그 차이를 아는 방법은? 제곱근-평균-제곱 오차(RMSE, root mean square error) =추정의 표준오차(standard error of estimate) 또는 회귀의 표준오차(standard error of regression) 추정오차=실제의값-추정치 키 170에 회귀방정식에 추정된 몸무게가 50이고 실제가 40이라면 그 차이는 10이다. 각 개별값마다 이런 값이 있을 것이다. 이 모든 추정오차의 값을 제곱해서 루트를 씌우면 그것이 RMSE다. RMSE에서 표본으로 나눌 떄는 자유도 -2를 해서 분모가 n-2이다. (x에서 하나의 자유도, y에서 하나의 자유도) 회귀직선과 RM..

1. 두 변수간의 관계 회귀 분석(regression analysis) 키와 몸무게가 있다면 키 1단위가 증가하면 몸무게는 어느 정도 증가할까? 표준편차선(SD):평균점을 지나며 두 변수의 표준단위가 같은 점들로 이루어진 직선 키의 평균이 167.5이고 표준편차가 11.5라면, 키가 표준편차 1단위 증가한다면, 몸무게는 얼마나 증가하는가? 몸무게의 평균은 63.5이고 표준편차가 11.9일 때 SD 1단위인 11.9만큼 상승할까? ->상관계수가 0.67이기에 0.67*11.9인 단위만큼 상승한다. 회귀직선 y의 x에 대한 회귀직선은 각각의 x값에 대응하는 y값의 평균을 추정한다. 2. 평균의 그래프(graph of averages) 각각의 키에 대하여 그 키에 해당하는 집단의 평균 몸무게를 나타낸다. 그 ..

1. 산포도 결합분포(joint distribution) 확률 변수가 여러 개일 경우 이들을 함께 고려하는 확률분포 한 변수만 분리하면 알기 어렵기에 두 변수의 관계를 알려면 결합분포를 보아야 한다. ->산포도로 두 변수의 관계를 나타낼 수 있다. 우상향-양의 상관관계 좌상향-음의 상관관계 독립변수 or 설명변수 - 설명을 위해 이용되는 변수 종속변수 or 피설명변수 - 설명 내지 짐작의 대상이 되는 변수 강한상관관계-한 변수를 알면 다른 값을 아는 데 큰 도움이 된다. 약한상관관계-예측하는데 별로 도움이 되지 못한다. 2. 상관계수 상관계수는(correlation coefficient)는 두 변수간의 관계가 얼마나 강한지 측정하는데 도움을 준다. 분포의 중심을 평균점(point of average)라 ..

1. 단위변환 상수를 빼거나 상수를 곱하거나, 또는 상수를 나누는 변환을 말한다. 표준화(standardization) 평균을 빼주고 표준편차로 나누어 주는 변환 ->평균0, 표준편차1 어떤 상수를 자료의 모든 수에 더하면 ->평균은 그 상수만큼 증가. 표준편차는 변화X 모든 수에 어떤 상수를 곱하면 -> 평균, 표준편차 모두 상수만큼 곱한 값으로 변한다. '측정단위가 다른 자료를 비교할 떄 표준화하면 편리하다.' 2. 정규분포곡선 f(x)를 확률밀도함수(probability density function)라고 부른다 표준정규분포는 가로축은 표준단위 세로축은 표준단위당 비율 68-95-99.7 법칙 -1~1까지 구간은 약 68%이다 -2~2까지의 구간은 약 95%이다. -3~3까지의 구간은 약 99.7%..

1. 자료의 중심과 퍼진 정도 평균(mean)과 중앙값(median) -중심 표준편차(standard deviation)와 사분위수 범위(interquartile range) -중심으로부터 퍼진 정도 2. 평균 관측치의 총합을 관측치의 개수로 나누어 구한다. 평균은 자료를 요약하는데 효과적이지만, 개인적 차이는 무시한다. 평균이 173이라고 해서 다 173인 건 아니고 사실은 180이상이 많을 수도 있다. 또한 한국 평균이라면 연령별 차이가 무시되며, 개발 시기에 태어난 세대는 키가 작기 때문에 출생집단(birth cohort)가 무시된다. 렉시스도표(Lexis diagram) 시계열자료에 대해 비교에 유용하다. 우리가 종적 자료를 갖고 있으면 출생집단 효고와 연령효과를 분리해낼 수 있다. 횡단면 분석은..
- Total
- Today
- Yesterday
- 일본어
- 심리학
- 인지부조화
- 일문따
- 코딩테스트
- 류근관
- 인프런
- EBS
- 오블완
- 통계학
- 티스토리챌린지
- 뇌와행동의기초
- stl
- 통계
- C/C++
- 데이터분석
- K-MOOC
- 열혈프로그래밍
- 일본어문법무작정따라하기
- 백준
- 사회심리학
- 여인권
- C
- 윤성우
- 회계
- c++
- jlpt
- 파이썬
- 보세사
- Python
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |