데이터 과학을 위한 통계
데이터 과학에 필요한 만큼만 배우는 실용주의 통계학
데이터 과학자가 고전 통계를 낱낱이 알아야 하는 것은 아니다. 이 책은 다양한 통계 기법을 데이터 과학에 적용해보며, 중요한 것과 중요하지 않은 것을 구분하는 실용적인 방법을 알려준다. EDA, 회귀분석, 분류 등 오늘날 데이터 분석과 머신러닝에서 사용하는 기법들의 근본이 되는 통계 개념을 확실하게 이해할 수 있다.
통계 교육기관 Statistics.com 설립자. Statistics.com은 100여 개 통계 강의를 제공하며 그중 3할은 데이터 과학자가 대상이다. 치밀한 마케팅 전략을 수립해 최고 수준의 전문 데이터 과학자들을 강사로 모집해왔다. 이 과정에서 데이터 과학자를 위한 통계라는 주제에 대해 폭넓은 시야와 전문적 식견을 쌓았다
CHAPTER 1 탐색적 데이터 분석
1.1 정형화된 데이터의 요소
1.2 테이블 데이터
1.3 위치 추정
1.4 변이 추정
1.5 데이터 분포 탐색하기
1.6 이진 데이터와 범주 데이터 탐색하기
1.7 상관관계
1.8 두 개 이상의 변수 탐색하기
1.9 마치며
CHAPTER 2 데이터와 표본분포
2.1 랜덤표본추출과 표본편향
2.2 선택 편향
2.3 통계학에서의 표본분포
2.4 부트스트랩
2.5 신뢰구간
2.6 정규분포
2.7 긴 꼬리 분포
2.8 스튜던트의 t 분포
2.9 이항분포
2.10 푸아송 분포와 그 외 관련 분포들
2.11 마치며
CHAPTER 3 통계적 실험과 유의성 검정
3.1 A/B 검정
3.2 가설검정
3.3 재표본추출
3.4 통계적 유의성과 p 값
3.5 t 검정
3.6 다중검정
3.7 자유도
3.8 분산분석
3.9 카이제곱검정
3.10 멀티암드 밴딧 알고리즘
3.11 검정력과 표본크기
3.12 마치며
CHAPTER 4 회귀와 예측
4.1 단순선형회귀
4.2 다중선형회귀
4.3 회귀를 이용한 예측
4.4 회귀에서의 요인변수
4.5 회귀방정식 해석
4.6 가정 검정: 회귀 진단
4.7 다항회귀와 스플라인 회귀
4.8 마치며
CHAPTER 5 분류
5.1 나이브 베이즈
5.2 판별분석
5.3 로지스틱 회귀
5.4 분류 모델 평가하기
5.5 불균형 데이터 다루기
5.6 마치며
CHAPTER 6 통계적 머신러닝
6.1 K 최근접 이웃
6.2 트리 모델
6.3 배깅과 랜덤 포레스트
6.4 부스팅
6.5 마치며
CHAPTER 7 비지도 학습
7.1 주성분분석
7.2 K 평균 클러스터링
7.3 계층적 클러스터링
7.4 모델 기반 클러스터링
7.5 스케일링과 범주형 변수
7.6 마치며