데이터 분석을 공부하기 앞서 기초통계를 정리해볼까합니다.
기초통계정리 순서는 다음과 같습니다.
(1) 데이터와 통계학
(2) 빈도분석
(3) 교차분석
(4) 카이제곱 검정
(5) 가설검정
(6) 일표본 T검정(1-sample)
(7) 독립표본 T검정(2-sample)
(8) 대응표본 T검정
(9) 상관분석
(10) 분산분석
(11) 회귀분석
***
(1) 데이터와 통계학
- 데이터는 척도에 의한 분류와 인과관계에 따른 분류로 나눌 수 있음
1) 척도에 의한 분류
- 데이터는 정성적 데이터와 정량적 데이터로 나뉨
- 정성적 데이터는 범주형 데이터를 말하며, 정량적 데이터는 연속형 데이터를 말함
- 정성적 데이터는 명목척도와 서열척도로 나눌 수 있음
- 명목척도: 상호 배타적인 범주로 수치를 부여한 척도 (예: 여자-0, 남자-1)
- 서열척도: 각 범주간의 대소관계, 서열성에 관해 수치를 부여한 척도 (예: 좋음-3, 보통-2, 나쁨-1, 수학적 의미)
- 정량적 데이터는 등간척도와 비율척도로 나눌 수 있음
- 등간척도: 절대적 원점 없이, 차이에 따라 간격으로 수치를 부여한 척도
- 비율척도: 절대적 원점 있고, 비율계산이 가능한 수치를 부여한 척도
정성적 데이터 | 정량적 데이터 | ||
명목척도 | 서열척도 | 등간척도 | 비율척도 |
상호 배타적인 범주로 수치를 부여한 척도 | 각 범주간의 대소 관계 및 서열성에 관하여 수치를 부여한 척도 | 절대적 원점 없이, 차이에 따라 간격으로 수치를 부여한 척도 | 절대적 원점이 있고, 비율 계산이 가능한 수치를 부여한 척도 |
여자-0, 남자-1 | 나쁨-1, 보통-2, 좋음-3 | 온도, 물가지수, 생산지수 | 가격, 무게, 판매량 |
2) 인과관계에 따른 분류
- 독립변수: 다른 변수에 영향을 주는 변수로 원인에 해당됨
- 종속변수: 다른 변수에 영향을 받는 변수로 결과에 해당됨
예: “영화감독의 수상 여부에 따라 영화의 관객 수 차이가 있는가?” 라면, 영화감독의 수상 여부는 독립변수가 되고, 영화의 관객 수는 종속변수가 된다.
- 통계학: 계량적인 자료를 수집, 분석, 설명 및 제시하는 것과 관련한 수학의 한 분야로, 기술통계학과 추측통계학이 있음. 기술통계학은 데이터(자료)를 정리 및 요약하는 방법으로 표나 그래프로 나타내는 방법을 말하며, 추측통계학은 정보를 분석하여 모집단의 특성을 과학적으로 추론하는 방법으로 통계분석(카이제곱검정, 빈도분석 등)을 하는 것을 말한다.
- 변수의 척도에 따른 통계분석법
변수의 척도에 따른 통계 분석법은 다음과 같으며, '기초통계정리'에서는 위의 순서에서 나열한 10개의 분석에서만 다루고 나머지 분석은 파이썬 통계분석을 진행하면서 더 자세히 공부하고자 합니다.
[참고]
- IBM SPSS INC
- 한국외국어대학교 산업경영공학과 이석룡 교수님 2019 공학통계 강의자료
'데이터분석 및 데이터엔지니어 > 통계 및 분석 이론 정리' 카테고리의 다른 글
딥러닝 관련 이론 정리 - 인공지능 자격증 대비 관련 (0) | 2021.11.29 |
---|---|
기초통계정리 (2) 빈도분석 (0) | 2019.11.18 |