본문 바로가기
데이터분석 및 데이터엔지니어/통계 및 분석 이론 정리

기초통계정리 (1) 데이터와 통계학

by na.__.na 2019. 11. 18.

데이터 분석을 공부하기 앞서 기초통계를 정리해볼까합니다.

기초통계정리 순서는 다음과 같습니다.

(1) 데이터와 통계학

(2) 빈도분석

(3) 교차분석

(4) 카이제곱 검정

(5) 가설검정

(6) 일표본 T검정(1-sample)

(7) 독립표본 T검정(2-sample)

(8) 대응표본 T검정

(9) 상관분석

(10) 분산분석

(11) 회귀분석

 

***

 

(1) 데이터와 통계학

 

- 데이터는 척도에 의한 분류와 인과관계에 따른 분류로 나눌 수 있음

 

1) 척도에 의한 분류

  • 데이터는 정성적 데이터와 정량적 데이터로 나뉨
  • 정성적 데이터는 범주형 데이터를 말하며, 정량적 데이터는 연속형 데이터를 말함
  • 정성적 데이터는 명목척도와 서열척도로 나눌 수 있음
    • 명목척도: 상호 배타적인 범주로 수치를 부여한 척도 (: 여자-0, 남자-1)
    • 서열척도: 각 범주간의 대소관계, 서열성에 관해 수치를 부여한 척도 (: 좋음-3, 보통-2, 나쁨-1, 수학적 의미)
  • 정량적 데이터는 등간척도와 비율척도로 나눌 수 있음
    • 등간척도: 절대적 원점 없이, 차이에 따라 간격으로 수치를 부여한 척도
    • 비율척도: 절대적 원점 있고, 비율계산이 가능한 수치를 부여한 척도
정성적 데이터 정량적 데이터
명목척도 서열척도 등간척도 비율척도
상호 배타적인 범주로 수치를 부여한 척도 각 범주간의 대소 관계 및 서열성에 관하여 수치를 부여한 척도 절대적 원점 없이, 차이에 따라 간격으로 수치를 부여한 척도 절대적 원점이 있고, 비율 계산이 가능한 수치를 부여한 척도
여자-0, 남자-1 나쁨-1, 보통-2, 좋음-3 온도, 물가지수, 생산지수 가격, 무게, 판매량

 

2) 인과관계에 따른 분류

  • 독립변수: 다른 변수에 영향을 주는 변수로 원인에 해당됨
  • 종속변수: 다른 변수에 영향을 받는 변수로 결과에 해당됨

 

: “영화감독의 수상 여부에 따라 영화의 관객 수 차이가 있는가?” 라면, 영화감독의 수상 여부는 독립변수가 되고, 영화의 관객 수는 종속변수가 된다.

 

- 통계학: 계량적인 자료를 수집, 분석, 설명 및 제시하는 것과 관련한 수학의 한 분야로, 기술통계학과 추측통계학이 있음. 기술통계학은 데이터(자료)를 정리 및 요약하는 방법으로 표나 그래프로 나타내는 방법을 말하며, 추측통계학은 정보를 분석하여 모집단의 특성을 과학적으로 추론하는 방법으로 통계분석(카이제곱검정, 빈도분석 등)을 하는 것을 말한다.

 

- 변수의 척도에 따른 통계분석법

 

변수의 척도에 따른 통계분석법

 

변수의 척도에 따른 통계 분석법은 다음과 같으며, '기초통계정리'에서는 위의 순서에서 나열한 10개의 분석에서만 다루고 나머지 분석은 파이썬 통계분석을 진행하면서 더 자세히 공부하고자 합니다.

 

[참고]

  • IBM SPSS INC
  • 한국외국어대학교 산업경영공학과 이석룡 교수님 2019 공학통계 강의자료