기초 통계 용어(1)
I. 변수(variable)
- 컬럼(column) 또는 피쳐(feature)로 부름
1. 특성에 따른 분류
1) 질적 변수 : 카테고리 분류가 가능한 변수
A. 명목변수 : 순위(서) 개념이 없음
B. 순위변수 : 순위(서) 개념이 있음
2) 양적 변수 : 수치적 분류가 가능한 변수
A. 이산변수 : Count가 가능한 변수
B. 연속변수 : 변수와 다른 변수 사이에 무수히 많은 값이 존재하는 경우(여기서 변수간 간격 측정이 가능하면 등간변수, 비율까지 계산이 가능하면 비율 변수로 표현)
2. 관계에 따른 분류
1) 독립 변수 : 다른 변수에 영향을 줄 수 있는 변수
2) 종속 변수 : 다른 변수에 영향을 받는 변수
II. 통계량
1. 형태 통계량
데이터의 분포와 왜곡을 나타내는 수치
그림 1. https://en.wikipedia.org/wiki/File:Normal_Distribution_PDF.svg
1) 왜도/비대칭도(skewness) : 평균을 중심으로 좌우(negative/positive)로 데이터가 편향된 정도
- 빅 데이터일수록 편향되지 않는다고 생각할 수 있지만 반드시 그렇지는 않다.(빅데이터 또한 전체 관점에서는 샘플 데이터일 수 있다.)
- 왜도의 절대치가가 클수록 해당 데이터를 분석하여 액션하기 어렵다.
2) 첨도(kurtosis) : 정규분포를 기준으로 데이터의 뾰족함 정도
3) 이상치값(outlier) : 오류로 판단하는 값
- 정확한 분석 또는 액션을 위해 "임의"로 설정하여 분리한다.
- 일반적으로 양 끝단을 제거하였으나, 최근에는 양 끝단을 타겟으로 하여 자사 고객분포를 헤비테일(양 끝이 정규분포에 비해 훨씬 두꺼운 분포)로 만드려는 경향이 있어 애매함
2. 중심 통계량
데이터의 경향성을 나타내는 수치
1) 평균(average) : 표본의 중심 무게(w)로 산술/기하/조화/가중 평균 등 경우에 맞게 다양한 측정법 사용
2) 중앙값(median) : 순위 변수로 이뤄진 데이터의 가운데(50%)에 위치한 값
3) 최빈값(mode) : 전체 데이터에서 가장 빈번히 나타나는 값
3. 변동 통계량
데이터의 변동성을 나타내는 수치
1) 편차 : 관측값 - 평균
2) 변동 : 편차 제곱의 합
3) 분산 : 편차 제곱의 합 / 데이터 수
4. 관계 통계량
데이터간 관계를 나타내는 수치
1) 인과 관계 : 비교하는 변수간 하나는 원인, 하나는 결과가되는 관계
2) 상관 관계 : 한 변수의 변화가 다른 변수의 변화와 (선형적)유사성이 있는 경우.
- 모델링 작업에서 피쳐 간 공분산 검증이 바로 상관도를 측정하기 위함