2. 통계분석
(1) 통계분석의 이해
가) 통계
– 조사 범위 : 총조사 , 표본조사
– 표본추출 방법
. 단순랜덤 추출법 : 단순 랜덤
. 계통추출법 : 구간을 나눈 후 구간안에서 균등하게 랜덤하게 추출
. 집락추출법 : 모집단이 몇개의 집락으로 구분이 가능한 경우 사용
. 층화추출법 : 이질적인 원소들로 구성된 모집단에서 유사한 것끼리 층을 나눈후 각 층에서 추출
– 측정 방법
. 명목척도 : 측정 대상의 소속 척도 (예: 남,여)
. 순서척도 : 측정 대상의 서열 척도 (예: 만족, 매우만족, 보통, 불만족)
. 구간척도 : 측정 대상이 갖고 있는 속성이 양으로, 두 관측 값 사이의 비율이 의미가 없는 데이터 (예: 온도, 지수 )
. 비율척도 : 절대저 기준이 0 값이 존재 , 모든 사칙연산 가능, 제일 많은 비율의 정보 (예 : 나이, 연간소득, 제품 가격)
나) 통계 분석
– 통계 분석/통계적 추론 : 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집 적절한 분석을 통해 의사결정하는 과정
– 추정 : 대상 집단의 특성값(모수)는 무엇인가를 추측
– 가설검정 : 가설을 설정후 가설의 채택 여부를 검증
– 예측 : 미래의 불확실성을 해결해 효율적인 의사 결정을 하기 위한 수행
– 기술통계 : 평균, 표준편차 등 수집된 자료를 정리 요약 하기 위해 사용하는 기초 통계
다) 확률 및 확률분포
– 확률 변수
. 이산형 확률 변수 : 점에 대한 확률 (확률 크기 표현 함수 : 확률질량함수 사용)
. 연속형 확률 변수 : 구간에 대한 확률 (확률 크기 표현 함수 : 확률밀도함수 사용)
– 결합 확률 분포 : 확률 변수의 집합
. 이산형 확률 함수 : 결합확률질량함수 (P(x,y) x = 1,2,3,4, y=1,2,3,4,)
베르누이, 이항분포, 기하분포, 다항분포, 포아송분포
. 연속형 확률 함수 : 결합확률밀도함수 (f(x,y))
균일분포, 정규분포, 지수분포, t분포, x2분포, F분포
라) 추정과 가설검정
– 추정
. 점추정 : 모수가 특정 값일 것(예 : 평균, 표본분산 )
. 구간추정 : 모수가 구간에 포함될 것 (신뢰수준, 신뢰구간)
– 가설검정
. 귀무가설 : 항상 간단하고 구체적인 표현
. 대립가설 : 귀무가설에 대립되는 가설
. 검정통계량 : 검증을 위한 통계량으로 유의수준 비교에 이용하는 데이터 (F, T Value 등)
. 유의수준 : 귀무가설이 옳다는 가정하게 통계량을 구한후 이 값이 나타날 확률을 정의, 귀무 가설이 옳은데도 이를 기각하는 확률의 크기
. 기각역 : 귀무가설이 옳단느 전제하게 구한 검정통계량의 분포에서 확률이 유의수준인 부분
. 제 1종 오류 : 귀무가설이 참이에도 거짓이라고 판단하는 오류
. 제 2종 오류 : 귀무가설이 거짓 임에도 참이라고 판단하느 오류
마) 비모수 검정
– 데이터가 정규분포를 따르지 않거나 , 자료가 개체간의 서열관계를 나타내는 경우 모수 검정 불가
– 비모수 검정 방법 : 부호검정, 윌콕슨 순위 합 검정, 윌콕슨 부호순위합검정, 만 위트니의 U검정, 런 검정, 스피어만 상관순위 계수
(2) 기초 통계 분석
가) 기술통계
– 평균 : mean
– 중앙값 : median
– 표준편차 : sd
– 분산 : var
– 1사분위수 : quantile(data, 1/4)
– 3사분위수 : quantile(data, 3/4)
– 최대값 : max
– 최소값 : min
나) 인과관계의 이해
– 종속변수 : 다른 변수의 영향을 받는 변수
– 독립변수 : 영향을 주는 변수
– 산점도(scatter) : 좌표 평면위에 점들로 표현
.선형성 확인 . 함수관계 (진선, 곡선), 이상값 존재, 계측 구분
– 공분산 : X,Y 방향의 조합 (선형성) 이다 (X,Y 과 독립이면 공분사는 0)
다) 상관 분석
– 피어슨의 표본 상관 계수 : cor (X , Y)
– 스피어만 상관계수 : 비모수 방법 , rcorr( X, Y, type=’pearson’)
(3) 회귀 분석
가) 회귀 분석의 개념
– 단순 회귀 분석 : 종속변수와 독립변수가 단 하나
– 다중회귀분석 : 두개 이상의 독립변수 사용
– 회귀분석의 적합성 판단 요건
. 통계적으로 유의미 한가 : 유의수준 5% 이하에서 F통계량이(모형의 적합성) p- 값이 0.05보다 작으면 회귀식은 통계적으로 유의하다고 볼 수 있다. (귀무가설 : 통계적으로 유의하지 않다)
. 회귀계수가 유의미 한가 : t통계량, p-값 및 이들의 신뢰구간
. 모형의 설명력 : 결정계수 (0 ~ 1)
. 모형이 데이터를 잘 적합하고 있는가 : 잔차에 대한 회귀 진단 (잔차가 회귀 관계를 갖으면 그것을 포함해서 재 모델링 필요)
. 데이터가 전체 가정을 만족하는가 ?
– 가정
. 선형성 : 독립변인의 변화에 따라 종속변인도 일정 크리고 변화
. 독립성 : 잔차와 독립변인의 값이 관련되어 있지 않음
. 등분산성 : 독립 변인의 모든 값에 대해 오차들의 분산이 일정
. 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
. 정상성 : 잔차항이 정규분포를 이뤄야 함
나) 회귀분석의 종류
– 회귀 분석 종류
. 단순회귀 : 독립변수 1, 종속변수 1
. 다중회귀 : 독립변수 N, 종속변수 1 (1차 함수)
. 다항회귀 : 독립변수 N, 종속변수 1 (2차 함수 이상 )
. 곡선회귀 : 독립변수 1, 종속변수 1 (반응 변수와의 관계가 곡선)
. 비선형회귀 : 미지의 모수들의 선형관계로 이루어 지지 않음
– R 선형 회귀식 판단
. lm ( fomula = 종속 ~ 독립 , data=데이터)
. 각 변수 Pr(>|t|) : 각 변수가 모델 미치는 회귀 계수로 귀무가설은 모델이 유의하지 않다
. Multiple R-Squared : 결정계수로 모델이 전체 데이터를 얼마나 설명하는지에 대한 계수 (0 ~ 1)
. F-statistic : 검정을 위한 통계 값 (모델의 유의성) 으로 P-Palue 산정에 사용
. P-Value : 귀무가설은 모델이 유의하지 않다. 즉 0.05 이하에서 모델 성립
– 최적회귀방정식 선택 (설명 변수의 선택)
. 모든 가능한 조합의 회귀 분석
. 단계적 변수 선택법 : 전진선택법 ,후진제거법, 단계별 방법
(4) 시계열 분석
가) 정상성
– 평균이 일정하다, 즉 모든 시점에 대해 일정한 평균을 가진다.
– 분산도 시점에 의존하지 않는다.
– 공분산은 단지 시차에만 의존 특정 시점 t,s 에 의존하지 않는다.
– 변환 : 분산이 일정하지 않을 때 사용하여 정상성 확보
– 차분 : 평균이 일정하지 않을 때 사용하여 정상성 확보, 이전 시점의 데이터로 뺀다
나) 시계열 모형
– 자기회귀 모형 (AR 모형)
. p 시점의 자료가 현재 자료에 영향을 주는 자귀 회귀 모형
. AR ( N ) : N 은 절단 시점
– 이동평균모형 (MA 모형)
. 유한한 개수의 백색잡음의(시계열 분석에서의 오차항) 결합
. MA( N ) : N 은 절단 지점
– 자기회귀누적이동평균모형
. ARIMA(p ,d ,q) : AR + 차분 + MA
– 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법 (반복요인을 제거)
. 추세요인 : 지수적인 형태를 취하는 경우 추세요인이라 칭함
. 계절요인 : 일, 년, 월 등 특정 시간으로 반복되는 경우 계절요인이라 칭함
. 순환요인 : 알려지지 않은 주기로 반복되는 경우 순환요인이 있다고 함
. 불규칙요인 : 위의 세가지로 표현되지 않은 요인을 칭함
다) R분석
– 기본
. Package : TTR, forecast
. ts ( 데이터, frequency = 주기) : 데이터를 시계열 데이터 변환
. plot.ts : 시계열 그래프를 생성
– 분해 시계열
. SMA(데이터, n=평균산정주기) : 비계절성 자료에 대한 분석
. decompose : 계절성 자료에 대한 분석 (트렌드, 계절성 등 성분이 분석됨)
– ARIMA 분석
. diff(데이터, differences=횟수) : 차분 횟수
. ACF : AR 적정 횟수 찾기 위함
. PACF : MA 적정 횟수
. auto.arima() : ACF , DIFF, PACF 를 자동으로 찾아줌
. arima(데이터, order=c(ACF , DIFF, PACF) ) : 시계열 모델을 생성
. plot.forecast(arima 모델) : 예측 실행
(5) 주성분 분석
가) 정의
– 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화 하는 변수로, 선형 결합을 해 변수를 축약하는데 사용
데이터 내부 구조를 파악할 수 있는 방법으로, 예측모델 생성시 주로 사용하며, 데이터 손실이 가장 적은 방향으로 한다.
나) R 분석
– PRCOMP(데이터) : 데이터를 설명할 수 있는 주요 성분을 추출한다
– 결과$scores : 각 주요 성분 조회
– biplot : 주성분 그래프 생성
– summary
. Proportion of Variance : 각 성분의 설명력
. Cumulative Proportion : 누적 설명력
– Predict(주성분 분석 결과, 주성분 사용 갯수)