Chapter4 – 2. 통계분석

2. 통계분석

(1) 통계분석의 이해

가) 통계

– 조사 범위 : 총조사 , 표본조사

– 표본추출 방법

. 단순랜덤 추출법 : 단순 랜덤

. 계통추출법 : 구간을 나눈 후 구간안에서 균등하게 랜덤하게 추출

. 집락추출법 : 모집단이 몇개의 집락으로 구분이 가능한 경우 사용

. 층화추출법 : 이질적인 원소들로 구성된 모집단에서 유사한 것끼리 층을 나눈후 각 층에서 추출

– 측정 방법

. 명목척도 : 측정 대상의 소속 척도 (예: 남,여)

. 순서척도 : 측정 대상의 서열 척도 (예: 만족, 매우만족, 보통, 불만족)

. 구간척도 : 측정 대상이 갖고 있는 속성이 양으로, 두 관측 값 사이의 비율이 의미가 없는 데이터 (예: 온도, 지수 )

. 비율척도 : 절대저 기준이 0 값이 존재 , 모든 사칙연산 가능, 제일 많은 비율의 정보 (예 : 나이, 연간소득, 제품 가격)

나) 통계 분석

– 통계 분석/통계적 추론 : 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집 적절한 분석을 통해 의사결정하는 과정

– 추정 : 대상 집단의 특성값(모수)는 무엇인가를 추측

– 가설검정 : 가설을 설정후 가설의 채택 여부를 검증

– 예측 : 미래의 불확실성을 해결해 효율적인 의사 결정을 하기 위한 수행

– 기술통계 : 평균, 표준편차 등 수집된 자료를 정리 요약 하기 위해 사용하는 기초 통계

다) 확률 및 확률분포

– 확률 변수

. 이산형 확률 변수 : 점에 대한 확률 (확률 크기 표현 함수 : 확률질량함수 사용)

. 연속형 확률 변수 : 구간에 대한 확률 (확률 크기 표현 함수 : 확률밀도함수 사용)

– 결합 확률 분포 : 확률 변수의 집합

. 이산형 확률 함수 : 결합확률질량함수 (P(x,y) x = 1,2,3,4, y=1,2,3,4,)

베르누이, 이항분포, 기하분포, 다항분포, 포아송분포

. 연속형 확률 함수 : 결합확률밀도함수 (f(x,y))

균일분포, 정규분포, 지수분포, t분포, x2분포, F분포

라) 추정과 가설검정

– 추정

. 점추정 : 모수가 특정 값일 것(예 : 평균, 표본분산 )

. 구간추정 : 모수가 구간에 포함될 것 (신뢰수준, 신뢰구간)

– 가설검정

. 귀무가설 : 항상 간단하고 구체적인 표현

. 대립가설 : 귀무가설에 대립되는 가설

. 검정통계량 : 검증을 위한 통계량으로 유의수준 비교에 이용하는 데이터 (F, T Value 등)

. 유의수준 : 귀무가설이 옳다는 가정하게 통계량을 구한후 이 값이 나타날 확률을 정의, 귀무 가설이 옳은데도 이를 기각하는 확률의 크기

. 기각역 : 귀무가설이 옳단느 전제하게 구한 검정통계량의 분포에서 확률이 유의수준인 부분

. 제 1종 오류 : 귀무가설이 참이에도 거짓이라고 판단하는 오류

. 제 2종 오류 : 귀무가설이 거짓 임에도 참이라고 판단하느 오류

마) 비모수 검정

– 데이터가 정규분포를 따르지 않거나 , 자료가 개체간의 서열관계를 나타내는 경우 모수 검정 불가

– 비모수 검정 방법 : 부호검정, 윌콕슨 순위 합 검정, 윌콕슨 부호순위합검정, 만 위트니의 U검정, 런 검정, 스피어만 상관순위 계수

(2) 기초 통계 분석

가) 기술통계

– 평균 : mean

– 중앙값 : median

– 표준편차 : sd

– 분산 : var

– 1사분위수 : quantile(data, 1/4)

– 3사분위수 : quantile(data, 3/4)

– 최대값 : max

– 최소값 : min

나) 인과관계의 이해

– 종속변수 : 다른 변수의 영향을 받는 변수

– 독립변수 : 영향을 주는 변수

– 산점도(scatter) : 좌표 평면위에 점들로 표현

.선형성 확인 . 함수관계 (진선, 곡선), 이상값 존재, 계측 구분

– 공분산 : X,Y 방향의 조합 (선형성) 이다 (X,Y 과 독립이면 공분사는 0)

다) 상관 분석

– 피어슨의 표본 상관 계수 : cor (X , Y)

– 스피어만 상관계수 : 비모수 방법 , rcorr( X, Y, type=’pearson’)

(3) 회귀 분석

가) 회귀 분석의 개념

– 단순 회귀 분석 : 종속변수와 독립변수가 단 하나

– 다중회귀분석 : 두개 이상의 독립변수 사용

– 회귀분석의 적합성 판단 요건

. 통계적으로 유의미 한가 : 유의수준 5% 이하에서 F통계량이(모형의 적합성) p- 값이 0.05보다 작으면 회귀식은 통계적으로 유의하다고 볼 수 있다. (귀무가설 : 통계적으로 유의하지 않다)

. 회귀계수가 유의미 한가 : t통계량, p-값 및 이들의 신뢰구간

. 모형의 설명력 : 결정계수 (0 ~ 1)

. 모형이 데이터를 잘 적합하고 있는가 : 잔차에 대한 회귀 진단 (잔차가 회귀 관계를 갖으면 그것을 포함해서 재 모델링 필요)

. 데이터가 전체 가정을 만족하는가 ?

– 가정

. 선형성 : 독립변인의 변화에 따라 종속변인도 일정 크리고 변화

. 독립성 : 잔차와 독립변인의 값이 관련되어 있지 않음

. 등분산성 : 독립 변인의 모든 값에 대해 오차들의 분산이 일정

. 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함

. 정상성 : 잔차항이 정규분포를 이뤄야 함

나) 회귀분석의 종류

– 회귀 분석 종류

. 단순회귀 : 독립변수 1, 종속변수 1

. 다중회귀 : 독립변수 N, 종속변수 1 (1차 함수)

. 다항회귀 : 독립변수 N, 종속변수 1 (2차 함수 이상 )

. 곡선회귀 : 독립변수 1, 종속변수 1 (반응 변수와의 관계가 곡선)

. 비선형회귀 : 미지의 모수들의 선형관계로 이루어 지지 않음

– R 선형 회귀식 판단

. lm ( fomula = 종속 ~ 독립 , data=데이터)

. 각 변수 Pr(>|t|) : 각 변수가 모델 미치는 회귀 계수로 귀무가설은 모델이 유의하지 않다

. Multiple R-Squared : 결정계수로 모델이 전체 데이터를 얼마나 설명하는지에 대한 계수 (0 ~ 1)

. F-statistic : 검정을 위한 통계 값 (모델의 유의성) 으로 P-Palue 산정에 사용

. P-Value : 귀무가설은 모델이 유의하지 않다. 즉 0.05 이하에서 모델 성립

– 최적회귀방정식 선택 (설명 변수의 선택)

. 모든 가능한 조합의 회귀 분석

. 단계적 변수 선택법 : 전진선택법 ,후진제거법, 단계별 방법

(4) 시계열 분석

가) 정상성

– 평균이 일정하다, 즉 모든 시점에 대해 일정한 평균을 가진다.

– 분산도 시점에 의존하지 않는다.

– 공분산은 단지 시차에만 의존 특정 시점 t,s 에 의존하지 않는다.

– 변환 : 분산이 일정하지 않을 때 사용하여 정상성 확보

– 차분 : 평균이 일정하지 않을 때 사용하여 정상성 확보, 이전 시점의 데이터로 뺀다

나) 시계열 모형

– 자기회귀 모형 (AR 모형)

. p 시점의 자료가 현재 자료에 영향을 주는 자귀 회귀 모형

. AR ( N ) : N 은 절단 시점

– 이동평균모형 (MA 모형)

. 유한한 개수의 백색잡음의(시계열 분석에서의 오차항) 결합

. MA( N ) : N 은 절단 지점

– 자기회귀누적이동평균모형

. ARIMA(p ,d ,q) : AR + 차분 + MA

– 분해 시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법 (반복요인을 제거)

. 추세요인 : 지수적인 형태를 취하는 경우 추세요인이라 칭함

. 계절요인 : 일, 년, 월 등 특정 시간으로 반복되는 경우 계절요인이라 칭함

. 순환요인 : 알려지지 않은 주기로 반복되는 경우 순환요인이 있다고 함

. 불규칙요인 : 위의 세가지로 표현되지 않은 요인을 칭함

다) R분석

– 기본

. Package : TTR, forecast

. ts ( 데이터, frequency = 주기) : 데이터를 시계열 데이터 변환

. plot.ts : 시계열 그래프를 생성

– 분해 시계열

. SMA(데이터, n=평균산정주기) : 비계절성 자료에 대한 분석

. decompose : 계절성 자료에 대한 분석 (트렌드, 계절성 등 성분이 분석됨)

– ARIMA 분석

. diff(데이터, differences=횟수) : 차분 횟수

. ACF : AR 적정 횟수 찾기 위함

. PACF : MA 적정 횟수

. auto.arima() : ACF , DIFF, PACF 를 자동으로 찾아줌

. arima(데이터, order=c(ACF , DIFF, PACF) ) : 시계열 모델을 생성

. plot.forecast(arima 모델) : 예측 실행

(5) 주성분 분석

가) 정의

– 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화 하는 변수로, 선형 결합을 해 변수를 축약하는데 사용

데이터 내부 구조를 파악할 수 있는 방법으로, 예측모델 생성시 주로 사용하며, 데이터 손실이 가장 적은 방향으로 한다.

나) R 분석

– PRCOMP(데이터) : 데이터를 설명할 수 있는 주요 성분을 추출한다

– 결과$scores : 각 주요 성분 조회

– biplot : 주성분 그래프 생성

– summary

. Proportion of Variance : 각 성분의 설명력

. Cumulative Proportion : 누적 설명력

– Predict(주성분 분석 결과, 주성분 사용 갯수)

Chapter4 – 2. 통계분석

Leave a Reply Cancel reply