가. 분석 대상의 구체화
(1) 2차 탐색
– 탐색을 통해 찾아낸 관계들 사이의 우선순의를 조정
– 잘라보기, 달리보기, 내려다보기, 올려다보기, 측정값, 차원값 조정 등을 다시 점검
(2) 분석 목표에 따른 분석 기법
– 패턴 자체를 확률적으로 검증하거나 패턴을 구성하는 핵심 함수의 모델 도출 등 분석
-평균에 대한 검정과 추정 : T 검정
-비율에 대한 검정과 추정 : 직접확률계산법, F분포법
-분할표의 검정 : 카이제곱 검정, Fisher의 직접확률 검정, 맥네마의 검정, 잔차 분석
. 각각 2개 이상의 분류값을 지닌 2개 이상의 차원이 있고, 그 결과로 하나의 측정값이 있을때,
분류 조합에 따라 측정값에 유효한 차이가 발생하는지를 점검
– 변수간의 상간관계 : 상관분석
. 독립적으로 움직이는 두 변수들 사이의 관계의 강도를 상관계수로 표현
– 변수들 간의 선형/비선형 인과 관계 : 회귀분석, 다중회귀분석,로지스특회귀,판별분석
. 종속적으로 움직이는 두 개 이상의 변수들 사이의 관계의 강도를 결정 계수로 나타내고, 각
변수의 계수를 추정해 모델화 함. 변수들은 연속적인 값일 수도 있고 분류값일 수도 있음
– 결과에 영향을 미치는 요인들 사이의 관계와 핵심요인 선별 : 요인분석, 주성분 분석
. 어떤 측정값에 변화 요인이 되는 값들이 세개의 차원이라고 할 때, 각 차원들 중에 어떤 것이
측정값에 가장 큰 영향을 미치는지, 각 차원은 다른 차원의 영향력과 어느 정도 겹치는지 분석
– 대상을 기준값에 따라 분류, 다차원 공간에 배치 : 군집분석, 다차원척도법(MDS)
. 측정값과 차원 값을 기준으로 측정값 사이의 거리를 계산하여 적절하게 그룹핑
– 차원값들의 패턴이 비슷한 측정값과 그렇지 않은 측정 값 분류 : 대응 분석
– 시간의 흐름에 따라 변하는 데이터 분석 : 시계열 분석
나. 분석과 시각화 도구
그래프를 통해 시각적으로 확인해보지 않고 함수식을 통해 도출된 예측값만으로 데이터를
보면 현실적인 가정 및 조건 등을 놓칠 수 있다. 예측된 추정 결과값이 절대로 어느 값 이상은
나올 수 없다든가. 현재 보유 데이터에 대해서는 적절한 추세선의 모양이 나오지만 어느 범위
이상의 예측값에 대해서는 그래프로 보면 추세선 자체에 문제가 있다던가 이런 부분들은
수치만으로는 판단하기가 어렵다.
다. 지표 설정과 분석
지표란 어떤 현상의 강도를 평가하는 기준이 되는 숫자로써 기업의 업무 성과 같은 경우에는
KPI (핵심성과 지표) , 기상예보에서 오늘의 강수 확률 같은 것을 말한다.
(1) 지표의 기본 구조
A,B,C 사이의 관계를 도출하였고 이것을 기반으로 D,E,F 사이의 관계를 살펴보는데 사용
하고자 할때, 앞에서 분석한 관계를 무언가 하나의 지표로 축약하면 다른관계를 살펴보기위한
기준으로 삼기가 훨씬 편해진다.
* X = abs(A,B) / C 와 같은 식으로 함수식으로 도출
(2) 지표 활용 시 주의점
지표는 원본 데이터에 추가되는 새로운 데이터이지만 지표를 구성하는 원본 데이터와 강력한
인과 관계를 맺고 있는 특수한 성격의 데이터이기 때문에 아래와 같은 사항을 주의해 함
– 지표의 단위를 고려해야 함 (X = A * B * C 라면 X는 m^3 가 됨 )
– 지표의 단위과 시각화 도구의 표현 공간 상의 다른 데이터와 적절하게 표현되는지 확인
– 새로 생선한 지표가 기존 지표와 중복 사용되면 모델의 설명력이 과대 평가 될 수 있다.