가. 사용 가능한 데이터 확인
(1) 데이터 명세화 : 차원과 측정값
대상을 국가별 남성의 평균 수명이라고 하면 아래과 같이 예를 들 수 있다.
– 측정값 : 평균 나이 값
– 차원값 : 국가 , 성별
. 하나는 1차원, 두개 이상은 다차원이라고 명명 함
. 시간 연속 데이터는 일,연 단위로 묶어서 차원을 관리하기도 함
– 데이터의 형태
. 정수형 : -2 , -1, 0, 1, ,2, 3 과 같이 0, 음,/양의 비연속 수치
. 실수형 : 3.14와 같이 소수점을 포함하는 정수가 아닌 연속형 수치
. 문자형 : 하나의 문자 또는 문자들의 집합인 문자열
. 날짜형 : 열,월,일 과 같은 형태
. 고유 분류 : 예) 성별은 기본적으로 문자형이지만, 남자와 여자의 두가지 고정된 분류 값
(2) 데이터 구성 원리 1 : 이벤트 기록으로 서 접근
– 데이터로부터 통찰을 끌어내기 위해서는 데이터가 어떤 원리로 생성,구성되었는지를 항상
염두에 두고 있어야 한다. 이 구성 원리를 통해 궁극적으로 알아내고자 하는 것은 자료의
태생적 연결고리 탐색이다.
예) 동시 접속자 정보를 수집하고자 할때, 주어진 데이터의 이벤트는 접속이며, 접속의
특성상 동일 접속자의 중복을 제거해야 정확한 동시 접속자 정보 수집이 가능
(3) 데이터의 구성 원리 2: 객체지향 관점에서의 접근
– 객체지향론에서는 기본적으로 대상을 객체화 하는데, 모든 객체들은 행위와 고유 속성
값을 갖게 된다.
– 예) 학생이 어느 장소에서 언제 시험을 본다.
. 학생 (성별, 나이, 등.. )
. 장소 (건물, 주소, 동, .)
. 언제 (년,월,주말, 주일)
. 시험 (종류, 난이도.. )
위와 같으 방식으로 데이터를 나누고 구체화 하는 것을 객체관점 접근이라고 함
나. 연결 고리의 확인
만약 데이터가 데이터가 하나만 있으면, 연결고리라고 할만 한 것이 없어 바로 데이터 내에서
연결관계를 찾으면 되지만, 사용가능한 데이터가 복수일 경우 데이터 명세서를 통해서 연결
고리를 찾아 낼 수 있도록 한다.
(1) 공통 요소 찾기
– 데이터 항목명이 아닌, 해당 항목의 정의와 데이터형을 보고 찾아야 함
예) 부모 자식간의 성 , 학생들의 동일 학년 반 등 ..??
(2) 공통 요소로 변환 하기
– 대표적으로 시간, 장소 혹은 동일 대상이 다른 명칭 관리는 공통 요소로 변환이 가능하다 .
예) 다른 나라의 시간 , 지명주소와 GPS 주소
. Spread Sheet 에서 제공하는 문자열 처리 함수 (split, find, left, mid)
. 위치변환(geocoding) : 비즈GIS – X-Ray Map
(3) 탐색 범위의 설정
– 모든 측정값과 차원의 조합이 탐색 범위가 되지만 현실적으로 모든 대상을 탐색하는
것은 어렵다. 이때문에 탐색 범위를 설정할 필요가 있으며, 탐색범위 설정시에는
아래와 같은 내용들을 고려하여야 한다.
– 복수 데이터일 경우 하나의 데이터 내에서 먼저 탐색
– 하나의 차원부터 탐색을 시작하여 복수의 차원으로 탐색 범위를 늘림
– 같은 데이터에서 차원과 측정 값을 바꾸면 다른 통찰을 찾아 낼 수 있다
– 비주얼 인사이트를 활용하여 목표에 관련된 조합을 찾는다
– 상식적으로 관련이 있을 수 없는 관계는 배제하도록 한다.
다. 관계의 탐색
탐색과 관계의 대상이 되는 관계는 크게 상관관계와 인과관계로 나뉜다.
인과관계는 상관관계 중에서도 명호가하게 원인과 결과를 시간적 선후 관계가 있는과관계로 볼 수 있으며, 인과관계가 있는데 상관관계가 없는 경우는 없다
(1) 이상값 처리
이상값은 다른 관측값들과 동떨어진 값을 의미한다.
– 데이터 측정시 오류가 발생
– 측정 후 기록/관리 단계에서 오류 발생
– 오류가 아닌 의미있는 이유 때문에 발생
이상값 제거의 예
. 숫자가 들어가기로 되어 있는 컬럼에 Text
. 의도된 범위를 초과하는 값
. 시각화를 통한 이상치 제거
(2) 차원과 측정값 유형에 따른 관계 파악 시각화
시각화를 잘하려면 측정값을 바라보는 적절한 관점을 설정해야 한다.
1차원, 2차원, 3차원 등으로 시각화를 할 수가 있으며, 1차원으로 유용하게 시각화를
하는 방법은 거의 없다. 시각화시 각 축은 차원변수가 될수도 있고 측정값이 될 수도
있다. 3차원이 보기에는 멋지지만 데이터가 많아 질 경우 원근감의 혼돈으로 인해
오히려 혼돈을 줄 수도 있으며, 그런 경우 2차원 그래프에 색상으로 구분하는 방법도
사용이 가능하다.
– 그래프의 축은 차원 값만 지정할 수 있는 것이 아니다.
– 2차원 평면에서 도형의 면적도 연속값으로 된 차원을 처리하는 도구가 된다
– 색상은 구분 값으로 된 차원을 처리하는 유용한 방법이다
– 연속값으로 된 차원을 색상 그라데이션 변화로 처리 할 수도 있다
– 시각화 분석 방법
. x 축에 시간을 설정해 평면이나 공간상에 데이터를 뿌리고 변화의 모습을 관찰
. 모션차트 : 시간이 흐름에 따라 시간 외의 달느 차원에 있는 측정 값들이 어떻게
변화하는지를 움직임을 통해 보여준는 도구
. 워들 : 문장들 안에 어떤 의미를 지니는 단어들이 어떤 빈도로 분포하는지 탐색 등
(3) 잘라보고 달리보기
잘라보기(slice) : 전체 연령 데이터 중에 20~30대 데이터만 필터링해서 본다던지..
달리보기(Dice) : 차원을 기준으로 잘라내 서로 다른 관점의 단면들을 살표 봄
(4) 내려다보고 올려다보기
내려다보기 (Drill Down) : 현재 관점에서 더 세분화해서 보는 것
올려다보기 (Reverse Drill Down) : 현재 관점에서 더 상위 계층의 관점에서 보는 것
예) 일, 주, 월, 분기 , 연 단위 변화
(5) 척도의 조정
서로 범위가 다른 데이터를 같이 표현하는 경우 범위가 적은 데이터의 패턴이 잘 표현되지 않는 경우가 있다.
– 시각화 도구 예 : Sparkline Chart