[ADP] 5-4 제1절 시각화 구현 개요

[시각화 플랫폼]
Congnos Insightinformation builder
powerpivot
poewerview
visual insight
qlikview
visual inteligence
sas enterprise business inteligence
tableau
tabco spotfire anlaytics
R
Wolfamalhpa
better world flux
dipity
many eyes
excel
cartoDB
weka
gephi

[시각화 라이브러리]
Flot
Raphal
modest maps
leaflet
timeline
exhibit
jquery visualize
jqplot
D3.js
javascript infovis toolkit
jpGrapth
highcharts
google charts
crossfilter
tangle
polymaps
openlayers
katograph
processing
nodebox

[인포 그래픽스]
iCharts
visaulize free
visual.ly

[ADP] 5-2 제4절 시각화 방법

가. 빅데이터와 시각화 이슈
– 국내의 빅데이터 시각화 방향은 아직 정립되지 않음, 인포그래픽은 텍스트에 보조적인 역할
만하고 있을 뿐, 미국 뉴욕타임즈 등 처럼 실질적인 빅데이터 기반의 시각화 서비스는 이루어 지지 않고 있음

나. 빅데이터와 시각화 디자인 사례
– 2D 이미지 : 인쇄물, 온라인 이미지
– 모션 영상 : 모션 인포그래픽, 데이터 시각화 동영상
– 인터랙티브 : 인터랙티브 웹/앱

다. 빅데이터와 시각화 디자인 방향
–  개인 능력을 통해 최신의 기술과도구를 사용해 정보를 제시하고 분석
–  시각화 기술뿐만 아니라 비주얼 인식의 심리적인 부분을 아는 것으로 특정시각화 기술의
한계를 인지하고, 문제에 대한 통찰력과 정보수집, 마이닝, 프로그래밍, 시각화 전 과정에
대해서 시각화의 관점에서 풀어 낼 수 있어야 함
– 사용자가 어떤 목적으로 그 정보를 볼 것인지에 대한 분명한 예측과 목표를 가져야 함

[ADP] 5-2 제3절 시각화 방법

[시각화 방법]
A. 정보 구조화
– 데이터 수집 및 탐색
– 데이터 분류하기
– 데이터 배열하기
– 데이터 재배열
B. 정보 시각화
– 시간 시각화
– 분포 시각화
– 관계 시각화
– 비교 시각화
– 여러 변수 비교
– 공각 시각화
C. 정보 시각표현
– 그래픽 7요소
– 그래픽 디자인 기본 원리
– 이터랙션
– 시각정보 디자인 7원칙

가. 정보 구조화

(1) 데이터 수집 및 탐색
– 원 데이터를 바탕으로 불필요한 데이터를 거르는 데이터 에디팅 과정 수행

(2) 데이터 분류
– 구분텍스트 , JSON, XML등 데이터 형태에 따른 분류

(3) 배열
– 정보 조칙화를 위한 솔 워먼 래치(LATCH) 방법 조직화의 기준
. 위치
. 알파벳
. 시간
. 카테고리
. 위계
. 가중치

(4) 관계맺기(재배열)
– 데이터에 의미를 부여하는 가장 기본적인 과정으로 분류된 데이터를 정보 수용자가 인신
하기 쉽도록 패턴을 만드는 일에 속함

나. 정보 시각화
(1) 시간 시각화 : 막대그래프, 누적 막대그래프, 점 그래프
– 막대 그래프 : 서로 다른 범위나 상태인 경우 다른 색으로 표시, 그렇지 않은 경우 동일 색상
– 누적 막대 그래프 : 한 구간이 세부 항목으로 나뉘면서도 전체합이 의미가 있을때
– 점 그래프 : 더 적은 공간에 표시할 수 있으며, 집중정도와 배치에 따라 흐름 파악이 더 쉽다
– 연속형 데이터 : 점 그래프와 거의 같지만 선으로 연결한다는 것이 다름

(2) 분포 시각화 : 파이차트, 도우넛 차트, 트리맵, 누적연속그래프
분포 그래프는 최대, 최소, 전체 분포로 나뉘며 그 합은 1또는 100%인 특성이 있다
– 원그래프/도넛차트
– 트리맵 : 단순 분류별 분포 및 위계 구조의 표현 가능
– 누적연속그래프 : 시간에 따라 연속적인 누적막대 그래프

(3) 관계 시각화 : 스캐터 플롯, 버블 차트, 히스토그램
데이터 상관관계의 시각화에 주요한 목적이 있음
– 산점도 : 양/음의 상관관계 등 시각적 확인
– 버블차트 : 3가지 요소의 상관관계를 표현할 수 있는 방법
– 히스토그램 : 전체적인 데이터의 분포를 시각적 확인

(4) 비교 시각화 : 히트맵, 체르노프 페이스, 스타차트, 평행 좌표계, 다차원척도법
– 히트맵 : 색상으로 수치를 표현하는 방법
– 체르노프 페이스 : 테이터를 사람의 얼굴로 시각화
– 스타차트 : 선수 능력치 등 표시에 사용되는 그래프
– 평행좌표계 : 여러축을(차원) 평행으로 배치해서 만들고 각 축을 관통하는 선이 각 데이터
– 다차원도척법 : 데이터 세트상의 개별 데이터 간의 유사도를 바탕으로 시각화
유사성이 있는 데이터 끼리는 가까이, 없는 것 끼리는 멀리

(5) 공각 시각화 : 지도 맵핑
그래프를 단순화하여 최소한의 것으로 표현하여 최대한을 전달하는 것이 중요
(에드워드 터프티)
– 배경을 지워라
– 범례를 지워라
– 테두리를 지워라
– 색깔을 지워라
– 특수효과를 지워라
– 굵은 글씨를 지워라
– 라벨을 흐리게 처리해라
– 보조선을 흐리게 처리하던지 지워라
– 라벨을 직접 표시하라

다. 정보 시각표현

(1) 정보 표현을 위한 그래픽 요소 (자크 베르탱)
정보 디자인의 시각 인지론에 근거한 정보 표현을 위한 그래픽 요소들의 분석 및 정의
– 위치 : 동일 위치 대상사이에서 강조 대상의 위치 변화를 통한 강조
– 크기 : 동일 크기 대상사이에서 강조 대상의 크기 변화를 통한 강조
– 모양 : 동일 모양 대상사이에서 강조 대상의 모양 변화를 통한 강조
– 색 : 동일 색상 대상사이에서 강조 대상의 색상 변화를 통한 강조
– 명도 :  동일 명도 대상사이에서 강조 대상의 명도 변화를 통한 강조
– 기울기 :  동일 기울기 대상사이에서 강조 대상의 기울기 변화를 통한 강조
– 질감 :  동일 질감 대상사이에서 강조 대상의 질감 변화를 통한 강조

(2) 시각화를 위한 그래픽 디자인 기본 원리
[타이포그래피 (글씨 디자인)]
. 서체 : 한 가지 서체로 통일하거나하나에서변형을주는것이 좋음
. 무게 : 서체의 두께를 이용한 위계 표현
. 크기 : 글자의 크리를 이용한 강조 및 위계 표현
. 스타일 : 기울임체 등 차별화나 강조
. 색채 : 정보의 중요도나 위계에 대한 표현
. 간격 : 글자사이 < 낱말사이 < 글줄사이

[색상]
다른 색상을 사용할때는 명도와 채도를 맞추는 것이 중요
(colorschem, Adobe Kular 등 을 활용하여 색상 선택하면 도움이 됨)
. 구분표현 : 색상은 정보를 구분하고 그룹핑하는데 사용 (일반적으로 사람은 8개까지 구분)
. 순서표현 : 명암단계 , 색상 전환 그라데이션 단계, 채도단계 등
. 비율표현 : 상반된 두 색의 사용 비율로써 긍정/부정 비율 표현
. 색채 사용과 인지 : 관습적 색채의 의미가 충돌하지 않도록 한다.

[그리드]  그리드를 이용해 블록 레이아웃을 잡고 그 위에 효과적으로 요소를 배치
. 화면을 읽는 방식 : 좌상단에서 우하단으로 시선 이동함을 고려한 정보 배치
. 정보의 역피라미드 : 가장 중요한 정보가 위로 올라오도록 한다.
. 망그리드 : 망형태의 그리드를 지침삼아 배치작업
. 3 등분 법칙 : 화면을 3X3 으로 분할 분할선의 교차점을 중요 포인트로 사용

[아이소타프] 문자,숫자 대신 상징적 도형이나 기호를 조합해 시각화 하는 방법

(3) 인터랙션 (대화형 비선형적 정보 제공)
– 강조하고 디테일을 보여주는 방식 : 사용자의 조작에 반응
– 사용자가 컨탠츠를 선택하는 방식 : 사용자의 input 에 맞는 정보 표출 – 여러가지 방법으로 데이터 보여주기 : 줌인 줌아웃, 시간 흐름 변경
– 사용자 지정으로 시각 맵핑 변화 : 사용자가 시각화 유형을 선택 가능
– 사용자의 관점과 의견이 반영 : 사용자의 주관전 지표를 반영한 정보

(4) 터프티의 시각 정보 디자인 7원칙
– 시각적 비교를 강화하라
– 인과관계를 제시하라
– 다중변수를 표시하라
– 텍스트, 그래픽, 데이터를 한화면에 조화롭게 배치하라
– 콘텐츠의 질과 연관성, 진실성을 분명히 하라
– 신간순이 아닌 공간순으로 나열하라
– 정량적 자료의 정량성을 제거하지 마라

[ADP] 5-2 제2절 시각화 프로세스

가. 정보 디자인 프로세스
[인포그래픽 생성 단계]
(1) 1단계 : 데이터 수집
(2) 2단계 : 모든 것을 읽기
– 빠진 데이터가 있는지 스토리를 펼치는데 필요한 작은 조각들을 확인하는 단계
(3) 3단계 : 네러티브 찾기
– 스토리를 만드는 단계 (정보를 담은 스토리인가? , 주제에 관심이 가는가? ,주목할만한가?)
(4) 4단계 : 문제의 정의
– 이야기가 내포한 결과에 대한 현실성 검토, 논쟁에 이기기 위한 진실을 담은 데이터
(5) 5단계 : 계층구조 만들기
– 중심이야기를 찾고, 보조요소를 배열한다.
(6) 6단계 : 와이어 프레임 그리기
– 가장 흥미로운 사실(중심) 선택, 계층구조 결정되어 와이어 프레임 창조
중요한 정보에 대한 이해와 계층구조에 대한 이해가 가능한 시각화 방법 창조
(7) 7단계 : 포맷 선택하기
– 많은 시각화 표현방법 (그래프, 차트, 흐름도) 등을 데이터의 성격에 맞게 선택
(8) 8단계 : 시각 접근 방법 결정하기
– 데이터를 시각적으로 효과적으로 전달하기 위한 방안을 찾음
– 전달하고자 하는 은유적인 정보를 사진에 담아 정보를 표현
(9) 9단계 : 정제와 테스트
– 데이터를 본적이 없는 사람에게 쉽게 이해시킬 수 있는지를 테스트 및 개선
(10) 10단계 : 세상에 선보이기
– 대중에게 선보이고, 다양한 사람의 의견을 반영하여 개선 발전

나. 빅데이터 시각화 프로세스
[정보디자인 교과서]
– 조직화한 데이터
– 시각적 맵핑
– 시각적 형태
– 전달 방식

[마티아스 샤피로]
– 질문 만들어내기
– 데이터 수집하기
– 시각적 표현

[벤 프라이]
– 획득  : 파일, 네트워크 에서 정보를 수집
– 분해 : 정보의 의미를 바탕으로 카테고리화
– 선별 : 1,2 과정을 바탕으로 의미있는 정보와 의미 없는 정보 구분 및 제거
– 마이닝 : 3단계 과정의 데이터를 분석해 정보 추출 알고리즘 도출
– 표현 : 4단계 정보를 효과적으로 표현할 수 있는 방법 연구
– 정제 : 5단계 도출한 규칙을 바탕으로 정보를 시각적으로 정제
– 상호작용 : 정보를 다양한 시각에서 시뮬레이션 할 수 있는 방법 반영

[빅데이터 3단계 시각화 프로세스]
– 정보 구조화 : 데이터 수집 및 정제 과정
– 정보 시각화  : 분석도구에서 제공하는 그래프 등 활용 시각화
– 정보 시각표현 : 별도의 그래픽 요소를 추가하여 완성

[시각화 도구 구분]
– 기초 : Excel , CSV, JSON, Google Chart , Flot, Raphael, De, Visual ly
– 인터랙티브 GUI 컨트롤 : Crossfilter,  Tangle
– 맵핑 : Modest Maps , Leaflet, Ploymaps, OpenLayers, Kartograpth, CartoDB
– 전문가 : Processing, NodeBo, R, Weks, Gephi

 

[ADP] 5-2 제1절 시각화의 정의

가. 데이터 시각화의 중요성
– 많은 정보가 생성되는 빅데이터 환경이 도래하며, 엄청나게 많은 데이터의 홍수 속에서
의미있는 정보와 가치들을 얻어내는 것이 중요해 짐
특히나 텍스트와 이미지가 비정형의 형태를 띄고 있어 중요한 패턴을 찾기가 쉽지 않음
구글 수석 경제학자 할 배리언은 “데이터 얻는 능력”, “처리하는 능력” , “가치를 뽑아내는 능력” . “시각화하는 능력”, “전달하는 능력”이 중요하게 될 것이라고 말함
시각화는 매우 광범위하게 분산된 정보를 한눈에 볼 수 있도록 도표나 차트로 제공하는 것으로
통찰력을 얻는데 중요한 수단임

나. 시각 이해와 시각화
[시각 이해의 위계]
Wisdom – ?
Knowledge = Mapping
Information = Design
data = Visualization

(1) 데이터
기초 자료로써 정보를 만들기 위한 원자재와 같은 것으로 데이터 자체는 정보로서의 가치가
부족한 상태로 데이터를 만들어낸 생산자에게는 유용할 수 있으나 사용자에게 의미를 주기는
부적합

(2) 정보
정보는 데이터와는 달리 그 자체만으로 의미가 있다.
정보는 생산저와 사용자의 관점에 따라 다르게 전달될 수 있음
정보는 나름대로의 형태와 형식을 가지고 있음.
데이터가 정보가 되기 위해서는 “조직화” 와 “변형”이 되고 의미를 전달하기 위한 형태로 표현
데이터와 정보의 차이 구분을 위해서는 전체적인 맥락 (컨택스트)가 중요함
(어디서 온것인지, 왜 소통돼야 하는지, 어떻게 배열되는지 등)
정보는 생산자와 소비자 두 영역에 모두 포함되며 자기 조직화가 되지 않은 일반적 의미만 갖음

(3) 지식
정보가 다른 영역의 데이터들로부터 조직화해 발생했다면 지식은 다른 영역의 정보가 자기
조직화해 획득할 수 있는 것이라고 설명할 수 있다.
정보는 특정 영역에서의 경험을 통해 정보를 통합한 형태
고도의 논리적 상식, 정보의 상위 개념, 모든 경험의 산물
특정한 세부 사항만을 설명하는 것이 아니라, 다양한 상황에 적용할 수 있게 일반화 된것
스토리텔링은 지식을 전달하는데 가장 효과 적인 방법

(4) 지혜
지혜는 정보와 지식의 개인화에 의해 생성지혜는 자기 내면화한 지식으로 명시적인 언어로 상대방에게 전달하기 어려움
다른 데이터보다 추상적이고 철학적인 단계에 속함
지혜는 어떤 의미에서 메타 지식이라고 할 수 있음

[정보 인터랙션 디자인]
데이터 : 생산자
정보 : 생산자, 수용자, Global, Context
지식 : 수용자, Local, Context
지혜 : Personal , Context

다. 시각화 분류와 구분
“데이터 시각화” , “정보 시각화” , “정보 디자인” , “인포그래픽”을 구분하고 정의
(1) 데이터 시각화
데이터의 시각화란 데이터의 속성이나 변수를 가진 단위를 포함한 정보를 시각적으로
원 데이터를 가지고 아이디어를 효과적으로 전달하기 위하여 복잡한 데이터 세트보다는
좀 더 직접적인 관점을 제공.
데이터 시각화는 대부분 데이터들의 연결과 그룹핑을 표현하는 것에 초점을 둔다.
이러한 시각화의 범위로는 “마인드맵”, “뉴스표현”,”데이터 표현”, “관계 표현”, “웹사이트
들의 표현”, “기사와 리소스 들” 등이 있다.

(2) 정보 시각화
정보 시각화란 소프트웨어 시스템, 라이브러리, 서지 데이터베이스에서 코드의 라인들과 파일
같은 비수치 정보, 인터넷의 네트워크 관계 등 비수량 정보를 시각화 표현하는 것
추상적인 정보를 직관적으로 전달하기 위한 접근 방법 창조에 초점을 맞추고 있음
HCI, 컴퓨터 공학, 그래픽, 심리학, 시각디자인 등의 연구 영역에서 부터 발전하였으며, 과학적
연구, 디지털 라이브러리, 데이터 마이닝, 금융 데이터 분석, 시장조사 등의 연구 영영에 적용

(3) 정보 디자인
정보 디자인은 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 데이터를
시각적으로 표현하는 방법으로, 보는 사람들이 좀더 명확하게 의미를 이해할 수 있게 한다.
정보 시각화, 인포그래픽 모두 정보 디자인에 포함되는 개념으로 볼 수 있음

(4) 인포그래픽
정보디자인에서 메시지를 전달하고자 하는 측면에서 분석해 보면 목적과 관점에 따라 두가지로 분류된다. “정보형 메시지” , “설득형 메시지”로 분류하여 설명할 수 있으며, 지하철 노선도
와 같이 실제 비례를 다소 왜곡하더라도 사람들이 보기 쉽게 시각화한 “정보형 메시지의” 대표적인 예라고 할 수 있다. 사회 계층 정보를 위아래로 극명하게 시각화하는 예의 경우는 “설득형 메시지”로 분류할 수 있다.

라. 빅데이터 시각화 영역
빅데이터의 시각화는 위에서 구분한 정의로 나눌 경우 아래오 같이 정의된다.
설득형 보다는 정보형 메시지에 가까우며, 인포그래픽 보다는 데이터/정보 시각화에 가깝다.

[ADP] 제4절 활용 (3단계)

가. 내부에서 적용
– 기존 문제 해결 방식이나 설명 모델의 수정
– 새로운 문제 해결 방식의 도입
– 새롭게 발견한 가능성에 대한 구체적인 탐색과 발전

나. 외부에 대한 설명, 설득과 시각화 도구
– 다른 사람에게 정보를 전달하거나 설득하기 위해서는 시각화가 유용
– 대표적인 예로는 인포그래픽이 있음

다. 인사이트의 발전과 확장
(1) 탑다운 vs 보텀업
– 보텀업 : 밑바닥에서부터 다양한 가능성을 찾아 봄
– 탑다운 : 보텀업에서 찾아낸 것들을 적용하는 과정에서 추가로 얻어낸  정보들을 토대로
탑다운 방식으로 검증하고 하는 명제들을 명확하게 검증해 가는 것이 효과적
(2) 2차 잘라보기, 달리보기, 내려다보기, 올려다보기
(3) 실시간 vs 비실시간
– 데이터가 많으면 많을수록 실시간으로 데이터를 처리하는 것은 어려워 진다.
실시간으로 처리를 해야 할 경우는 모니터링 및 경보 시스템이 있으며, 이런 경우에도
시각화가 매우 중요한데 발생한 요소를 눈에 띄는 색으로 크게 표시하는 것이 일반적
※ 이러한 처리는 아래의 지표운영과도 관련이 있다.
(4) 지표의 운영
– 지표는 관계를 하나의 수치로 표현해 분석에 활용할 수 있는 형태로 전환한 것
이러한 장점 때문에 현장에서 통찰을 적용할 때에는 매번 여러 관계들을 다 살펴볼 필요
없이 지표 몇개반 집중해서 판단 할 수 있는 장점이 있다.
하지만 환산된 값을 중심으로 보다보니 정작 어떤 변화요인이 발생해 지표에 영향을
주었는지 찾아내기가 어려워 진다.
(5) 추가 데이터에 대한 필요성
– 기존에는 뽑아낼 필요성을 느기지 못핸던 관계들이 어떤 데이터에 의해 파악될 수 있을 것
같은 느낌이 들때가 바로 추가 데이터가 필요한 시점이다.
(6) 시각화의 오류
– 척도에 대해 충분한 이해를 하지 못하고 평면이나 공간에 펼쳐 놓으면 의미 있는 패턴을
놓치게 될 수도 있다.
– 시각화 도구에 따라 전혀 다른 모양의 패턴이 나올 수 있다.
– 여러 가지 형태로 묶어보지 않고 한 가지만 했을 때, 엉뚱한 답을 도출할 위험 존재
– 3차원 시각화의 경우 원근감 때문에 착각을 할 수 있다.
– 인포그래픽의 경우 여타 디자인 요소에 의해 오류를 범할 수 있다 .
(7) 사람의 문제
– 결국은 사람이 가장 중요하다. !?

[ADP] 5장-3절 분석(2단계)

가. 분석 대상의 구체화

(1) 2차 탐색
– 탐색을 통해 찾아낸 관계들 사이의 우선순의를 조정
– 잘라보기, 달리보기, 내려다보기, 올려다보기, 측정값, 차원값 조정 등을 다시 점검

(2) 분석 목표에 따른 분석 기법
– 패턴 자체를 확률적으로 검증하거나 패턴을 구성하는 핵심 함수의 모델 도출 등 분석

-평균에 대한 검정과 추정 : T 검정
-비율에 대한 검정과 추정 : 직접확률계산법, F분포법
-분할표의 검정 : 카이제곱 검정, Fisher의 직접확률 검정, 맥네마의 검정, 잔차 분석
. 각각 2개 이상의 분류값을 지닌 2개 이상의 차원이 있고, 그 결과로 하나의 측정값이 있을때,
분류 조합에 따라 측정값에 유효한 차이가 발생하는지를 점검
– 변수간의 상간관계 : 상관분석
. 독립적으로 움직이는 두 변수들 사이의 관계의 강도를 상관계수로 표현
– 변수들 간의 선형/비선형 인과 관계 : 회귀분석, 다중회귀분석,로지스특회귀,판별분석
. 종속적으로 움직이는 두 개 이상의 변수들 사이의 관계의 강도를 결정 계수로 나타내고, 각
변수의 계수를 추정해 모델화 함. 변수들은 연속적인 값일 수도 있고 분류값일 수도 있음
– 결과에 영향을 미치는 요인들 사이의 관계와 핵심요인 선별 : 요인분석, 주성분 분석
. 어떤 측정값에 변화 요인이 되는 값들이 세개의 차원이라고 할 때, 각 차원들 중에 어떤 것이
측정값에 가장 큰 영향을 미치는지, 각 차원은 다른 차원의 영향력과 어느 정도 겹치는지 분석
– 대상을 기준값에 따라 분류, 다차원 공간에 배치 : 군집분석, 다차원척도법(MDS)
. 측정값과 차원 값을 기준으로 측정값 사이의 거리를 계산하여 적절하게 그룹핑
– 차원값들의 패턴이 비슷한 측정값과 그렇지 않은 측정 값 분류 : 대응 분석
– 시간의 흐름에 따라 변하는 데이터 분석 : 시계열 분석

나. 분석과 시각화 도구
그래프를 통해 시각적으로 확인해보지 않고 함수식을 통해 도출된 예측값만으로 데이터를
보면 현실적인 가정 및 조건 등을 놓칠 수 있다. 예측된 추정 결과값이 절대로 어느 값 이상은
나올 수 없다든가. 현재 보유 데이터에 대해서는 적절한 추세선의 모양이 나오지만 어느 범위
이상의 예측값에 대해서는 그래프로 보면 추세선 자체에 문제가 있다던가 이런 부분들은
수치만으로는 판단하기가 어렵다.

다. 지표 설정과 분석
지표란 어떤 현상의 강도를 평가하는 기준이 되는 숫자로써 기업의 업무 성과 같은 경우에는
KPI (핵심성과 지표) , 기상예보에서 오늘의 강수 확률 같은 것을 말한다.

(1) 지표의 기본 구조
A,B,C 사이의 관계를 도출하였고 이것을 기반으로 D,E,F 사이의 관계를 살펴보는데 사용
하고자 할때, 앞에서 분석한 관계를 무언가 하나의 지표로 축약하면 다른관계를 살펴보기위한
기준으로 삼기가 훨씬 편해진다.
* X = abs(A,B) / C 와 같은 식으로 함수식으로 도출

(2) 지표 활용 시 주의점
지표는 원본 데이터에 추가되는 새로운 데이터이지만 지표를 구성하는 원본 데이터와 강력한
인과 관계를 맺고 있는 특수한 성격의 데이터이기 때문에 아래와 같은 사항을 주의해 함
– 지표의 단위를 고려해야 함 (X = A * B * C 라면 X는 m^3 가 됨 )
– 지표의 단위과 시각화 도구의 표현 공간 상의 다른 데이터와 적절하게 표현되는지 확인
– 새로 생선한 지표가 기존 지표와 중복 사용되면 모델의 설명력이 과대 평가 될 수 있다.

5장-2절 탐색 단계

가. 사용 가능한 데이터 확인
(1) 데이터 명세화 : 차원과 측정값
대상을 국가별 남성의 평균 수명이라고 하면 아래과 같이 예를 들 수 있다.
– 측정값 :  평균 나이 값
– 차원값 : 국가 , 성별
. 하나는 1차원, 두개 이상은 다차원이라고 명명 함
. 시간 연속 데이터는 일,연 단위로 묶어서 차원을 관리하기도 함

– 데이터의 형태
. 정수형 : -2 , -1, 0, 1, ,2, 3 과 같이 0, 음,/양의 비연속 수치
. 실수형 : 3.14와 같이 소수점을 포함하는 정수가 아닌 연속형 수치
. 문자형 : 하나의 문자 또는 문자들의 집합인 문자열
. 날짜형 : 열,월,일 과 같은 형태
. 고유 분류 : 예) 성별은 기본적으로 문자형이지만, 남자와 여자의 두가지 고정된 분류 값

(2) 데이터 구성 원리 1 : 이벤트 기록으로 서 접근
– 데이터로부터 통찰을 끌어내기 위해서는 데이터가 어떤 원리로 생성,구성되었는지를 항상
염두에 두고 있어야 한다. 이 구성 원리를 통해 궁극적으로 알아내고자 하는 것은 자료의
태생적 연결고리 탐색이다.
예) 동시 접속자 정보를 수집하고자 할때, 주어진 데이터의 이벤트는 접속이며, 접속의
특성상 동일 접속자의 중복을 제거해야 정확한 동시 접속자 정보 수집이 가능

(3) 데이터의 구성 원리 2: 객체지향 관점에서의 접근
– 객체지향론에서는 기본적으로 대상을 객체화 하는데, 모든 객체들은 행위와 고유 속성
값을 갖게 된다.
– 예) 학생이 어느 장소에서 언제 시험을 본다.
. 학생 (성별, 나이, 등.. )
. 장소 (건물, 주소, 동, .)
. 언제 (년,월,주말, 주일)
. 시험 (종류, 난이도.. )
위와 같으 방식으로 데이터를 나누고 구체화 하는 것을 객체관점 접근이라고 함

나. 연결 고리의 확인
  만약 데이터가 데이터가 하나만 있으면, 연결고리라고 할만 한 것이 없어 바로 데이터 내에서
연결관계를 찾으면 되지만, 사용가능한 데이터가 복수일 경우 데이터 명세서를 통해서 연결
고리를 찾아 낼 수 있도록 한다.
(1) 공통 요소 찾기
– 데이터 항목명이 아닌, 해당 항목의 정의와 데이터형을 보고 찾아야 함
예) 부모 자식간의 성 , 학생들의 동일 학년 반 등 ..??

(2) 공통 요소로 변환 하기
– 대표적으로 시간, 장소 혹은 동일 대상이 다른 명칭 관리는 공통 요소로 변환이 가능하다 .
예) 다른 나라의 시간 , 지명주소와 GPS 주소
. Spread Sheet 에서 제공하는 문자열 처리 함수 (split, find, left, mid)
. 위치변환(geocoding) : 비즈GIS – X-Ray Map

(3) 탐색 범위의 설정
– 모든 측정값과 차원의 조합이 탐색 범위가 되지만 현실적으로 모든 대상을 탐색하는
것은 어렵다. 이때문에 탐색 범위를 설정할 필요가 있으며, 탐색범위 설정시에는
아래와 같은 내용들을 고려하여야 한다.
– 복수 데이터일 경우 하나의 데이터 내에서 먼저 탐색
– 하나의 차원부터 탐색을 시작하여 복수의 차원으로 탐색 범위를 늘림
– 같은 데이터에서 차원과 측정 값을 바꾸면 다른 통찰을 찾아 낼 수 있다
– 비주얼 인사이트를 활용하여 목표에 관련된 조합을 찾는다
– 상식적으로 관련이 있을 수 없는 관계는 배제하도록 한다.

다. 관계의 탐색
탐색과 관계의 대상이 되는 관계는 크게 상관관계와 인과관계로 나뉜다.
인과관계는 상관관계 중에서도 명호가하게 원인과 결과를 시간적 선후 관계가 있는과관계로 볼 수 있으며, 인과관계가 있는데 상관관계가 없는 경우는 없다

(1) 이상값 처리
이상값은 다른 관측값들과 동떨어진 값을 의미한다.
– 데이터 측정시 오류가 발생
– 측정 후 기록/관리 단계에서 오류 발생
– 오류가 아닌 의미있는 이유 때문에 발생

이상값 제거의 예
. 숫자가 들어가기로 되어 있는 컬럼에 Text
. 의도된 범위를 초과하는 값
. 시각화를 통한 이상치 제거

(2) 차원과 측정값 유형에 따른 관계 파악 시각화
시각화를 잘하려면 측정값을 바라보는 적절한 관점을 설정해야 한다.
1차원, 2차원, 3차원 등으로 시각화를 할 수가 있으며, 1차원으로 유용하게 시각화를
하는 방법은 거의 없다. 시각화시 각 축은 차원변수가 될수도 있고 측정값이 될 수도
있다. 3차원이 보기에는 멋지지만 데이터가 많아 질 경우 원근감의 혼돈으로 인해
오히려 혼돈을 줄 수도 있으며,  그런 경우 2차원 그래프에 색상으로 구분하는 방법도
사용이 가능하다.
– 그래프의 축은 차원 값만 지정할 수 있는 것이 아니다.
– 2차원 평면에서 도형의 면적도 연속값으로 된 차원을 처리하는 도구가 된다
– 색상은 구분 값으로 된 차원을 처리하는 유용한 방법이다
– 연속값으로 된 차원을 색상 그라데이션 변화로 처리 할 수도 있다

– 시각화 분석 방법
. x 축에 시간을 설정해 평면이나 공간상에 데이터를 뿌리고 변화의 모습을 관찰
. 모션차트 : 시간이 흐름에 따라 시간 외의 달느 차원에 있는 측정 값들이 어떻게
변화하는지를 움직임을 통해 보여준는 도구
. 워들 : 문장들 안에 어떤 의미를 지니는 단어들이 어떤 빈도로 분포하는지 탐색 등

(3) 잘라보고 달리보기
잘라보기(slice) : 전체 연령 데이터 중에 20~30대 데이터만 필터링해서 본다던지..
달리보기(Dice) : 차원을 기준으로 잘라내 서로 다른 관점의 단면들을 살표 봄

(4) 내려다보고 올려다보기
내려다보기 (Drill Down) :  현재 관점에서 더 세분화해서 보는 것
올려다보기 (Reverse Drill Down) : 현재 관점에서 더 상위 계층의 관점에서 보는 것
예) 일, 주, 월, 분기 , 연 단위 변화

(5) 척도의 조정
서로 범위가 다른 데이터를 같이 표현하는 경우 범위가 적은 데이터의 패턴이 잘 표현되지 않는 경우가 있다.
–  시각화 도구 예 : Sparkline Chart

 

5장-1절 시각화 인사이트 프로세스의 의미

가. Insight 통찰력
– 영문 의미와 한글 의미의 주요 공통점은 정보, 인과관계, 본질, 이해

(1) 데이터, 정보, 지식, 지혜, 관계
1Level : 지혜 – 적용된 지식
. 지역별, 기후 반복주기 최대치를 고려한 관계
2Level : 지식 – 조직화된 정보
. A 마을의 강수량과 지형조건, 배수 시설 등의 정보를 고려한 관계
3Level : 정보 – 연관된 요소들
. 수해 대책이 몸에 밴 특정 주민의 삶의 노하우
4Level : 데이터 – 개별적인 요소 하나하나
. 마을 주민의 생활 노하우

나. 시각화와 인사이트
문제가 눈에 보이도록 시각화하는 것은 통찰에서의 핵심적일 역할을 함

(1) 삼찰 : 관찰, 성찰, 통찰
– 관찰 : 대상사이의 상호 작용을 주의깊게 살펴 의미있는 관계를 찾아 냄
– 성찰 : 자신의 내면 세계를 깊이 살핌
– 통찰 : 내부 외부 요인들 간의 관계를 통해 살펴 대상과 대상들 사이의 숨겨진 관계를 찾음

(2) 통찰 과정의 시각화
– 1단계 (탐색) [대상 : 자료] [목표: 자료사이의 관계] [시각화 형태 : 패턴 파악]
. 자료들 간에 어떤 관계들이 있고 어떤 관계들이 가능한지 최초로 살펴보는 단계
. 탐색 대상은 데이터, 정보, 지식, 지혜까지 전체 대상을 포함
. 특정한 방향을 정하지 않고 모든 가능성을 열고 탐색을 진행

– 2단계 (분석) [대상 : 자료간 관계] [목표: 관계의 구체화] [시각화 형태 : 그래프 분석]
. 관계의 형태를 명확하게 규명하고 그 형태가 지니는 의미를 찾아내는 과정
. 데이터간의 구체적인 관계를 찾거나 그 관계를 더 잘 설명할 수 있는 데이터를 찾는 과정

– 3단계 (활용)  [목표: 내부적용,외부설득,정교화] [시각화 형태 : 인포그래픽]
. 찾아낸 특정한 원리나 모델을 서비스나 제품의 구동 원리에 직접 반영
. 도출한 통찰을 다른 사람에게 설명하거나 설득
다. 예) 당일 할인 숙박권 판매 서비스의 최적화
– 기본적으로 쇼핑몰 비지니스이기 대문에 어떤 상품을 소싱하고 어떻게 전시하느냐에 따라
매출 규모가 크게 달라진다. 특히 모바일 디바이스의 특성상 작은 화면에서 상품 목록을
보여 주어야 하기 때문에 어떤 순서와 형태로 상품을 보여주느냐가 매출에 대한 핵심 통찰

Chapter4 – 6. 시뮬레이션 및 최적화

6. 시뮬레이션 및 최적화

(1) 빅데이터와 시뮬레이션

– 풍부한 데이터를 바탕으로 시뮬레이션 및 최적화에 적용

(2) 시뮬레이션

– 주어진 조건 하에서의 실제 상황 속에서 모의 실험을 통해 정보를 얻는 수리적 실험 기법

가) 시뮬 레이션의 구분

. 정적 시뮬레이션 모델과 동적 시뮬레이션 모델 (시간 변수 유무)

. 결정론적 모델 : 확률 변수 등으로 결과가 나오는게 아니라 명확한 값으로 결정

. 연속형 모델과 이산형 모델 : 고객의 수/ 속도, 위치

나) 시뮬레이션의 장점

. 복잡한 현실문제는 추리 방법으로 해결책을 구하지 못함, 시뮬레이션이 유일한 대안

. 시뮬레이션 모형이 만들어지면 여러가지 대안을 쉽게 비교할 수 있다

. 시뮬레이션 모형을 현실 문제와 근접하게 만들 수 있다. 의사 결정자와 대화가 용이

. 시간 단축 효과 : 많은 시간이 지나서 알 수 있는 문제를 단시간에 결과 예측 가능

. 시간 확장 효과 : 시간을 확장시켜 시뮬레이션 할 수 도 있다

다) 시뮬레이션의 단점

. 개발이 어렵다

. 여러개의 관찰 입력 자료를 구해 통계처리 해야하며 , 시간도 많이 소요 됨

라) 시뮬레이션의 과정

. 1단계 : 문제 정의와 모델의 필요 조건 규명

. 2단계 : 기대와 손실에 대한 평가

. 3단계 : 시뮬레이션 모델 개발 방법 결정

. 4단계 : 모델의 프로그램화

. 5단계 : 모델의 적합성 평가

. 6단계 : 시뮬레이션 모델 실행

. 7단계 : 시뮬레이션 실행 결과 분석

(3) 최적화

가) 정의

– 어떤 문제의 최대점 혹은 최소점을 찾는 가정

나) 과정

– 문제의 이해

– 의사결정 변수 정의

– 해의 우열을 결정하는 기준을 선택

– 3단계에서 정한 우열의 기준을 의사결정 변수들의 함수식으로 표현하고 목적함수가 분명히 나타나도록 함

– 모든 조건이 의사결정 변수 식으로 나타나도록 제약식을 만든다

– 입력 자료를 수집하거나 추정

– 모형을 개발한 후 최적의 해를 구한다

다) R 사용

– 패키지 : LpSolve

– 사용 : lp( max / min , obj, con, dir, rhs)