Category: Data-Analaysis

XgBoost Test

#install.packages(“drat”, repos=”https://cran.rstudio.com”) #drat:::addRepo(“dmlc”) #install.packages(“xgboost”, repos=”http://dmlc.ml/drat/”, type = “source”) #install.packages(“xgboost”) #install.packages(c(“dplyr”, “hflights”)) #install.packages(“dummies”) #install.packages(“MASS”) require(xgboost) library(dplyr) library(hflights) library(dummies) library(MASS) setwd(“C:/Users/POSCOUSER/Desktop/”) train = read.csv(“train.csv”) test = read.csv(“test.csv”) col_names = colnames(test) # 트레인 데이터 준비 train_x = subset(train, select=col_names[col_names != “TARGET”]) train_y = subset(train, select=col_names[col_names == “TARGET”]) cate_list_x = c(“CH_pass_fac_flag”, “SM_STEEL_GRD”, “CH_SEQ_IN_CAST”, “SAME_TUND_TR_CAST_SEQ”, “FAC_OP_CD”, “FCE_NUM”, “SM_LD_BLW_METH_TP”, “LD_FCE_AC_UBLW_PTRN_NUM”, “LD_FCE_LW_BW_PTRN_NUM”, […]

Read more

[ADP] 5-4 제1절 시각화 구현 개요

[시각화 플랫폼] Congnos Insightinformation builder powerpivot poewerview visual insight qlikview visual inteligence sas enterprise business inteligence tableau tabco spotfire anlaytics R Wolfamalhpa better world flux dipity many eyes excel cartoDB weka gephi [시각화 라이브러리] Flot Raphal modest maps leaflet timeline exhibit jquery visualize jqplot D3.js javascript infovis toolkit jpGrapth highcharts google charts crossfilter tangle polymaps […]

Read more

[ADP] 5-2 제4절 시각화 방법

가. 빅데이터와 시각화 이슈 – 국내의 빅데이터 시각화 방향은 아직 정립되지 않음, 인포그래픽은 텍스트에 보조적인 역할 만하고 있을 뿐, 미국 뉴욕타임즈 등 처럼 실질적인 빅데이터 기반의 시각화 서비스는 이루어 지지 않고 있음 나. 빅데이터와 시각화 디자인 사례 – 2D 이미지 : 인쇄물, 온라인 이미지 – 모션 영상 : 모션 인포그래픽, 데이터 시각화 동영상 – 인터랙티브 […]

Read more

[ADP] 5-2 제3절 시각화 방법

[시각화 방법] A. 정보 구조화 – 데이터 수집 및 탐색 – 데이터 분류하기 – 데이터 배열하기 – 데이터 재배열 B. 정보 시각화 – 시간 시각화 – 분포 시각화 – 관계 시각화 – 비교 시각화 – 여러 변수 비교 – 공각 시각화 C. 정보 시각표현 – 그래픽 7요소 – 그래픽 디자인 기본 원리 – 이터랙션 – […]

Read more

[ADP] 5-2 제2절 시각화 프로세스

가. 정보 디자인 프로세스 [인포그래픽 생성 단계] (1) 1단계 : 데이터 수집 (2) 2단계 : 모든 것을 읽기 – 빠진 데이터가 있는지 스토리를 펼치는데 필요한 작은 조각들을 확인하는 단계 (3) 3단계 : 네러티브 찾기 – 스토리를 만드는 단계 (정보를 담은 스토리인가? , 주제에 관심이 가는가? ,주목할만한가?) (4) 4단계 : 문제의 정의 – 이야기가 내포한 결과에 […]

Read more

[ADP] 5-2 제1절 시각화의 정의

가. 데이터 시각화의 중요성 – 많은 정보가 생성되는 빅데이터 환경이 도래하며, 엄청나게 많은 데이터의 홍수 속에서 의미있는 정보와 가치들을 얻어내는 것이 중요해 짐 특히나 텍스트와 이미지가 비정형의 형태를 띄고 있어 중요한 패턴을 찾기가 쉽지 않음 구글 수석 경제학자 할 배리언은 “데이터 얻는 능력”, “처리하는 능력” , “가치를 뽑아내는 능력” . “시각화하는 능력”, “전달하는 능력”이 중요하게 […]

Read more

[ADP] 제4절 활용 (3단계)

가. 내부에서 적용 – 기존 문제 해결 방식이나 설명 모델의 수정 – 새로운 문제 해결 방식의 도입 – 새롭게 발견한 가능성에 대한 구체적인 탐색과 발전 나. 외부에 대한 설명, 설득과 시각화 도구 – 다른 사람에게 정보를 전달하거나 설득하기 위해서는 시각화가 유용 – 대표적인 예로는 인포그래픽이 있음 다. 인사이트의 발전과 확장 (1) 탑다운 vs 보텀업 – […]

Read more

[ADP] 5장-3절 분석(2단계)

가. 분석 대상의 구체화 (1) 2차 탐색 – 탐색을 통해 찾아낸 관계들 사이의 우선순의를 조정 – 잘라보기, 달리보기, 내려다보기, 올려다보기, 측정값, 차원값 조정 등을 다시 점검 (2) 분석 목표에 따른 분석 기법 – 패턴 자체를 확률적으로 검증하거나 패턴을 구성하는 핵심 함수의 모델 도출 등 분석 -평균에 대한 검정과 추정 : T 검정 -비율에 대한 검정과 […]

Read more

5장-2절 탐색 단계

가. 사용 가능한 데이터 확인 (1) 데이터 명세화 : 차원과 측정값 대상을 국가별 남성의 평균 수명이라고 하면 아래과 같이 예를 들 수 있다. – 측정값 :  평균 나이 값 – 차원값 : 국가 , 성별 . 하나는 1차원, 두개 이상은 다차원이라고 명명 함 . 시간 연속 데이터는 일,연 단위로 묶어서 차원을 관리하기도 함 – 데이터의 […]

Read more

5장-1절 시각화 인사이트 프로세스의 의미

가. Insight 통찰력 – 영문 의미와 한글 의미의 주요 공통점은 정보, 인과관계, 본질, 이해 (1) 데이터, 정보, 지식, 지혜, 관계 1Level : 지혜 – 적용된 지식 . 지역별, 기후 반복주기 최대치를 고려한 관계 2Level : 지식 – 조직화된 정보 . A 마을의 강수량과 지형조건, 배수 시설 등의 정보를 고려한 관계 3Level : 정보 – 연관된 […]

Read more