Multi Router DMZ setting (use your computer as sever)

  1. General Router Info
    – SK Broad Band (Mercury) Router  (MMC)
    . IP : http://192.168.25.1
    . ID : admin
    . PASS : last six digit of MAC Address + _admin
    – IPTime Router (DVW)
    . IP : http://192.168.0.1
    . ID/PASS : All yours
  2. Find you Server PC IP
    – Terminal >> Type “ip addr show”
  3. Login to DVW Router
    – find DMZ setting
    . set (2) IP on DMZ setting
    – find out reach IP of DVW Router
  4. Login to MMC Router
    – find DMZ setting
    . set (3) IP on DMZ setting

done .

[ADP] 5-4 제1절 시각화 구현 개요

[시각화 플랫폼]
Congnos Insightinformation builder
powerpivot
poewerview
visual insight
qlikview
visual inteligence
sas enterprise business inteligence
tableau
tabco spotfire anlaytics
R
Wolfamalhpa
better world flux
dipity
many eyes
excel
cartoDB
weka
gephi

[시각화 라이브러리]
Flot
Raphal
modest maps
leaflet
timeline
exhibit
jquery visualize
jqplot
D3.js
javascript infovis toolkit
jpGrapth
highcharts
google charts
crossfilter
tangle
polymaps
openlayers
katograph
processing
nodebox

[인포 그래픽스]
iCharts
visaulize free
visual.ly

[ADP] 5-2 제4절 시각화 방법

가. 빅데이터와 시각화 이슈
– 국내의 빅데이터 시각화 방향은 아직 정립되지 않음, 인포그래픽은 텍스트에 보조적인 역할
만하고 있을 뿐, 미국 뉴욕타임즈 등 처럼 실질적인 빅데이터 기반의 시각화 서비스는 이루어 지지 않고 있음

나. 빅데이터와 시각화 디자인 사례
– 2D 이미지 : 인쇄물, 온라인 이미지
– 모션 영상 : 모션 인포그래픽, 데이터 시각화 동영상
– 인터랙티브 : 인터랙티브 웹/앱

다. 빅데이터와 시각화 디자인 방향
–  개인 능력을 통해 최신의 기술과도구를 사용해 정보를 제시하고 분석
–  시각화 기술뿐만 아니라 비주얼 인식의 심리적인 부분을 아는 것으로 특정시각화 기술의
한계를 인지하고, 문제에 대한 통찰력과 정보수집, 마이닝, 프로그래밍, 시각화 전 과정에
대해서 시각화의 관점에서 풀어 낼 수 있어야 함
– 사용자가 어떤 목적으로 그 정보를 볼 것인지에 대한 분명한 예측과 목표를 가져야 함

[ADP] 5-2 제3절 시각화 방법

[시각화 방법]
A. 정보 구조화
– 데이터 수집 및 탐색
– 데이터 분류하기
– 데이터 배열하기
– 데이터 재배열
B. 정보 시각화
– 시간 시각화
– 분포 시각화
– 관계 시각화
– 비교 시각화
– 여러 변수 비교
– 공각 시각화
C. 정보 시각표현
– 그래픽 7요소
– 그래픽 디자인 기본 원리
– 이터랙션
– 시각정보 디자인 7원칙

가. 정보 구조화

(1) 데이터 수집 및 탐색
– 원 데이터를 바탕으로 불필요한 데이터를 거르는 데이터 에디팅 과정 수행

(2) 데이터 분류
– 구분텍스트 , JSON, XML등 데이터 형태에 따른 분류

(3) 배열
– 정보 조칙화를 위한 솔 워먼 래치(LATCH) 방법 조직화의 기준
. 위치
. 알파벳
. 시간
. 카테고리
. 위계
. 가중치

(4) 관계맺기(재배열)
– 데이터에 의미를 부여하는 가장 기본적인 과정으로 분류된 데이터를 정보 수용자가 인신
하기 쉽도록 패턴을 만드는 일에 속함

나. 정보 시각화
(1) 시간 시각화 : 막대그래프, 누적 막대그래프, 점 그래프
– 막대 그래프 : 서로 다른 범위나 상태인 경우 다른 색으로 표시, 그렇지 않은 경우 동일 색상
– 누적 막대 그래프 : 한 구간이 세부 항목으로 나뉘면서도 전체합이 의미가 있을때
– 점 그래프 : 더 적은 공간에 표시할 수 있으며, 집중정도와 배치에 따라 흐름 파악이 더 쉽다
– 연속형 데이터 : 점 그래프와 거의 같지만 선으로 연결한다는 것이 다름

(2) 분포 시각화 : 파이차트, 도우넛 차트, 트리맵, 누적연속그래프
분포 그래프는 최대, 최소, 전체 분포로 나뉘며 그 합은 1또는 100%인 특성이 있다
– 원그래프/도넛차트
– 트리맵 : 단순 분류별 분포 및 위계 구조의 표현 가능
– 누적연속그래프 : 시간에 따라 연속적인 누적막대 그래프

(3) 관계 시각화 : 스캐터 플롯, 버블 차트, 히스토그램
데이터 상관관계의 시각화에 주요한 목적이 있음
– 산점도 : 양/음의 상관관계 등 시각적 확인
– 버블차트 : 3가지 요소의 상관관계를 표현할 수 있는 방법
– 히스토그램 : 전체적인 데이터의 분포를 시각적 확인

(4) 비교 시각화 : 히트맵, 체르노프 페이스, 스타차트, 평행 좌표계, 다차원척도법
– 히트맵 : 색상으로 수치를 표현하는 방법
– 체르노프 페이스 : 테이터를 사람의 얼굴로 시각화
– 스타차트 : 선수 능력치 등 표시에 사용되는 그래프
– 평행좌표계 : 여러축을(차원) 평행으로 배치해서 만들고 각 축을 관통하는 선이 각 데이터
– 다차원도척법 : 데이터 세트상의 개별 데이터 간의 유사도를 바탕으로 시각화
유사성이 있는 데이터 끼리는 가까이, 없는 것 끼리는 멀리

(5) 공각 시각화 : 지도 맵핑
그래프를 단순화하여 최소한의 것으로 표현하여 최대한을 전달하는 것이 중요
(에드워드 터프티)
– 배경을 지워라
– 범례를 지워라
– 테두리를 지워라
– 색깔을 지워라
– 특수효과를 지워라
– 굵은 글씨를 지워라
– 라벨을 흐리게 처리해라
– 보조선을 흐리게 처리하던지 지워라
– 라벨을 직접 표시하라

다. 정보 시각표현

(1) 정보 표현을 위한 그래픽 요소 (자크 베르탱)
정보 디자인의 시각 인지론에 근거한 정보 표현을 위한 그래픽 요소들의 분석 및 정의
– 위치 : 동일 위치 대상사이에서 강조 대상의 위치 변화를 통한 강조
– 크기 : 동일 크기 대상사이에서 강조 대상의 크기 변화를 통한 강조
– 모양 : 동일 모양 대상사이에서 강조 대상의 모양 변화를 통한 강조
– 색 : 동일 색상 대상사이에서 강조 대상의 색상 변화를 통한 강조
– 명도 :  동일 명도 대상사이에서 강조 대상의 명도 변화를 통한 강조
– 기울기 :  동일 기울기 대상사이에서 강조 대상의 기울기 변화를 통한 강조
– 질감 :  동일 질감 대상사이에서 강조 대상의 질감 변화를 통한 강조

(2) 시각화를 위한 그래픽 디자인 기본 원리
[타이포그래피 (글씨 디자인)]
. 서체 : 한 가지 서체로 통일하거나하나에서변형을주는것이 좋음
. 무게 : 서체의 두께를 이용한 위계 표현
. 크기 : 글자의 크리를 이용한 강조 및 위계 표현
. 스타일 : 기울임체 등 차별화나 강조
. 색채 : 정보의 중요도나 위계에 대한 표현
. 간격 : 글자사이 < 낱말사이 < 글줄사이

[색상]
다른 색상을 사용할때는 명도와 채도를 맞추는 것이 중요
(colorschem, Adobe Kular 등 을 활용하여 색상 선택하면 도움이 됨)
. 구분표현 : 색상은 정보를 구분하고 그룹핑하는데 사용 (일반적으로 사람은 8개까지 구분)
. 순서표현 : 명암단계 , 색상 전환 그라데이션 단계, 채도단계 등
. 비율표현 : 상반된 두 색의 사용 비율로써 긍정/부정 비율 표현
. 색채 사용과 인지 : 관습적 색채의 의미가 충돌하지 않도록 한다.

[그리드]  그리드를 이용해 블록 레이아웃을 잡고 그 위에 효과적으로 요소를 배치
. 화면을 읽는 방식 : 좌상단에서 우하단으로 시선 이동함을 고려한 정보 배치
. 정보의 역피라미드 : 가장 중요한 정보가 위로 올라오도록 한다.
. 망그리드 : 망형태의 그리드를 지침삼아 배치작업
. 3 등분 법칙 : 화면을 3X3 으로 분할 분할선의 교차점을 중요 포인트로 사용

[아이소타프] 문자,숫자 대신 상징적 도형이나 기호를 조합해 시각화 하는 방법

(3) 인터랙션 (대화형 비선형적 정보 제공)
– 강조하고 디테일을 보여주는 방식 : 사용자의 조작에 반응
– 사용자가 컨탠츠를 선택하는 방식 : 사용자의 input 에 맞는 정보 표출 – 여러가지 방법으로 데이터 보여주기 : 줌인 줌아웃, 시간 흐름 변경
– 사용자 지정으로 시각 맵핑 변화 : 사용자가 시각화 유형을 선택 가능
– 사용자의 관점과 의견이 반영 : 사용자의 주관전 지표를 반영한 정보

(4) 터프티의 시각 정보 디자인 7원칙
– 시각적 비교를 강화하라
– 인과관계를 제시하라
– 다중변수를 표시하라
– 텍스트, 그래픽, 데이터를 한화면에 조화롭게 배치하라
– 콘텐츠의 질과 연관성, 진실성을 분명히 하라
– 신간순이 아닌 공간순으로 나열하라
– 정량적 자료의 정량성을 제거하지 마라

[ADP] 5-2 제2절 시각화 프로세스

가. 정보 디자인 프로세스
[인포그래픽 생성 단계]
(1) 1단계 : 데이터 수집
(2) 2단계 : 모든 것을 읽기
– 빠진 데이터가 있는지 스토리를 펼치는데 필요한 작은 조각들을 확인하는 단계
(3) 3단계 : 네러티브 찾기
– 스토리를 만드는 단계 (정보를 담은 스토리인가? , 주제에 관심이 가는가? ,주목할만한가?)
(4) 4단계 : 문제의 정의
– 이야기가 내포한 결과에 대한 현실성 검토, 논쟁에 이기기 위한 진실을 담은 데이터
(5) 5단계 : 계층구조 만들기
– 중심이야기를 찾고, 보조요소를 배열한다.
(6) 6단계 : 와이어 프레임 그리기
– 가장 흥미로운 사실(중심) 선택, 계층구조 결정되어 와이어 프레임 창조
중요한 정보에 대한 이해와 계층구조에 대한 이해가 가능한 시각화 방법 창조
(7) 7단계 : 포맷 선택하기
– 많은 시각화 표현방법 (그래프, 차트, 흐름도) 등을 데이터의 성격에 맞게 선택
(8) 8단계 : 시각 접근 방법 결정하기
– 데이터를 시각적으로 효과적으로 전달하기 위한 방안을 찾음
– 전달하고자 하는 은유적인 정보를 사진에 담아 정보를 표현
(9) 9단계 : 정제와 테스트
– 데이터를 본적이 없는 사람에게 쉽게 이해시킬 수 있는지를 테스트 및 개선
(10) 10단계 : 세상에 선보이기
– 대중에게 선보이고, 다양한 사람의 의견을 반영하여 개선 발전

나. 빅데이터 시각화 프로세스
[정보디자인 교과서]
– 조직화한 데이터
– 시각적 맵핑
– 시각적 형태
– 전달 방식

[마티아스 샤피로]
– 질문 만들어내기
– 데이터 수집하기
– 시각적 표현

[벤 프라이]
– 획득  : 파일, 네트워크 에서 정보를 수집
– 분해 : 정보의 의미를 바탕으로 카테고리화
– 선별 : 1,2 과정을 바탕으로 의미있는 정보와 의미 없는 정보 구분 및 제거
– 마이닝 : 3단계 과정의 데이터를 분석해 정보 추출 알고리즘 도출
– 표현 : 4단계 정보를 효과적으로 표현할 수 있는 방법 연구
– 정제 : 5단계 도출한 규칙을 바탕으로 정보를 시각적으로 정제
– 상호작용 : 정보를 다양한 시각에서 시뮬레이션 할 수 있는 방법 반영

[빅데이터 3단계 시각화 프로세스]
– 정보 구조화 : 데이터 수집 및 정제 과정
– 정보 시각화  : 분석도구에서 제공하는 그래프 등 활용 시각화
– 정보 시각표현 : 별도의 그래픽 요소를 추가하여 완성

[시각화 도구 구분]
– 기초 : Excel , CSV, JSON, Google Chart , Flot, Raphael, De, Visual ly
– 인터랙티브 GUI 컨트롤 : Crossfilter,  Tangle
– 맵핑 : Modest Maps , Leaflet, Ploymaps, OpenLayers, Kartograpth, CartoDB
– 전문가 : Processing, NodeBo, R, Weks, Gephi

 

[ADP] 5-2 제1절 시각화의 정의

가. 데이터 시각화의 중요성
– 많은 정보가 생성되는 빅데이터 환경이 도래하며, 엄청나게 많은 데이터의 홍수 속에서
의미있는 정보와 가치들을 얻어내는 것이 중요해 짐
특히나 텍스트와 이미지가 비정형의 형태를 띄고 있어 중요한 패턴을 찾기가 쉽지 않음
구글 수석 경제학자 할 배리언은 “데이터 얻는 능력”, “처리하는 능력” , “가치를 뽑아내는 능력” . “시각화하는 능력”, “전달하는 능력”이 중요하게 될 것이라고 말함
시각화는 매우 광범위하게 분산된 정보를 한눈에 볼 수 있도록 도표나 차트로 제공하는 것으로
통찰력을 얻는데 중요한 수단임

나. 시각 이해와 시각화
[시각 이해의 위계]
Wisdom – ?
Knowledge = Mapping
Information = Design
data = Visualization

(1) 데이터
기초 자료로써 정보를 만들기 위한 원자재와 같은 것으로 데이터 자체는 정보로서의 가치가
부족한 상태로 데이터를 만들어낸 생산자에게는 유용할 수 있으나 사용자에게 의미를 주기는
부적합

(2) 정보
정보는 데이터와는 달리 그 자체만으로 의미가 있다.
정보는 생산저와 사용자의 관점에 따라 다르게 전달될 수 있음
정보는 나름대로의 형태와 형식을 가지고 있음.
데이터가 정보가 되기 위해서는 “조직화” 와 “변형”이 되고 의미를 전달하기 위한 형태로 표현
데이터와 정보의 차이 구분을 위해서는 전체적인 맥락 (컨택스트)가 중요함
(어디서 온것인지, 왜 소통돼야 하는지, 어떻게 배열되는지 등)
정보는 생산자와 소비자 두 영역에 모두 포함되며 자기 조직화가 되지 않은 일반적 의미만 갖음

(3) 지식
정보가 다른 영역의 데이터들로부터 조직화해 발생했다면 지식은 다른 영역의 정보가 자기
조직화해 획득할 수 있는 것이라고 설명할 수 있다.
정보는 특정 영역에서의 경험을 통해 정보를 통합한 형태
고도의 논리적 상식, 정보의 상위 개념, 모든 경험의 산물
특정한 세부 사항만을 설명하는 것이 아니라, 다양한 상황에 적용할 수 있게 일반화 된것
스토리텔링은 지식을 전달하는데 가장 효과 적인 방법

(4) 지혜
지혜는 정보와 지식의 개인화에 의해 생성지혜는 자기 내면화한 지식으로 명시적인 언어로 상대방에게 전달하기 어려움
다른 데이터보다 추상적이고 철학적인 단계에 속함
지혜는 어떤 의미에서 메타 지식이라고 할 수 있음

[정보 인터랙션 디자인]
데이터 : 생산자
정보 : 생산자, 수용자, Global, Context
지식 : 수용자, Local, Context
지혜 : Personal , Context

다. 시각화 분류와 구분
“데이터 시각화” , “정보 시각화” , “정보 디자인” , “인포그래픽”을 구분하고 정의
(1) 데이터 시각화
데이터의 시각화란 데이터의 속성이나 변수를 가진 단위를 포함한 정보를 시각적으로
원 데이터를 가지고 아이디어를 효과적으로 전달하기 위하여 복잡한 데이터 세트보다는
좀 더 직접적인 관점을 제공.
데이터 시각화는 대부분 데이터들의 연결과 그룹핑을 표현하는 것에 초점을 둔다.
이러한 시각화의 범위로는 “마인드맵”, “뉴스표현”,”데이터 표현”, “관계 표현”, “웹사이트
들의 표현”, “기사와 리소스 들” 등이 있다.

(2) 정보 시각화
정보 시각화란 소프트웨어 시스템, 라이브러리, 서지 데이터베이스에서 코드의 라인들과 파일
같은 비수치 정보, 인터넷의 네트워크 관계 등 비수량 정보를 시각화 표현하는 것
추상적인 정보를 직관적으로 전달하기 위한 접근 방법 창조에 초점을 맞추고 있음
HCI, 컴퓨터 공학, 그래픽, 심리학, 시각디자인 등의 연구 영역에서 부터 발전하였으며, 과학적
연구, 디지털 라이브러리, 데이터 마이닝, 금융 데이터 분석, 시장조사 등의 연구 영영에 적용

(3) 정보 디자인
정보 디자인은 사람이 사용할 수 있는 효과적인 정보와 복잡하고 구조적이지 않은 데이터를
시각적으로 표현하는 방법으로, 보는 사람들이 좀더 명확하게 의미를 이해할 수 있게 한다.
정보 시각화, 인포그래픽 모두 정보 디자인에 포함되는 개념으로 볼 수 있음

(4) 인포그래픽
정보디자인에서 메시지를 전달하고자 하는 측면에서 분석해 보면 목적과 관점에 따라 두가지로 분류된다. “정보형 메시지” , “설득형 메시지”로 분류하여 설명할 수 있으며, 지하철 노선도
와 같이 실제 비례를 다소 왜곡하더라도 사람들이 보기 쉽게 시각화한 “정보형 메시지의” 대표적인 예라고 할 수 있다. 사회 계층 정보를 위아래로 극명하게 시각화하는 예의 경우는 “설득형 메시지”로 분류할 수 있다.

라. 빅데이터 시각화 영역
빅데이터의 시각화는 위에서 구분한 정의로 나눌 경우 아래오 같이 정의된다.
설득형 보다는 정보형 메시지에 가까우며, 인포그래픽 보다는 데이터/정보 시각화에 가깝다.

[ADP] 제4절 활용 (3단계)

가. 내부에서 적용
– 기존 문제 해결 방식이나 설명 모델의 수정
– 새로운 문제 해결 방식의 도입
– 새롭게 발견한 가능성에 대한 구체적인 탐색과 발전

나. 외부에 대한 설명, 설득과 시각화 도구
– 다른 사람에게 정보를 전달하거나 설득하기 위해서는 시각화가 유용
– 대표적인 예로는 인포그래픽이 있음

다. 인사이트의 발전과 확장
(1) 탑다운 vs 보텀업
– 보텀업 : 밑바닥에서부터 다양한 가능성을 찾아 봄
– 탑다운 : 보텀업에서 찾아낸 것들을 적용하는 과정에서 추가로 얻어낸  정보들을 토대로
탑다운 방식으로 검증하고 하는 명제들을 명확하게 검증해 가는 것이 효과적
(2) 2차 잘라보기, 달리보기, 내려다보기, 올려다보기
(3) 실시간 vs 비실시간
– 데이터가 많으면 많을수록 실시간으로 데이터를 처리하는 것은 어려워 진다.
실시간으로 처리를 해야 할 경우는 모니터링 및 경보 시스템이 있으며, 이런 경우에도
시각화가 매우 중요한데 발생한 요소를 눈에 띄는 색으로 크게 표시하는 것이 일반적
※ 이러한 처리는 아래의 지표운영과도 관련이 있다.
(4) 지표의 운영
– 지표는 관계를 하나의 수치로 표현해 분석에 활용할 수 있는 형태로 전환한 것
이러한 장점 때문에 현장에서 통찰을 적용할 때에는 매번 여러 관계들을 다 살펴볼 필요
없이 지표 몇개반 집중해서 판단 할 수 있는 장점이 있다.
하지만 환산된 값을 중심으로 보다보니 정작 어떤 변화요인이 발생해 지표에 영향을
주었는지 찾아내기가 어려워 진다.
(5) 추가 데이터에 대한 필요성
– 기존에는 뽑아낼 필요성을 느기지 못핸던 관계들이 어떤 데이터에 의해 파악될 수 있을 것
같은 느낌이 들때가 바로 추가 데이터가 필요한 시점이다.
(6) 시각화의 오류
– 척도에 대해 충분한 이해를 하지 못하고 평면이나 공간에 펼쳐 놓으면 의미 있는 패턴을
놓치게 될 수도 있다.
– 시각화 도구에 따라 전혀 다른 모양의 패턴이 나올 수 있다.
– 여러 가지 형태로 묶어보지 않고 한 가지만 했을 때, 엉뚱한 답을 도출할 위험 존재
– 3차원 시각화의 경우 원근감 때문에 착각을 할 수 있다.
– 인포그래픽의 경우 여타 디자인 요소에 의해 오류를 범할 수 있다 .
(7) 사람의 문제
– 결국은 사람이 가장 중요하다. !?

Ubuntu Spark/R 설치

가. Spark 설치
(1) http://spark.apache.org/downloads.html 접속
(2) 기 구축된 Hadoop 환경이 있는 것이 아니라면 Hadoop Pre-Build 선택
(3) download Spark
(4) 압축 해제 tar -zxvf spark-1.6.1-bin-hadoop.2.6.tgz

나. Spark 실행

[커맨드 모드]
(1) spark-1.6.1-bin-hadoop2.6/bin$ ./pyspark
(2) Spark 모니터링
16/06/01 22:03:46 INFO SparkUI: Started SparkUI at http://192.168.0.3:4040
선택 영역_002

[Master Node]
/sbin/
start-master.sh  

※ 아래 Page 기본 접속 포트는 8080 이다. (이미 사용중일 경우 +1)

선택 영역_001

[Slave  Node]
root@kim:/home/kim/spark/spark-1.6.1-bin-hadoop2.6/bin# ./spark-class org.apache.spark.deploy.worker.Worker spark://kim:7077
선택 영역_003

선택 영역_005

[Master Node 에서 slave 인식 확인]

선택 영역_004

다. R 설치
(1) root 권한 설정 : sudo passwd root
(2) Super user Login : su
(3) https://www.rstudio.com/products/rstudio/download-server-2/ 참조
$ sudo apt-get install r-base
$ sudo apt-get install gdebi-core
$ wget https://download2.rstudio.org/rstudio-server-0.99.902-amd64.deb
$ sudo gdebi rstudio-server-0.99.902-amd64.deb

라. R 실행
(1) http:// IP : 8787
(2) 접속 계정 : Linux 계정

마. R – Spark Cluster실행

(1) SPARK_HOME 설정

root@kim:/home/kim/spark/spark-1.6.1-bin-hadoop2.6# export SPARK_HOME=/home/kim/spark/spark-1.6.1-bin-hadoop2.6
root@kim:/home/kim/spark/spark-1.6.1-bin-hadoop2.6# echo “$SPARK_HOME”
/home/kim/spark/spark-1.6.1-bin-hadoop2.6

(2) R 에서 Spark Lib Load

if (nchar(Sys.getenv("SPARK_HOME")) < 1) {
  Sys.setenv(SPARK_HOME = "/home/kim/spark/spark-1.6.1-bin-hadoop2.6")
}

Sys.getenv("SPARK_HOME")

library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
##sc <- sparkR.init(master="spark://192.168.0.3:7077")

다음의 패키지를 부착합니다: ‘SparkR’

The following objects are masked from ‘package:stats’:

    cov, filter, lag, na.omit, predict, sd, var

The following objects are masked from ‘package:base’:

    colnames, colnames<-, intersect, rank, rbind, sample, subset, summary, table, transform

(3) 로컬로 Context 생성

sc <- sparkR.init(master="local[*]",appName='test', sparkEnvir=list(spark.executor.memory='2g'))

(4) Remote context 생성

선택 영역_006

 

[전체 테스트 코드]

if (nchar(Sys.getenv(“SPARK_HOME”)) < 1) {
Sys.setenv(SPARK_HOME = “/home/kim/spark/spark-1.6.1-bin-hadoop2.6”)
}

Sys.getenv(“SPARK_HOME”)

library(SparkR, lib.loc = c(file.path(Sys.getenv(“SPARK_HOME”), “R”, “lib”)))

sc <- sparkR.init(master=”spark://kim:7077″,appName=’test’, sparkEnvir=list(spark.executor.memory=’500m’),
sparkPackages=”com.databricks:spark-csv_2.11:1.0.3″)

sqlContext <- sparkRSQL.init(sc)

df <- createDataFrame(sc, faithful)
head(df)

people <- read.df(sqlContext, “/home/kim/spark/spark-1.6.1-bin-hadoop2.6/examples/src/main/resources/people.json”, “json”)
head(people)

sparkR.stop()

———결과———–

  age    name
1  NA Michael
2  30    Andy
3  19  Justin

————————–