###################################################### ## 5. Wilxoxon Rank-Sum Test ## 서로 독립적인 두 집단의 평균의 차이가 0인지를 결정함 ## (1) wilcox test 는 잔차가 정규분포를 따르지 않을 경우 사용 ###################################################### ##(가) setwd 파일등을 로딩할 기준 위치 work directory 를 정의한다. setwd(“D:/DEVSource/CSV_DATA”) ##(나) 데이터를 읽어온다. ToothGrowth ## X len supp dose ##25 25 26.4 VC 2.0 ##26 26 32.5 […]
###################################################### ## 4. Two-Sample T-Test ## 서로 독립적인 두 집단의 평균의 차이가 0인지를 결정함 ## (1) 두 집단의 분산이 같은지 검정한다 (var.test()) ## (2) 분산이 다르면 welch 의 t-test 를 사용한다. ## (3) 분산이 같으면 pooled variance를 이용한 t-test 를 적용한다. (var.queal=TRUE) ###################################################### ##(가) setwd 파일등을 로딩할 기준 위치 work directory 를 정의한다. setwd(“D:/DEVSource/CSV_DATA”) ##(나) […]
###################################################### ## 3. Wilcoxon Signed-Rank Test ## 데이터가 정규 분포를 따르지 않는 경우 사용하는 테스트 방법 ###################################################### ##적합한 테스트 데이터를 찾지 못하여 가상 데이터 생성 library(MASS) testData = mvrnorm(n=10, mu=c(94,93), Sigma=matrix(c(10,6,6,10), ncol=2)) print(testData ) ## [,1] [,2] ## [1,] 90.33835 89.07357 ## [2,] 88.15305 87.19982 ## [3,] 91.00698 88.97034 ## [4,] 98.46540 97.09314 ## [5,] […]
###################################################### ## 2. Paired T-Test ## on sample T-Test 에서는 하나의 군집 데이터에 대해 특정 평균일치를 테스트 했다면 ## Paired T-Test 에서는 두개의 데이터의 차이를 T-TEST 를 통해 검정 ## ex) 동일한 사람의 다이어트 제품 복용 전후 데이터 ## (후 – 전) 의 평균이 T-Test 를 통해 0에 수렴하는가 테스트 ###################################################### ##적합한 테스트 데이터를 찾지 […]
###################################################### ## 1. one sample t-test ## ## ###################################################### ##setwd 파일등을 로딩할 기준 위치 work directory 를 정의한다. setwd(“D:/DEVSource/CSV_DATA”) ##CSV 파일을 읽습니다. AirPassengers= read.csv(“AirPassengers.csv”) plot(time~AirPassengers, data=AirPassengers ) ##shapiro.test 는 정규성을 검증하는 기능 ##귀무가설 : 데이터는 정규 분포 ##대립가설 : 데이터는 정규 분포가 아님 ##검정통계량 : 0.954 (0에서 얼마나 멀은가?) ##p-value : 6.8322e-05 (0.000068322) ##결론 : […]
## library(NRAIA) ## attach 데이터를 로딩 , 로딩한 데이터는 $ 없이 바로 접근 가능 attach(trees) mean(Volume) detach(trees) ## with (데이터, 변수) 형태로 사용 해당 명령어에 한하여 $없이 변수 접근 가능 with(trees, mean(Volume)) ##setwd 파일등을 로딩할 기준 위치 work directory 를 정의한다. setwd(“D:/DEVSource/CSV_DATA”) ##CSV 파일을 읽습니다. AirPassengers = read.csv(“AirPassengers.csv”) plot(time~AirPassengers, data=AirPassengers ) ##표본수 length length(AirPassengers$AirPassengers) ##평균 […]
6. 시뮬레이션 및 최적화 (1) 빅데이터와 시뮬레이션 – 풍부한 데이터를 바탕으로 시뮬레이션 및 최적화에 적용 (2) 시뮬레이션 – 주어진 조건 하에서의 실제 상황 속에서 모의 실험을 통해 정보를 얻는 수리적 실험 기법 가) 시뮬 레이션의 구분 . 정적 시뮬레이션 모델과 동적 시뮬레이션 모델 (시간 변수 유무) . 결정론적 모델 : 확률 변수 등으로 결과가 나오는게 […]
5. 비정형 데이터 마이닝 (1) 텍스트 마이닝 가) 텍스트 마이닝 기능 요약 – 문서 요약 , 문서 분류 , 문서 군집 ,특성 추출 나) 정보 검색의 적절성 – 정확도 : 판단 긍정 / (판단 긍정 + 판단 부정) – 재현율 : 판단 긍정 / (판단 긍정 + 전체 긍정) – Corpus : 더 이상 추가 […]
4. 정형 데이터 마이닝 (1) 데이터 마이닝 개요 가) 정의 – 통계분석과의 가장큰 차이는 어떤 가설이나 가정에 따른 분석이나 검증이 아닌, 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로 부터 의미있는 정보를 찾아내는 방법을 통칭한다. (방법에 따라 인공지능, 의사경정나무, K-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 등으로 불림) 나) 데이터 마이닝 추진 단계 – 목적 설정 > 데이터 준비 […]
3. 데이터 마트 (1) 데이터 변경 및 요약 가) R reshape 을 이용한 마트 개발 – 요약 변수 . 기간별 구매 금액/횟수 , 위클리 쇼퍼, 상품별 구매 금액/횟수 ,상품별 구매 순서, 유통 채널별 구매 금액, 단어 빈도, 초기 행동변수, 트랜드 변수, 연속 변수의 구간화 등 – 파생변수 . 분석자가 특정 조건을 만족하거나 특정 함수에 의해 […]