Category: R Programming

XgBoost Test

#install.packages(“drat”, repos=”https://cran.rstudio.com”) #drat:::addRepo(“dmlc”) #install.packages(“xgboost”, repos=”http://dmlc.ml/drat/”, type = “source”) #install.packages(“xgboost”) #install.packages(c(“dplyr”, “hflights”)) #install.packages(“dummies”) #install.packages(“MASS”) require(xgboost) library(dplyr) library(hflights) library(dummies) library(MASS) setwd(“C:/Users/POSCOUSER/Desktop/”) train = read.csv(“train.csv”) test = read.csv(“test.csv”) col_names = colnames(test) # 트레인 데이터 준비 train_x = subset(train, select=col_names[col_names != “TARGET”]) train_y = subset(train, select=col_names[col_names == “TARGET”]) cate_list_x = c(“CH_pass_fac_flag”, “SM_STEEL_GRD”, “CH_SEQ_IN_CAST”, “SAME_TUND_TR_CAST_SEQ”, “FAC_OP_CD”, “FCE_NUM”, “SM_LD_BLW_METH_TP”, “LD_FCE_AC_UBLW_PTRN_NUM”, “LD_FCE_LW_BW_PTRN_NUM”, […]

Read more

R- 시계열 모형

1. 정상성 – 평균이 일정하다. 즉 모든 시점에 대해 일정한 평균을 가진다. – 분산도 시점에 의존하지 않는다 – 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s 에는 의존하지 않는다. 대부분의 경우 실제의 데이터는 이러한 정상성을 만족하지 않는다. 그래서 정상성을 만족하지 않는 데이터를 정상 시계열 데이터로 변환해야 하는데 이때, 변환, 차분과 같은 방법을 사용할 수 있다. […]

Read more

R – Decision Tree

install.packages(“rattle”) install.packages(“RColorBrewer”) install.packages(“rpart.plot”) ####################################### #1. 데이터 구성 ####################################### library(rattle) library(RColorBrewer) library(rpart.plot) #일정한 Random 값을 갖도록한다. (언제 실행해도 1426 이라면 같은 Random 값) set.seed(1426) #R 에 내장된 샘플 CSV weather 를 읽어 온다 data(weather) #weather 데이터를 ds 에 담는다. ds <- get(“weather”) # 제외할 컬럼 “Date” “Location” “RISK_MM” id <- c(“Date”, “Location”) risk <- “RISK_MM” ignore […]

Read more

R – Nonlinear Regression

###################################################### ## 19. Nonlinear Regression ## 비선형 회귀 분석에 사용한다. ## 말그대로 데이터가 선형관계가 아닌 비선형 관계일 경우 사용한다. ###################################################### ## (1) One-Compartment Model ## 하나의 exp 만 가지고 증가하는 모델 ## 데이터 로딩 setwd(“D:/DEVSource/CSV_DATA/”) data = read.csv(“one_comp.csv”) print(data) ## 비선형 분석 ## nls 함수 사용 ## C0, K 등 초기값 사용 ## 결과 = […]

Read more

R – Logistic Regression

###################################################### ## 13. Logistic Regression ## 종속변수가 0,1 / 죽다,살다 / 있다,없다 와 같은 Binary 인 경우 사용 ## odds 의 log- 변환을 종속변수로 모형화 한다. ###################################################### ## CASE1 : Respire.csv ## (1) 테스테 데이터 추출 setwd(“D:/DEVSource/CSV_DATA/”) data1 = read.csv(“respire1.csv”) data2 = read.csv(“respire2.csv”) print(data1) print(data2) ## (2) logistic test ## 귀무가설 : treat 종류에 따른 […]

Read more

R – ANCOVA (analysis of covariance)공분산 분석

###################################################### ## 13. ANCOVA (analysis of covariance)공분산 분석 ## 사회과학과 같이 다른 변인의 통제가 쉽지 않은 상황에서 ## 연속형 변수를 추가하여 오차를 줄이고 검정력을 높이는 방법 ###################################################### ## (1) 테스트 데이터 추출 setwd(“D:/DEVSource/CSV_DATA/”) data = read.csv(“anorexia.csv”) print(data) ## (2) 데이터에 대한 일원분산 분석 ## 3개의 데이터가 같은 평균을 갖지는 않음 boxplot(Postwt – Prewt ~ Treat, […]

Read more

R – Two-way ANOVA

###################################################### ## 12. Two-way ANOVA ## 두개의 그룹변수를 갖는 데이터의 분석에 사용 ###################################################### ## (1) 테스트 데이터 추출 setwd(“D:/DEVSource/CSV_DATA/”) data = read.csv(“warpbreaks.csv”) print(data) ## (2) wool 과 tension 두개의 그룹으로 구성된 데이터이다. ## wool 과 tension 의 level 지정 상태를 확인한다 levels(data$tension) levels(data$wool) ## (3) tension 의 level 을 L, M , H 순서로 변경한다. […]

Read more

R – Kruskal-Wallis Test

###################################################### ## 11. Kruskal-Wallis Test ## 독립변수가 2개 이상인 경우에 각각의 그룹의 평균이 같은가를 결정함 ## 일원 테스트에서 F-TEST 는 그룹간 변동량과 그룹내 변동량의 비 ## – (각그룹평균 – 전체평균)^2 + (각그룹평균 – 전체평균)^2 과 ## – (각각 변수 – 각 그룹 평균)^2 ## 프로그램으로는 anova(lm(값 ~ 그룹)) 하면 끝나버린다. ## 여기서 귀무가설을 모든 그룹의 […]

Read more

R – Multiple Rgression

###################################################### ## 8. Multiple Regression ## 독립변수가 2개 이상인 경우에 사용하며 아래와 같은 방법이 있음 ## – 이론을 미리 정해 놓고 분석하는 Conframtory 분석 ## – 이론을 정하지 않고 가장 적절한 모형을 고르는 Exploratory 분석 ## – 다중회귀 모형의 특수한 경우인 다항회귀분석 ## CASE 분석은 아래와 같은 원칙을 따른다 ## – 종속변수와 독립변수간의 상관관계가 높아야 […]

Read more

R – Simple Linear Regression

###################################################### ## 7. Simple LinearRegression ## 연속 데이터에 대한 분석 방법 ## 종속 변수와 독립변수의 관계가 1:1 이다. ## 예를 들면 독립변수는 차량의 속도 종속변수는 차량의 제동 거리가 될 수 있겠다. ###################################################### ## (1) speed ,dist 두개의 컬럼으로 구성된 데이터 셋을 만들었다 speed = c(10,20,30,40,50,60,70) dist = c(13,18,25,38,47,61,105) data = data.frame(speed ,dist) print(data) ## (2) […]

Read more