[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 7차 미션
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 7차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 7회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
06. Ch 04. 데이터를 파악하고 다루기 쉽게 수정하기 - 03. 파생 변수 만들기
-
07. Ch 05. 데이터 가공하기 - 01. 조건에 맞는 데이터만 추출하기
-
06. Ch 04. 데이터를 파악하고 다루기 쉽게 수정하기 - 03. 파생 변수 만들기
-
새로운 변수를 만들기 - 파생 변수 만들기
-
기존에 하지 못하던 일을 할 수 있음
-
평균을 만든다든지...
-
df$var_sum = df$var1 + df$var2
-
이런식으로
-
data frame이름에 $를 붙이고 사용.
-
아래와 같이 total이라는 변수 추가~
-
library(dplyr)
-
library(ggplot2)
-
mpg_new$total <- (mpg_new$cty + mpg_new$hwy)/2
-
head(mpg_new)
-
활용
-
summary(mpg_new$total) -
hist(mpg_new$total)
-
이런 식으로 연비가 좋다/나쁘다의 기준을 판단할 수 있음.
-
이를 이용해서 합정판정을 해보자
-
합격 빈도 분석을 할 때는 table이라는 함수를 사용.
-
table(mpg_new$test)
-
qplot(mpg_new$test)
-
만일 여러 등급으로 쪼갠다면, ifelse를 중첩해서 사용.
-
mpg_new$grade <-ifelse(mpg_new$total >= 30, "A", ifelse(mpg_new$total >= 20, "B", "C"))
-
qplot(mpg_new$grade)
-
요약
-
연습문제
-
midwest_new <- as.data.frame(ggplot2::midwest)
-
names(midwest_new)
-
midwest_new <- rename(midwest, total = poptotal, asian = popasian)
-
names(midwest_new)
-
midwest_new$ratioasian <- midwest_new$asian/midwest_new$total*100
-
-
midwest_new$ratioasian
-
mean(midwest_new$ratioasian)
-
midwest_new$test <- ifelse(midwest_new$ratioasian >= 0.4872462, "large", "small")
-
head(midwest_new$test, 20)
-
table(midwest_new$test)
-
qplot(midwest_new$test)
이제 본격적으로 강의가 시작되는 느낌.
실제 예제 데이터를 가지고 새로운 변수를 추가해서 비율 등을 계산하고,
이를 그래프로 확인하여, 실제 데이터의 특성을 파악하고 이해하는 방법을 소개