2020. 8. 22. 12:11ㆍ카테고리 없음
[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 13차 미션
패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.
내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.
오늘은 13회차 미션!
Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기
-
06. Ch 07. 데이터 정제하기 - 02. 이상치 정제하기
-
07. Ch 08. 프로젝트를 통해 R 프로그래밍에 익숙해지기 - 01. 한국복지패널 데이터를 활용한 한국인의 삶 분석
-
06. Ch 07. 데이터 정제하기 - 02. 이상치 정제하기
-
이상치
-
물리적으로 존재할 수 없는 값
-
결측처리
-
극단적인 값
-
범위를 정해서 범위를 넘어서면 결측 처리
-
이상치 여부 판별 및 제거 (존재할 수 없는 값)
-
빈도를 분석해서 드문 빈도가 존재하면 이상치의 가능성이 있다고 판단 가능
-
table함수로~
-
이상치로 판별되면 NA로 할당
-
이후, 결측치와 함께 필터 처리
-
코드
-
table(outlier$sex)
-
outlier$sex <- ifelse(outlier$sex == 3, NA, outlier$sex)
-
outlier
-
코드2 (만점이 5점. 5점이 넘어가면 이상치)
-
library(dplyr)
-
outlier$sex <- ifelse(outlier$sex == 3, NA, outlier$sex)
-
outlier$score <- ifelse(outlier$score > 5, NA, outlier$score)
-
outlier %>%
-
filter(!is.na(outlier$sex) & !is.na(outlier$score)) %>%
-
group_by(sex) %>%
-
summarise(mean = mean(score))
-
극단적인 값 제거
-
정상범위를 정해서 벗어나면 결측 처리
-
논리적 판단
-
혹은 통계적 판단
-
상하위 0.3% 극단치
-
상자그림 1.5 IQR을 벗어나는 값
-
R자체 boxplot활용
-
library(ggplot2)
-
mpg
-
boxplot(mpg$hwy)
-
boxplot()$stats 이용
-
[1,], [5,]가 각각의 1.5 IQR 기준값
-
mpg <- as.data.frame(ggplot2::mpg)
-
mpg$hwy <- ifelse(mpg$hwy < 12 | mpg$hwy > 37, NA, mpg$hwy)
-
table(is.na(mpg$hwy))
-
mpg %>%
-
group_by(drv) %>%
-
summarise(mean_hwy = mean(hwy, na.rm = T))
-
연습