[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 13차 미션

2020. 8. 22. 12:11카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 13차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 13회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 06. Ch 07. 데이터 정제하기 - 02. 이상치 정제하기

  2. 07. Ch 08. 프로젝트를 통해 R 프로그래밍에 익숙해지기 - 01. 한국복지패널 데이터를 활용한 한국인의 삶 분석

 

  1. 06. Ch 07. 데이터 정제하기 - 02. 이상치 정제하기

    1. 이상치

      1. 물리적으로 존재할 수 없는 값

        1. 결측처리

      2. 극단적인 값

        1. 범위를 정해서 범위를 넘어서면 결측 처리

    2. 이상치 여부 판별 및 제거 (존재할 수 없는 값)

      1. 빈도를 분석해서 드문 빈도가 존재하면 이상치의 가능성이 있다고 판단 가능

        1. table함수로~

      2. 이상치로 판별되면 NA로 할당

      3. 이후, 결측치와 함께 필터 처리

      4. 코드

        1. table(outlier$sex)

        2. outlier$sex <- ifelse(outlier$sex == 3, NA, outlier$sex)

        3. outlier

      5.  코드2 (만점이 5점. 5점이 넘어가면 이상치)

        1. library(dplyr)

        2. outlier$sex <- ifelse(outlier$sex == 3, NA, outlier$sex)

        3. outlier$score <- ifelse(outlier$score > 5, NA, outlier$score)

        4. outlier %>%

        5.   filter(!is.na(outlier$sex) & !is.na(outlier$score)) %>%

        6.   group_by(sex) %>%

        7.   summarise(mean = mean(score))

    3. 극단적인 값 제거

      1. 정상범위를 정해서 벗어나면 결측 처리

        1. 논리적 판단

        2. 혹은 통계적 판단

          1. 상하위 0.3% 극단치

          2. 상자그림 1.5 IQR을 벗어나는 값

      2. R자체 boxplot활용

        1. library(ggplot2)

        2. mpg

        3. boxplot(mpg$hwy)

        4. boxplot()$stats 이용

          1. [1,], [5,]가 각각의 1.5 IQR 기준값

          1. mpg <- as.data.frame(ggplot2::mpg)

          2. mpg$hwy <- ifelse(mpg$hwy < 12 | mpg$hwy > 37, NA, mpg$hwy)

          3. table(is.na(mpg$hwy))

          4. mpg %>%

          5.   group_by(drv) %>%

          6.   summarise(mean_hwy = mean(hwy, na.rm = T))

      3. 연습