[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 11차 미션

2020. 8. 20. 00:15카테고리 없음

[패스트캠퍼스 수강 후기] R 인강 100% 환급 챌린지 11차 미션

 

패스트캠퍼스의 강의 중, 프로젝트와 함께 배우는 R 데이터 분석 올인원 패키지 Online를 수강하고 있습니다.

https://bit.ly/2DKMGNx 

내용을 복습도 할 겸, 미션에도 참가할 겸, 블로그에 매일 매일 정리해 보게 되었습니다.

 

오늘은 11회차 미션!

Part 2) [R로 하는 데이터 분석] 데이터 분석 기본기 익히기

  1. 02. Ch 06. 그래프 그리기 - 02. 집단 간 차이를 표현하는 막대 그래프

  2. 03. Ch 06. 그래프 그리기 - 03. 시간에 따라 달라지는 데이터를 표현하는 선 그래프

 

  1. 02. Ch 06. 그래프 그리기 - 02. 집단 간 차이를 표현하는 막대 그래프

    1. 막대 그래프의 활용

      1. 차이를 비교하는 데 유용...

        1. 평균 막대 그래프

        2. 앞서  group_by, summarise를 한 후, 그 결과를 막대 그래프로 표현해보고 싶었는데, 드디어 나왔음!

        3. 산점도와 거의 비슷

      2. 예시

        1. library(dplyr)

        2. library(ggplot2)

        3. df_mpg <- as.data.frame(mpg)

        4. df_mpg <- mpg %>%

        5.   group_by(drv) %>%

        6.   summarise(mean_hwy = mean(hwy))

        7. df_mpg

        8. ggplot(data = df_mpg, aes(x=drv, y=mean_hwy))+geom_col()

          1. goem_col()

            1. 각 column의 데이터를 그래프로 표현한다는 의미

      3. 그래프를 내림 차순으로 하고자 할 때

        1. arrange() 를 이용해도 내림차순으로 되지 않음

          1. 아마도 ggplot자체가 알아서 순서를 정하는 듯?

          2. 4, f, r인 걸로 봐서 아마 숫자 먼저 그리고는 알파벳 순으로 x 축을 정렬하는 듯

        2. ggplot(data = df_mpg, aes(x=reorder(drv, -mean_hwy), y=mean_hwy))+geom_col()

      4. 그래프 순서 정렬 다시 한번 설명 (막대 그래프는 보통 높은 순서대로 정렬해서 그려줌)

        1. 먼저 summarise 를 이용해서 평균을 구한 후...

        2. ggplot(data = df_mpg, aes(x= reopder(drv, -mean_hwy), y=mean_hwy))+geom_col()

        3. reorder(drv, -mean_hwy)

          1. drv를 정렬하는데, mean_hwy를 기준으로 내림차순 (-가 없으면 오름차순)

      5. 빈도 막대 그래프

        1. ggplot(data = mpg, aes(x=drv))+geom_bar()

          1. y를 입력하지 않고서 geom_bar()를 사용하면, 그냥 행의 개수를 세서 막대 그래프로 표시

        2. 즉, x축을 정해준 후 (drv)그  drv 의 개수(column수)를 바로 막대로 표현

          1. 평균 막대 그래프에서 사용한 geom_col()은 column의 y값을 이용하여 그리는 것이고 geom_bar는 그냥 개수를 사용

        3. ggplot(data = mpg, aes(x=hwy))+geom_bar()

          1. 위의 경우는 x가 불연속 데이터였음

          2. 만일 연속변수를 x로 사용하면, 가지고 그리면, 히스토그램과 같은 형태로 표현됨 (범위 결정방법은 아직 언급안됨)

      6. 연습

          1. 코드

          2. df_mpg2 <- df_mpg %>%

          3.   group_by(manufacturer) %>%

          4.   summarise(mean_cty = mean(cty)) %>%

          5.   arrange(desc(mean_cty)) %>%

          6.   head(5)

            1. 와우 head(5)를 하면 5개만 df_mpg2에 들어감 

              1. 이걸 몰랐음.. (이렇게 하면 출력이 되진 않고 df_mpg2에 대입만 됨!)

          7. df_mpg2

          8. ggplot(data = df_mpg2, aes(reorder(x=manufacturer, -mean_cty), y=mean_cty))+geom_col()

          9. ggplot(data = mpg, aes(x=class))+geom_bar()

    2. 03. Ch 06. 그래프 그리기 - 03. 시간에 따라 달라지는 데이터를 표현하는 선 그래프

      1. 선 그래프

        1. 시계열 데이터 표현에 많이 사용됨

      2. 연습

        1. ggplot(data = economics, aes(x=date, y=unemploy))+geom_line()

        1. 코드

          1. ggplot(data = economics, aes(x=date, y=psavert))+geom_line()

 

 

막대 그래프와 선그래프를 그리는 법에 대한 내용

둘 다 매우 유용한 함수

다만 선 그래프는 2개 이상의 선그래프를 같이 그려서 비교하는 게 필요할 것 같은데, 아직은 나오지 않았음 (나중에 비교하는 방법이 나오지 않을까?)