일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 컴퓨터 구조
- ICPC
- CI/CD
- 백준 1753번
- Cloud Run
- 삼성 SW 역량테스트
- 접미사 배열
- 종만북
- r
- 이분탐색
- Cloud Pub/Sub
- Bit
- dp
- BFS
- 우선순위 큐
- 펜윅 트리
- 삼성SW역량테스트
- 고속 푸리에 변환
- 그리디
- REACT
- 다이나믹 프로그래밍
- Air Table
- jpa
- 생활코딩
- 시뮬레이션
- JavaScript
- 데이터 분석
- LCS
- 수학
- 다익스트라
- Today
- Total
코딩스토리
5 일차 - 그래프 만들기 본문
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다.
데이터 분석가들이 R을 선호하는 이유 중 하나가 우수한 그래프 기능 때문이라고 한다.
앞에서 잠깐 맛만 보았던 ggplot2 패키지를 통해 그래프를 만들어보자.
1. 산점도 - 변수 간 관계 표현하기
산점도란 데이터를 x축과 y축에 점으로 표현한 그래프를 말한다.
산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용된다.
이제 그래프를 그리려면 ggplot2 패키지에 대해 더 자세히 알아봐야 한다.
ggplot2가 그래프를 그리는 과정은 다음과 같다.
- 배경 설정 (축)
- 그래프 추가 (점, 막대, 선)
- 설정 추가 (축 범위, 색, 표식)
이제 순서대로 그래프를 만들어 보자.
1) 배경 설정
별다른 점은 없으나 aes() 함수를 통해 x축과 y축의 변수를 지정하는 것을 알 수 있다.
2) 그래프 추가하기
WOW!
기존의 코드에 +geom_point() 란 코드를 더해 산점도를 만들어 냈다.
즉 여기서의 점들은 mpg 데이터의 각각의 자동차라고 할 수 있다.
displ이 배기량이고 hwy가 고속도로 연비라고 생각해보면 (실제로 mpg 데이터가 그렇게 설정되어있음!)
배기량이 높을수록 연비가 낮구나를 이 산점도를 통해 유추할 수 있다.
3) 축 범위 조정
기본적으로 그래프가 그려지면 축은 최소값에서 최댓값까지의 모든 범위의 데이터가 표현되도록 설정된다.
하지만 축 범위 역시 변경할 수 있다.
xlim()을 통해 x축을 3~6의 데이터만 나오게 설정했다.
경고 메시지는 해석해보면 개의 행이 누락되었다는 것인데 이런 것도 알려주고 아주 친절한 R이다.
당연히 ylim()을 통해 y축도 설정 가능하다.
2. 막대 그래프 - 집단 간 차이 표현하기
막대그래프는 데이터의 크기를 막대의 길이로 표현한 그래프이다.
성별 소득 차이처럼 집단 간 차이를 표현할 때 주로 사용된다.
내가 직접 exam이란 data frame을 만들었고, 막대그래프를 그렸다.
코드가 워낙 간단하고 직관적으로 이해하기 쉽다.
여기서 지금 x축은 A~E반 순으로 나열되어 있지만 만약 점수 순으로 나열하고 싶다면 다음과 같이 실행하면 된다.
reorder()란 함수를 통해 score 순서대로 오름차순으로 나열한 막대그래프를 확인할 수 있다.
내림차순은 -score로 표현하면 된다.
빈도 그래프도 이와 비슷하게 구현이 가능하다.
급하게 만드느라 굉장히 빈약하긴 하지만..
이해하는데에는 어렵지 않았다.
3. 선 그래프 - 시간에 따라 달라지는 데이터 표현하기
선 그래프는 말 그대로 선으로 표현한 그래프이다.
지난 학기에 인공지능 입문 강의 시간에 Fluppy Bird를 학습시키면서 수없이 보고 좌절했기 때문에 아주 익숙하다.
바로 살펴보자.
뭐..
이것 역시 따로 설명이 필요없이 간단하다.
4. 상자 그림 - 집단 간 분포 차이 표현하기
앞에서 잠깐 상자 그래프(box plot)를 보고 넘어왔었다.
처음 만나보는 유형의 그래프이기도 하며 가장 직관적으로 이해하기 어려운 그래프 같다.
만드는 방법은 어렵지 않다.
하나만 보면 살짝 이해가 안갈 수 도 있으니 아래 사진까지 같이 보자.
똑같은 데이터를 그저 box로 표현했는가, 막대로 표현했는가의 차이다.
앞에서 box 그래프를 어떻게 보는지에 대해선 자세하게 설명했기 때문에 넘어간다.
이렇게 그래프를 만드는 방법에 대해서 알아보았다.
그래프 쪽은 설명하기보단 직접 해보는 게 가장 좋은 것 같다.
설명이 조금 부실할 수 있지만 막상 직접 해보다 보면 너무 간단하고 좋아서 다시 한번 R의 매력에 빠지게 되는 것 같다.
'데이터 분석' 카테고리의 다른 글
7 일차 - 데이터 분석 프로젝트 2 (0) | 2021.02.01 |
---|---|
6 일차 - 데이터 분석 프로젝트 1 (0) | 2021.01.30 |
4 일차 - 데이터 정제 (0) | 2021.01.27 |
3 일차 - 데이터 가공 (0) | 2021.01.26 |
2 일차 - 데이터 프레임, 데이터 파악 (0) | 2021.01.24 |