일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Bit
- 다익스트라
- Air Table
- BFS
- 데이터 분석
- 펜윅 트리
- 종만북
- 삼성 SW 역량테스트
- 우선순위 큐
- ICPC
- REACT
- 컴퓨터 구조
- 접미사 배열
- LCS
- JavaScript
- 생활코딩
- Cloud Pub/Sub
- r
- 백준 1753번
- 수학
- jpa
- 이분탐색
- 삼성SW역량테스트
- CI/CD
- 시뮬레이션
- 다이나믹 프로그래밍
- dp
- 그리디
- Cloud Run
- 고속 푸리에 변환
- Today
- Total
목록r (9)
코딩스토리
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터 분석가들이 R을 선호하는 이유 중 하나가 우수한 그래프 기능 때문이라고 한다. 앞에서 잠깐 맛만 보았던 ggplot2 패키지를 통해 그래프를 만들어보자. 1. 산점도 - 변수 간 관계 표현하기 산점도란 데이터를 x축과 y축에 점으로 표현한 그래프를 말한다. 산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용된다. 이제 그래프를 그리려면 ggplot2 패키지에 대해 더 자세히 알아봐야 한다. ggplot2가 그래프를 그리는 과정은 다음과 같다. 배경 설정 (축) 그래프 추가 (점, 막대, 선) 설정 추가 (축 범위, 색, 표식) 이제 순서대로 그래프를 만들어 보자. 1) 배경 설정 별..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터를 사용할 때, 반드시 모든 데이터가 정상적이고 오류가 없을 수는 없다. 데이터의 오류는 크게 두 가지 경우로 생각할 수 있다. 1. 결측치 : 데이터가 누락됨 2. 이상치 : 정상 범주에서 크게 벗어난 값 이제 이러한 오류 데이터들을 어떻게 해결할 것인지에 대해 알아보자. 결측치 결측치가 존재한다면 함수가 제대로 적용되지 않거나, 분석 결과가 왜곡될 수 있다. 따라서 미리 결측치가 있는지 확인하고 제거해야 한다. R에서는 결측치를 'NA'로 나타낸다. 위의 그림을 보자. 반 이름과 학점에 대한 데이터 프레임을 만들어 보았다. 이때 5번째 학생의 클래스가 이고, 2번째 학생의 학점이 NA 이다. 그럼 이렇게..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터 전처리 데이터를 분석에 적합하게 가공하는 작업을 데이터 전처리라고 한다. dplyr 패키지는 앞에서도 공부했지만 데이터 전처리 작업에 가장 많이 사용되는 패키지라고 한다. dplyt 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left-join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) 바로 코드로 하나씩 살펴보자. 1. filter() 함수 library(dplyr) exam % filter(class == 1) exam 데이터는 다음과 같다..