일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ICPC
- LCS
- 접미사 배열
- Air Table
- 다이나믹 프로그래밍
- Cloud Pub/Sub
- 종만북
- 생활코딩
- 컴퓨터 구조
- 다익스트라
- REACT
- 고속 푸리에 변환
- Bit
- dp
- JavaScript
- 이분탐색
- r
- 그리디
- 펜윅 트리
- 삼성SW역량테스트
- Cloud Run
- 수학
- 우선순위 큐
- 삼성 SW 역량테스트
- 백준 1753번
- CI/CD
- jpa
- BFS
- 데이터 분석
- 시뮬레이션
- Today
- Total
목록데이터 분석 (14)
코딩스토리
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 드디어 데이터 분석 프로젝트 마지막 날이다. 이제는 전처리 같은 과정은 어느 정도 할 수 있어진 것 같다. 바로 분석으로 넘어가 보자. 1. 성별 직업 빈도 "성별로 어떤 직업이 가장 많을까?"에 대한 질문에 답해 보자. 남성과 여성 두 성별에 대해 각각 어떤 직업을 많이 가지고 있는지 분석해보자. 이미 필요한 모든 변수들에 대한 전처리를 앞에서 진행했으므로 바로 분석해보면 # 남성 직업 빈도 상위 10개 추출 job_male % filter(!is.na(job) & sex == "male") %>% # 결측치 제거 $ 남성 group_by(job) %>% # 직업 기준 그룹화 summarise(n = n()) ..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 어제에 이어 데이터 분석을 해보자. 기본적인 내용은 6일 차와 같다. kimtaehyun98.tistory.com/76 6 일차 - 데이터 분석 프로젝트 1 # 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 드디어 본격적인 데이터 분석 프로젝트를 시작한다. 내가 분석할 데이터는 '한국 복지패널데이터'이 kimtaehyun98.tistory.com 1. 연령대에 따른 월급 차이 "어떤 연령대의 월급이 가장 많을까?"라는 질문에 데이터 분석을 통해 답해보자. 어제 birth 변수를 사용해 새로운 파생 변수 age를 생성했다. 이제 이 age 변수를 통해 연령대를 나타내는 '..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 드디어 본격적인 데이터 분석 프로젝트를 시작한다. 내가 분석할 데이터는 '한국 복지패널데이터'이다. 데이터의 분석과정을 간단하게 요약하면 다음과 같다. 1. 데이터 준비 2. 변수 검토 및 전처리 3. 변수 간 관계 분석 차근차근 하나씩 해보자. 먼저 데이터 준비는 완료했다. 해당 데이터는 SPSS 데이터이기 때문에 아래의 코드를 통해 데이터를 불러온다. install.packages("foreign") # foreign 패키지 설치 library(foreign) # SPSS 파일 불러오기 library(dplyr) # 전처리 library(ggplot2) # 시각화 library(readxl) # 엑셀 파일 불..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터 분석가들이 R을 선호하는 이유 중 하나가 우수한 그래프 기능 때문이라고 한다. 앞에서 잠깐 맛만 보았던 ggplot2 패키지를 통해 그래프를 만들어보자. 1. 산점도 - 변수 간 관계 표현하기 산점도란 데이터를 x축과 y축에 점으로 표현한 그래프를 말한다. 산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용된다. 이제 그래프를 그리려면 ggplot2 패키지에 대해 더 자세히 알아봐야 한다. ggplot2가 그래프를 그리는 과정은 다음과 같다. 배경 설정 (축) 그래프 추가 (점, 막대, 선) 설정 추가 (축 범위, 색, 표식) 이제 순서대로 그래프를 만들어 보자. 1) 배경 설정 별..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터를 사용할 때, 반드시 모든 데이터가 정상적이고 오류가 없을 수는 없다. 데이터의 오류는 크게 두 가지 경우로 생각할 수 있다. 1. 결측치 : 데이터가 누락됨 2. 이상치 : 정상 범주에서 크게 벗어난 값 이제 이러한 오류 데이터들을 어떻게 해결할 것인지에 대해 알아보자. 결측치 결측치가 존재한다면 함수가 제대로 적용되지 않거나, 분석 결과가 왜곡될 수 있다. 따라서 미리 결측치가 있는지 확인하고 제거해야 한다. R에서는 결측치를 'NA'로 나타낸다. 위의 그림을 보자. 반 이름과 학점에 대한 데이터 프레임을 만들어 보았다. 이때 5번째 학생의 클래스가 이고, 2번째 학생의 학점이 NA 이다. 그럼 이렇게..