일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 접미사 배열
- BFS
- 백준 1753번
- 그리디
- REACT
- 생활코딩
- Cloud Run
- JavaScript
- 고속 푸리에 변환
- 삼성SW역량테스트
- Cloud Pub/Sub
- 종만북
- LCS
- 시뮬레이션
- r
- 삼성 SW 역량테스트
- 이분탐색
- 데이터 분석
- ICPC
- 다익스트라
- 펜윅 트리
- 우선순위 큐
- jpa
- 컴퓨터 구조
- CI/CD
- Bit
- Air Table
- 다이나믹 프로그래밍
- 수학
- dp
- Today
- Total
목록데이터 분석 (7)
코딩스토리

# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 주제부터가 쉽지 않아 보인다. 차근차근 알아보자. 통계 분석 통계 분석은 '기술 통계'와 '추론 통계'로 나눌 수 있다. 기술 통계란 데이터를 요약해 설명하는 기법이다. 책에서는 사람들이 받는 월급을 집계해 전체 월급 평균을 구하는 예제를 들고 있다. 이처럼 어떠한 실험이나 조사를 통해 측정한 데이터를 분석해 데이터들의 특성을 찾아내는 기법이다. 추론 통계란 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법이다. 책에서는 아래와 같은 예제를 들고 있다. 수집된 데이터에서 성별에 따라 월급에 차이가 있다는 것이 나타났다. 이때 이런 차이가 우연히 발생할 확률을 계산한다. 계산된 확률에 ..

# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 이번엔 지도를 시각화해보자. 지역별 통계치를 색깔의 차이로 표현한 지도를 '단계 구분도'라고 하는데 오늘은 이걸 만들어 볼 예정이다. 당연히 여러 패키지가 필요하다. 필요한 패키지에 대한 정보는 책에 잘 나와있다. 이 부분을 쭈욱 공부해봤는데.. 굳이 포스팅할 필요까진 없을 것 같으나 그래도 해봤다는 것을 남기기 위해 직접 실행한 화면 캡처본만 남긴다. 아래는 한국 시도별 인구 데이터이다. 이 부분을 굳이 기억하고 있을 필요까진 없을 것 같아서 그냥 따라 치면서 이해했다. 한번에 너무 많은 것을 공부하려다 보니 슬슬 지친다.. 그래도 음.. 나름 재밌긴 하네요ㅎㅎ

# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 어제에 이어 데이터 분석을 해보자. 기본적인 내용은 6일 차와 같다. kimtaehyun98.tistory.com/76 6 일차 - 데이터 분석 프로젝트 1 # 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 드디어 본격적인 데이터 분석 프로젝트를 시작한다. 내가 분석할 데이터는 '한국 복지패널데이터'이 kimtaehyun98.tistory.com 1. 연령대에 따른 월급 차이 "어떤 연령대의 월급이 가장 많을까?"라는 질문에 데이터 분석을 통해 답해보자. 어제 birth 변수를 사용해 새로운 파생 변수 age를 생성했다. 이제 이 age 변수를 통해 연령대를 나타내는 '..

# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터 분석가들이 R을 선호하는 이유 중 하나가 우수한 그래프 기능 때문이라고 한다. 앞에서 잠깐 맛만 보았던 ggplot2 패키지를 통해 그래프를 만들어보자. 1. 산점도 - 변수 간 관계 표현하기 산점도란 데이터를 x축과 y축에 점으로 표현한 그래프를 말한다. 산점도는 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용된다. 이제 그래프를 그리려면 ggplot2 패키지에 대해 더 자세히 알아봐야 한다. ggplot2가 그래프를 그리는 과정은 다음과 같다. 배경 설정 (축) 그래프 추가 (점, 막대, 선) 설정 추가 (축 범위, 색, 표식) 이제 순서대로 그래프를 만들어 보자. 1) 배경 설정 별..

# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터를 사용할 때, 반드시 모든 데이터가 정상적이고 오류가 없을 수는 없다. 데이터의 오류는 크게 두 가지 경우로 생각할 수 있다. 1. 결측치 : 데이터가 누락됨 2. 이상치 : 정상 범주에서 크게 벗어난 값 이제 이러한 오류 데이터들을 어떻게 해결할 것인지에 대해 알아보자. 결측치 결측치가 존재한다면 함수가 제대로 적용되지 않거나, 분석 결과가 왜곡될 수 있다. 따라서 미리 결측치가 있는지 확인하고 제거해야 한다. R에서는 결측치를 'NA'로 나타낸다. 위의 그림을 보자. 반 이름과 학점에 대한 데이터 프레임을 만들어 보았다. 이때 5번째 학생의 클래스가 이고, 2번째 학생의 학점이 NA 이다. 그럼 이렇게..