일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 그리디
- 이분탐색
- 다이나믹 프로그래밍
- 삼성 SW 역량테스트
- jpa
- 펜윅 트리
- JavaScript
- r
- 삼성SW역량테스트
- 백준 1753번
- 종만북
- Cloud Pub/Sub
- 수학
- 접미사 배열
- 고속 푸리에 변환
- REACT
- 시뮬레이션
- BFS
- LCS
- ICPC
- 컴퓨터 구조
- dp
- 우선순위 큐
- 데이터 분석
- 생활코딩
- Cloud Run
- Air Table
- CI/CD
- 다익스트라
- Bit
- Today
- Total
목록데이터 분석 (14)
코딩스토리
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 데이터를 분석만 하면 의미가 없다. 분석 결과를 잘 나타낼 수 있는 분석 보고서를 만들어야 한다. R은 아주 훌륭한? 언어이기 때문에 분석 보고서를 만드는 법도 어렵지 않다. File -> New File -> R Markdown을 클릭한다. OK를 눌러 새롭게 HTML을 생성한다. 생성한 뒤 knit의 화살표를 누르고 word나 html 파일을 생성할 수 있다. 마크다운 문법은 기존의 R코드와 다르다. 살짝만 살펴보면 '#' 기호가 html의 head 태그와 비슷하다. '{r}' 기호를 통해 코드 블록으로 나타낼 수 있다. 문자 앞뒤에 *특수문자*를 넣으면 기울임체가 된다. 문자 앞뒤에 **특수문자**를 넣으면..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 주제부터가 쉽지 않아 보인다. 차근차근 알아보자. 통계 분석 통계 분석은 '기술 통계'와 '추론 통계'로 나눌 수 있다. 기술 통계란 데이터를 요약해 설명하는 기법이다. 책에서는 사람들이 받는 월급을 집계해 전체 월급 평균을 구하는 예제를 들고 있다. 이처럼 어떠한 실험이나 조사를 통해 측정한 데이터를 분석해 데이터들의 특성을 찾아내는 기법이다. 추론 통계란 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법이다. 책에서는 아래와 같은 예제를 들고 있다. 수집된 데이터에서 성별에 따라 월급에 차이가 있다는 것이 나타났다. 이때 이런 차이가 우연히 발생할 확률을 계산한다. 계산된 확률에 ..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 굉장히 오랜만에 데이터 분석 관련 포스팅을 올리는 것 같다. 사실 그동안 많은 일이 있었다.. 먼저 책에 있는 코드를 따라 쳐보며 실행해보았는데 인터랙티브 그래프가 정상적으로 출력되지 않았다. 혹시나 코드를 잘못 쳤을까 몇 번을 다시 쳐봐도 결과는 똑같았다. 도저히 감을 잡을 수가 없어 데이터 분석 커뮤니티 카페에 가입하여 질문글을 올렸다. 신기하게도 책의 저자 분이 직접 댓글을 달아주셨다.. (대박 대박 🎉🎊) 친절한 답변에 감동받아 바로 실행해보았지만.. 정상적으로 출력되지 않았다. 잠시 댓글을 인용하자면 "패키지가 잘못 설치되었을 수 도 있으니 패키지 재설치" "R studio 최신 버전으로 업그레이드" 저..
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 이번엔 지도를 시각화해보자. 지역별 통계치를 색깔의 차이로 표현한 지도를 '단계 구분도'라고 하는데 오늘은 이걸 만들어 볼 예정이다. 당연히 여러 패키지가 필요하다. 필요한 패키지에 대한 정보는 책에 잘 나와있다. 이 부분을 쭈욱 공부해봤는데.. 굳이 포스팅할 필요까진 없을 것 같으나 그래도 해봤다는 것을 남기기 위해 직접 실행한 화면 캡처본만 남긴다. 아래는 한국 시도별 인구 데이터이다. 이 부분을 굳이 기억하고 있을 필요까진 없을 것 같아서 그냥 따라 치면서 이해했다. 한번에 너무 많은 것을 공부하려다 보니 슬슬 지친다.. 그래도 음.. 나름 재밌긴 하네요ㅎㅎ
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 텍스트 마이닝이란 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법이다. 해당 분석을 하기 위해 가장 먼저 해야할 일은 '형태소 분석'이다. 즉 문장을 구성하는 어절들이 어떤 품사로 되어 있는지 파악하는 것이다. 이후 각 품사의 단어들을 추출해 등장 횟수를 체크한다. 오늘도 책을 따라 분석을 시작해보자. 1. 힙합 음악 가사 텍스트 마이닝 먼저 한글 자연어 분석 패키지인 KoNLP를 사용해야 한다. 이 패키지를 사용하려면 Java가 깔려있어야 한다고 하니 참고하고 설치 방법은 책을 사서 확인하길.. 이런 게 제일 짜증 난다 패키지 설치하고 뭐 다운받고 등등... 이거 다운받는것도 쉽지 않았다..ㅠ 거의..