일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 컴퓨터 구조
- 펜윅 트리
- BFS
- 수학
- Bit
- Air Table
- ICPC
- REACT
- 백준 1753번
- 삼성SW역량테스트
- Cloud Pub/Sub
- r
- dp
- 생활코딩
- 접미사 배열
- jpa
- 다이나믹 프로그래밍
- JavaScript
- 고속 푸리에 변환
- 우선순위 큐
- 이분탐색
- 삼성 SW 역량테스트
- LCS
- 데이터 분석
- 시뮬레이션
- 그리디
- CI/CD
- Cloud Run
- 다익스트라
- 종만북
- Today
- Total
코딩스토리
1 일차 - R 기초 본문
# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다.
정리)
R은 최근 떠오르고 있는 데이터 분석을 위한 언어이다.
데이터 분석 도구에는 GUI 방식과 프로그래밍 방식이 있는데 R은 전문적인 데이터 분석까지 할 수 있는 프로그래밍 방식이다.
변수 생성
R에서는 변수를 다음과 같이 생성한다.
var1 <- 10
우리가 흔히 알고 있는 int var1 = 10 과 같은 코드이다.
이렇게 변수를 생성하면 오른쪽의 Environment 창에 변수 객체가 생성된다.
var1 = 10 과 같이 대입 연산자를 사용하여 변수를 생성할 수도 있지만
이 '=' 연산자가 R에서는 다른 용도로도 사용되기 때문에 '<-' 연산자를 통해 변수를 생성하는 것이 좋다고 한다.
Ctrl + Enter를 통해 각 줄을 실행 가능하며 실행된 결과는 아래의 console 창에 띄워준다.
추가적으로
만약 아래와 같은 코드가 있다고 생각해보자.
var1 <- 10
var1
이 코드 전체를 실행시키면 문제가 없지만
만약 var1 <- 10을 실행하지 않는다면 Environment 창에 var1이 생성되지 않는다.
R에서는 신기하게 한 줄 한 줄 실행을 시키는 방식이 가능한데
이러한 점에서 유의해야 할 점은 반드시 변수를 생성하고 해당 코드를 실행시켜 Environment 창에 등록을 시키는 것이 중요하다.
(내가 이 부분을 생각하지 못하고 var1을 실행시켰다가 오류가 발생했기에 신기해서 적어놓는다.)
R 이 동작하는 방식은 내가 생각하고 있는 IDE 들이랑 사알짝 다른 부분이 있는 것 같다.
함수
함수가 어떤건지 설명하는 건 의미가 없을 것 같고
내가 오늘 사용한 함수들을 적어보자면
c() 함수 -> () 안의 인자들을 해당 변수에 대입 (쉽게 말하면 배열 생성과 비슷)
mean() 함수 -> 변수 안의 원소들의 평균값을 구해줌
# c() 함수를 통해 x 변수 생성
x <- c(1,2,3)
x
# mean() 함수를 통해 평균값 생성
y <- mean(x)
y
아직까진 함수를 어떻게 생성하는지는 배우지 못했지만 앞으로 배우지 않을까 싶다.
패키지
나는 주로 C++만 써왔기 때문에 패키지의 중요성을 크게 못 느꼈었는데 잘 생각해보면 STL도 패키지 같은 개념이 아닐까 싶다.
요즘 들어 공부하고 있는 머신러닝 관련 pytorch 나 지난 학기 공부했던 JAVA 같은 경우 패키지란 개념이 중요하게 등장한다.
어쨌든
패키지는 쉽게 말해 함수들의 꾸러미라 생각하면 될 것 같다.
R은 오픈소스이기 때문에 다양한 패키지들이 존재하고, 만들어지고 배포되고 있다고 한다.
이번엔 ggplot2란 패키지를 다운받아 그래프를 만들어보았다.
진짜 신기한건 script 창에다 install.package("ggplot2") 라고 치면 알아서 패키지를 다운받아온다.
그리고 파이썬의 import나 C++의 include 같이 library를 사용하기 위해 패키지를 로드한다.
#ggplot2 패키지 로드
library(ggplot2)
이제 로드를 했으므로 해당 패키지의 내장 함수들을 사용해보면
# 여러 문자로 구성된 변수 생성
x <- c( "a", "a", "b", "c" )
# 빈도 막대 그래프 출력
qplot(x)
오....
너무 간단하고 좋다.
이로써 qplot이 어떤 일을 하는 함수인지 확실히 이해되었다.
이제 qplot 함수의 인자로 여러 개를 주면 어떻게 변할지 한번 보자.
qplot(data = mpg, x = drv, y = hwy, geom = "boxplot", colour = drv )
이 코드를 실행시킨 결과이다.
어떤 코드인지 잠시 설명해보자면
해당 패키지의 내장 데이터인 mpg 데이터에서
x 축은 drv(책에는 안 나와있지만 아마 driven, 주행거리? 같고)
y 축은 hwy(자동차가 고속도로에서 1갤런에 몇 마일을 가는지 나타낸 변수)
geom 은 어떤 그래프로 표현할 건지 (책에 설명은 안 나와있지만 내 생각엔 원형, 막대, line, box 등등)
colour 은 색깔의 형태 (왜 colour라고 하는지는 잘 모르겠으나.. 이걸 넣고 안 넣고에 따라 색깔이 변하더라고요..)
어쨌든 이렇게 R 기초에 대해 공부해 보았다.
오늘의 후기
R 이란 언어가 뭔가 느끼기에 시원시원하고 좋다.
이게 IDE가 깔끔해서 그런지 모르겠는데 굉장히 호감형이다.
앞으로 공부할 것들이 벌써부터 기대된다.
'데이터 분석' 카테고리의 다른 글
5 일차 - 그래프 만들기 (0) | 2021.01.28 |
---|---|
4 일차 - 데이터 정제 (0) | 2021.01.27 |
3 일차 - 데이터 가공 (0) | 2021.01.26 |
2 일차 - 데이터 프레임, 데이터 파악 (0) | 2021.01.24 |
데이터 분석 계획표 (0) | 2021.01.22 |