코딩스토리

1 일차 - R 기초 본문

데이터 분석

1 일차 - R 기초

kimtaehyun98 2021. 1. 22. 18:03

# 이 글을 "Do it! 쉽게 배우는 R 데이터 분석"의 내용을 바탕으로 작성한 글입니다. 

 

정리)

 

R은 최근 떠오르고 있는 데이터 분석을 위한 언어이다.

 

데이터 분석 도구에는 GUI 방식과 프로그래밍 방식이 있는데 R은 전문적인 데이터 분석까지 할 수 있는 프로그래밍 방식이다.

 

변수 생성

 

R에서는 변수를 다음과 같이 생성한다.

 

var1 <- 10

 

우리가 흔히 알고 있는 int var1 = 10 과 같은 코드이다.

 

이렇게 변수를 생성하면 오른쪽의 Environment 창에 변수 객체가 생성된다.

 

var1 = 10 과 같이 대입 연산자를 사용하여 변수를 생성할 수도 있지만

이 '=' 연산자가 R에서는 다른 용도로도 사용되기 때문에 '<-' 연산자를 통해 변수를 생성하는 것이 좋다고 한다.

 

Ctrl + Enter를 통해 각 줄을 실행 가능하며 실행된 결과는 아래의 console 창에 띄워준다.

 

추가적으로

만약 아래와 같은 코드가 있다고 생각해보자.

var1 <- 10

var1

 이 코드 전체를 실행시키면 문제가 없지만

 

만약 var1 <- 10을 실행하지 않는다면 Environment 창에 var1이 생성되지 않는다.

 

R에서는 신기하게 한 줄 한 줄 실행을 시키는 방식이 가능한데

 

이러한 점에서 유의해야 할 점은 반드시 변수를 생성하고 해당 코드를 실행시켜 Environment 창에 등록을 시키는 것이 중요하다.

 

(내가 이 부분을 생각하지 못하고 var1을 실행시켰다가 오류가 발생했기에 신기해서 적어놓는다.)

 

R 이 동작하는 방식은 내가 생각하고 있는 IDE 들이랑 사알짝 다른 부분이 있는 것 같다.

 

 

함수 

 

함수가 어떤건지 설명하는 건 의미가 없을 것 같고

내가 오늘 사용한 함수들을 적어보자면

 

c() 함수 -> () 안의 인자들을 해당 변수에 대입 (쉽게 말하면 배열 생성과 비슷)

 

mean() 함수 -> 변수 안의 원소들의 평균값을 구해줌

 

# c() 함수를 통해 x 변수 생성

x <- c(1,2,3)

x

# mean() 함수를 통해 평균값 생성

y <- mean(x)

y

 

실행화면

아직까진 함수를 어떻게 생성하는지는 배우지 못했지만 앞으로 배우지 않을까 싶다.

 

 

패키지

 

나는 주로 C++만 써왔기 때문에 패키지의 중요성을 크게 못 느꼈었는데 잘 생각해보면 STL도 패키지 같은 개념이 아닐까 싶다.

 

요즘 들어 공부하고 있는 머신러닝 관련 pytorch 나 지난 학기 공부했던 JAVA 같은 경우 패키지란 개념이 중요하게 등장한다.

 

어쨌든

패키지는 쉽게 말해 함수들의 꾸러미라 생각하면 될 것 같다.

 

R은 오픈소스이기 때문에 다양한 패키지들이 존재하고, 만들어지고 배포되고 있다고 한다.

 

이번엔 ggplot2란 패키지를 다운받아 그래프를 만들어보았다.

 

진짜 신기한건 script 창에다 install.package("ggplot2") 라고 치면 알아서 패키지를 다운받아온다.

 

그리고 파이썬의 import나 C++의 include 같이 library를 사용하기 위해 패키지를 로드한다.

 

#ggplot2 패키지 로드

library(ggplot2)

 

이제 로드를 했으므로 해당 패키지의 내장 함수들을 사용해보면

 

# 여러 문자로 구성된 변수 생성
x <- c( "a", "a", "b", "c" )

# 빈도 막대 그래프 출력
qplot(x)

 

오....

 

너무 간단하고 좋다.

 

이로써 qplot이 어떤 일을 하는 함수인지 확실히 이해되었다.

 

이제 qplot 함수의 인자로 여러 개를 주면 어떻게 변할지 한번 보자.

 

 

qplot(data = mpg, x = drv, y = hwy, geom = "boxplot", colour = drv )

 

이 코드를 실행시킨 결과이다.

 

어떤 코드인지 잠시 설명해보자면

 

해당 패키지의 내장 데이터인 mpg 데이터에서

x 축은 drv(책에는 안 나와있지만 아마 driven, 주행거리? 같고)

y 축은 hwy(자동차가 고속도로에서 1갤런에 몇 마일을 가는지 나타낸 변수)

 

geom 은 어떤 그래프로 표현할 건지 (책에 설명은 안 나와있지만 내 생각엔 원형, 막대, line, box 등등)

 

colour 은 색깔의 형태 (왜 colour라고 하는지는 잘 모르겠으나.. 이걸 넣고 안 넣고에 따라 색깔이 변하더라고요..)

 

 

어쨌든 이렇게 R 기초에 대해 공부해 보았다.

 

오늘의 후기

 

R 이란 언어가 뭔가 느끼기에 시원시원하고 좋다.

 

이게 IDE가 깔끔해서 그런지 모르겠는데 굉장히 호감형이다.

 

앞으로 공부할 것들이 벌써부터 기대된다.

'데이터 분석' 카테고리의 다른 글

5 일차 - 그래프 만들기  (0) 2021.01.28
4 일차 - 데이터 정제  (0) 2021.01.27
3 일차 - 데이터 가공  (0) 2021.01.26
2 일차 - 데이터 프레임, 데이터 파악  (0) 2021.01.24
데이터 분석 계획표  (0) 2021.01.22
Comments