티스토리 뷰

빅데이터/R

R정복 1일차

Mac's analystics 2017.01.05 18:26

데이터의 종류 


이산형 데이터  : Int 같은 정수를 뜻함. 연속하지 않기때문에 이산형이라고 부름. 


연속형 데이터 : float 같은 연속된 실수. 연산을 위해서는 int 가 훨 빠르기 때문에 두개의 자료형을 잘 써야 함. 


범주형 데이터 : 카테고리같은 형태의 데이터를 나타내는 데이터. factor 함수로 생성 가능함. 


벡터 : 쉽게 배열이라고 이해하면 됨. 


데이터 프레임 : 테이블에 가까움. 벡터들을 묶어 2차원 형태의 배열을 만든다. 


리스트 : 구조체 개념. 뭐든 갖다가 다 붙일 수 있다. 잡다하게 묶어서 그룹화 시킨 느낌.


행렬(matrix) : 데이터프레임과 비슷하지만 모든 값이 숫자여야 한다. 


벡터 생성 : c 생성자로 만듬.  c(1,2,4,5) 

데이터프레임 생성 . data.frame( c1,c2,c3 ) 



attach 명령어 

데이터프레임을 검색목록에 올려 빠르게 접근 가능 


DF <- read.csv("aaa.csv") 

attach(DF) 


DF$height 

height 

두 명령어가 같아짐. 남발하면 좀 힘들듯. 


subset 명령어 

데이터프레임중 특정 변수만 추출해서 보는 함수


cbind 명령어 ( column bind)

데이터프레임에 열 추가 하는 함수


rbind 명령어 ( raw bind ) 

데이터프레임에 행 추가 하는 함수



split 명령어 

특정 변수를 기준으로 데이터를 분리함. 


mean : 평균 


sapply : 리스트 전체에 적용함. 연습해볼것. 




도수분포 관련 함수 


table : 변수의 종류와 도수를 알려줌. 


cut : 데이터를 구간으로 나눠줌. 


내일 부터는 R Markdown 을 이용해서 하나씩 실습한 결과를 올려보자.









'빅데이터 > R' 카테고리의 다른 글

NLP 이용한 주요 워드카운트  (0) 2017.02.01
R Markdown 문법  (0) 2017.01.09
R정복 2일차  (0) 2017.01.09
R정복 1일차  (0) 2017.01.05
댓글
댓글쓰기 폼
공지사항
Total
5,474
Today
0
Yesterday
3
TAG
more
«   2019/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
글 보관함