티스토리 뷰
데이터의 종류
이산형 데이터 : Int 같은 정수를 뜻함. 연속하지 않기때문에 이산형이라고 부름.
연속형 데이터 : float 같은 연속된 실수. 연산을 위해서는 int 가 훨 빠르기 때문에 두개의 자료형을 잘 써야 함.
범주형 데이터 : 카테고리같은 형태의 데이터를 나타내는 데이터. factor 함수로 생성 가능함.
벡터 : 쉽게 배열이라고 이해하면 됨.
데이터 프레임 : 테이블에 가까움. 벡터들을 묶어 2차원 형태의 배열을 만든다.
리스트 : 구조체 개념. 뭐든 갖다가 다 붙일 수 있다. 잡다하게 묶어서 그룹화 시킨 느낌.
행렬(matrix) : 데이터프레임과 비슷하지만 모든 값이 숫자여야 한다.
벡터 생성 : c 생성자로 만듬. c(1,2,4,5)
데이터프레임 생성 . data.frame( c1,c2,c3 )
attach 명령어
데이터프레임을 검색목록에 올려 빠르게 접근 가능
DF <- read.csv("aaa.csv")
attach(DF)
DF$height
height
두 명령어가 같아짐. 남발하면 좀 힘들듯.
subset 명령어
데이터프레임중 특정 변수만 추출해서 보는 함수
cbind 명령어 ( column bind)
데이터프레임에 열 추가 하는 함수
rbind 명령어 ( raw bind )
데이터프레임에 행 추가 하는 함수
split 명령어
특정 변수를 기준으로 데이터를 분리함.
mean : 평균
sapply : 리스트 전체에 적용함. 연습해볼것.
도수분포 관련 함수
table : 변수의 종류와 도수를 알려줌.
cut : 데이터를 구간으로 나눠줌.
내일 부터는 R Markdown 을 이용해서 하나씩 실습한 결과를 올려보자.
'빅데이터 > R' 카테고리의 다른 글
NLP 이용한 주요 워드카운트 (0) | 2017.02.01 |
---|---|
R Markdown 문법 (0) | 2017.01.09 |
R정복 2일차 (0) | 2017.01.09 |