최근 국내 전출입 관련 통계를 내다가 조그만 난관에 봉착했다. 구단위까지는 검색에 문제가 없었지만 동 부분에서 코드가 전혀 맞지 않았던 것이다. 동 코드검색은 http://code.mogaha.go.kr/jsp/stdcode/regCodeL.jsp 여기에서 했으며 아마 대부분의 사람들이 법정동코드를 검색하면 저게 뜰것이다. 하지만 통계청에서 제공하는 인구이동조사의 기준은 이와 다른 행정동 기준의 코드를 사용한다. 그게 어디있는건지 찾기 위해 고생을 좀 한결과 아래의 링크를 발견할 수 있었다. http://kssc.kostat.go.kr/ksscNew_web/kssc/common/CommonBoardList.do?gubun=1&strCategoryNameCode=019&strBbsId=kascrr&cate..
1. 평균 전체를 아우르는 값. 모든 데이터를 반영하기때문에 가장 쉽게 쓰이는 값. 통계에서는 Mean 으로 쓴다. 단점 : 아웃라이어같은 존재에 쉽게 값이 훼손되기 때문에 다른 분석값과 비교해봐야함 r 함수 : mean() 2. 중앙값 전체배열에서 중간에 있는 값. 아웃라이어에 훼손당하지 않음. Median 이라고 쓴다. 자체에 의미보단 Mean 값을 보완하기 위해 쓰이는 경우가 많다. r 함수 : median() 3. 범위값 최소 - 최대를 봄. 아웃라이어에 훼손당하기 쉬워서 사분위 범위를 사용한다. 25% 50% 75% 100% 구간별로 (이때 % 는 중앙값을 구하는 방식과 같이 구함. 순서대로 세우는 방식) 4분위 범위를 만든다. 이를 IQR 이라고 부르는데 Boxplot을 이용해 표시하면 중앙값..
install.packages("KoNLP")install.packages("wordcloud")install.packages("RcolorBrewer") library(KoNLP)library(wordcloud)library(RColorBrewer) src_dir 4] wordcount2 = sort(wordcount1, decreasing = T)head(wordcount2,30)write.csv(head(wordcount2,30),file="c:/R/chu.csv") #wordcount1 #pal =2}, undata)data= Filter(function(x){ length(grep("&", x)) < 1 }, data)data= Filter(function(x){ length(grep("[0-9..
http://rstudio-pubs-static.s3.amazonaws.com/52798_5cfd05b01e574668b1a4093a94f27434.html 퍼옴 R markdown examplekanghyuk Lee; Data Science of seoul tech.Monday, January 05, 2015분석을 R로 하고나서 분석 결과를 다른 word나 한글 문서에 작성하기 위해서는 엄척난 수고가 필요하다. 나도 지난 1년간 R을 공부하며 R로 분석한 project를 R 스크립트로 작성하고 다시 word로 옮겨야 했다. 이과정은 code output을 캡쳐하고 plot을 파일로 저장하고 clt+c+v의 귀찮은 작업이 필요하다.R을 사용하다 모르는 것이 있으면 구글을 사용하게 되있는데, 구글에서 찾은..
자료는 일단 도수분포표화 해야 쓸모가 있다. 그냥 나열되어있는 자료는 노 쓸모. 도수분포표로 평균과 분포를 확인해야 전체적인 형태를 파악할 수 있기 때문.. 오늘부터는 자료를 같이 보기위해 R Markdown으로 작성해야겠다. 경로에 한글이 있으면 패키지가 자동설치 안되므로 install.packages(c("rmarkdown","xtable"))[출처] R바보의 rstudio설치와 rmarkdown설치기|작성자 소니 라고 라고 입력을 직접 해줘야 설치가 된다. 검색은 http://rseek.org/ 에서 한다. 레퍼런스는 https://cran.r-project.org/doc/manuals/r-release/fullrefman.pdf 에서 볼것. 가벼운건 ? 나 help 명령어를 이용해서 보면 됨. 패..
데이터의 종류 이산형 데이터 : Int 같은 정수를 뜻함. 연속하지 않기때문에 이산형이라고 부름. 연속형 데이터 : float 같은 연속된 실수. 연산을 위해서는 int 가 훨 빠르기 때문에 두개의 자료형을 잘 써야 함. 범주형 데이터 : 카테고리같은 형태의 데이터를 나타내는 데이터. factor 함수로 생성 가능함. 벡터 : 쉽게 배열이라고 이해하면 됨. 데이터 프레임 : 테이블에 가까움. 벡터들을 묶어 2차원 형태의 배열을 만든다. 리스트 : 구조체 개념. 뭐든 갖다가 다 붙일 수 있다. 잡다하게 묶어서 그룹화 시킨 느낌. 행렬(matrix) : 데이터프레임과 비슷하지만 모든 값이 숫자여야 한다. 벡터 생성 : c 생성자로 만듬. c(1,2,4,5) 데이터프레임 생성 . data.frame( c1,c..