최근 국내 전출입 관련 통계를 내다가 조그만 난관에 봉착했다. 구단위까지는 검색에 문제가 없었지만 동 부분에서 코드가 전혀 맞지 않았던 것이다. 동 코드검색은 http://code.mogaha.go.kr/jsp/stdcode/regCodeL.jsp 여기에서 했으며 아마 대부분의 사람들이 법정동코드를 검색하면 저게 뜰것이다. 하지만 통계청에서 제공하는 인구이동조사의 기준은 이와 다른 행정동 기준의 코드를 사용한다. 그게 어디있는건지 찾기 위해 고생을 좀 한결과 아래의 링크를 발견할 수 있었다. http://kssc.kostat.go.kr/ksscNew_web/kssc/common/CommonBoardList.do?gubun=1&strCategoryNameCode=019&strBbsId=kascrr&cate..
1. 평균 전체를 아우르는 값. 모든 데이터를 반영하기때문에 가장 쉽게 쓰이는 값. 통계에서는 Mean 으로 쓴다. 단점 : 아웃라이어같은 존재에 쉽게 값이 훼손되기 때문에 다른 분석값과 비교해봐야함 r 함수 : mean() 2. 중앙값 전체배열에서 중간에 있는 값. 아웃라이어에 훼손당하지 않음. Median 이라고 쓴다. 자체에 의미보단 Mean 값을 보완하기 위해 쓰이는 경우가 많다. r 함수 : median() 3. 범위값 최소 - 최대를 봄. 아웃라이어에 훼손당하기 쉬워서 사분위 범위를 사용한다. 25% 50% 75% 100% 구간별로 (이때 % 는 중앙값을 구하는 방식과 같이 구함. 순서대로 세우는 방식) 4분위 범위를 만든다. 이를 IQR 이라고 부르는데 Boxplot을 이용해 표시하면 중앙값..
install.packages("KoNLP")install.packages("wordcloud")install.packages("RcolorBrewer") library(KoNLP)library(wordcloud)library(RColorBrewer) src_dir 4] wordcount2 = sort(wordcount1, decreasing = T)head(wordcount2,30)write.csv(head(wordcount2,30),file="c:/R/chu.csv") #wordcount1 #pal =2}, undata)data= Filter(function(x){ length(grep("&", x)) < 1 }, data)data= Filter(function(x){ length(grep("[0-9..
http://rstudio-pubs-static.s3.amazonaws.com/52798_5cfd05b01e574668b1a4093a94f27434.html 퍼옴 R markdown examplekanghyuk Lee; Data Science of seoul tech.Monday, January 05, 2015분석을 R로 하고나서 분석 결과를 다른 word나 한글 문서에 작성하기 위해서는 엄척난 수고가 필요하다. 나도 지난 1년간 R을 공부하며 R로 분석한 project를 R 스크립트로 작성하고 다시 word로 옮겨야 했다. 이과정은 code output을 캡쳐하고 plot을 파일로 저장하고 clt+c+v의 귀찮은 작업이 필요하다.R을 사용하다 모르는 것이 있으면 구글을 사용하게 되있는데, 구글에서 찾은..
자료는 일단 도수분포표화 해야 쓸모가 있다. 그냥 나열되어있는 자료는 노 쓸모. 도수분포표로 평균과 분포를 확인해야 전체적인 형태를 파악할 수 있기 때문.. 오늘부터는 자료를 같이 보기위해 R Markdown으로 작성해야겠다. 경로에 한글이 있으면 패키지가 자동설치 안되므로 install.packages(c("rmarkdown","xtable"))[출처] R바보의 rstudio설치와 rmarkdown설치기|작성자 소니 라고 라고 입력을 직접 해줘야 설치가 된다. 검색은 http://rseek.org/ 에서 한다. 레퍼런스는 https://cran.r-project.org/doc/manuals/r-release/fullrefman.pdf 에서 볼것. 가벼운건 ? 나 help 명령어를 이용해서 보면 됨. 패..
데이터의 종류 이산형 데이터 : Int 같은 정수를 뜻함. 연속하지 않기때문에 이산형이라고 부름. 연속형 데이터 : float 같은 연속된 실수. 연산을 위해서는 int 가 훨 빠르기 때문에 두개의 자료형을 잘 써야 함. 범주형 데이터 : 카테고리같은 형태의 데이터를 나타내는 데이터. factor 함수로 생성 가능함. 벡터 : 쉽게 배열이라고 이해하면 됨. 데이터 프레임 : 테이블에 가까움. 벡터들을 묶어 2차원 형태의 배열을 만든다. 리스트 : 구조체 개념. 뭐든 갖다가 다 붙일 수 있다. 잡다하게 묶어서 그룹화 시킨 느낌. 행렬(matrix) : 데이터프레임과 비슷하지만 모든 값이 숫자여야 한다. 벡터 생성 : c 생성자로 만듬. c(1,2,4,5) 데이터프레임 생성 . data.frame( c1,c..
아 어제 블로그를 쉬었더니 글쓰기가 매우 귀찮해진다..역시 꾸준꾸준 습관이 되어야하는듯. 오늘 깃 실습하기전에 문득 생각난건데 개발자는 취미를 개발로 하지 않는한 스킬 유지가 매우 힘든 직종인것 같다.. 자 각설하고 오늘은 외부 저장소를 복사해오는 clone 과 가지치기(?) 인 branch 를 공부해볼거임. 그럼 일단 clone 에 대해서 알아보자. SVN 으로 따지면 checkout 이다. 저장소를 만들 폴더에 위치해서 git clone 입력하면 그 폴더를 url 에 있는 프로젝트폴더의 저장소와 동기화 시켜준다. 설명을 들었으니 대충 실행해보자. 요즘 제이쿼리보다 잘 나간다는 앵귤러.js 를 받아보겠다. 역시나 오픈프로젝트로 존재했군 https://github.com/angular/angular.js..
어제는 민방위 다녀오고 회사다녀와서 너무 피곤한 나머지 뻗어버렸다. 새벽에 일어나서 이렇게 밀린 숙제를 시작한다.. -_- 역시 체력은 국력 자 어제 commit 까지 해봤으니 오늘은 push 부터 해봐야지. 공부했던 내용을 다시 되새겨보면 working directory -> index -> head 이렇게 되어있고 index 는 확정본이 만들어지기까지 계속 add 하는 공간이고 commit 을 해야 확정본으로 head 에 기록된다. 이렇게 로컬 저장소의 마지막인 head 를 다른 저장소로 발행하는 기능이 push 라고 한다. 그럼 원격 저장소는 어케 만드느냐? 제일 유명한 사이트인 깃허브닷컴(https://github.com)에 들어가면 있을거 같다는 생각에 접속해봄. 가입하고 이메일 인증하면 요렇게..
헬스를 끝내고 겨우 정신차려서 쓰는 2일차 깃 공부! 내일은 민방위니까 늦게써도 괜찮아! 오늘 일과중에 다행히도 어떤 착한 에인젤 외쿡인님께서 정리해두신 문서를 보았지롱. 후후 이제 링크를 보고 정리를 해보자. 문서 링크는 https://rogerdudler.github.io/git-guide/index.ko.html 니까 보고 싶은 사람은 보면 됨. 1. 저장소 만들기 만들고 싶은 폴더에서 커맨드 명령으로 git init 하면 된다고 한다. 어제 보니까 GUI 를 제공한다고 해서 bash 모드하고 GUI 모드 두개 다 해보기로 했다. 어레.. 근데 보니까 어제 설치 옵션에서 봤던 윈도우 커맨드용도 있다. git GUI 버젼 git Window Comander 버전 git Bash 버전 이렇게 세가지가 ..