최근 국내 전출입 관련 통계를 내다가 조그만 난관에 봉착했다. 구단위까지는 검색에 문제가 없었지만 동 부분에서 코드가 전혀 맞지 않았던 것이다. 동 코드검색은 http://code.mogaha.go.kr/jsp/stdcode/regCodeL.jsp 여기에서 했으며 아마 대부분의 사람들이 법정동코드를 검색하면 저게 뜰것이다. 하지만 통계청에서 제공하는 인구이동조사의 기준은 이와 다른 행정동 기준의 코드를 사용한다. 그게 어디있는건지 찾기 위해 고생을 좀 한결과 아래의 링크를 발견할 수 있었다. http://kssc.kostat.go.kr/ksscNew_web/kssc/common/CommonBoardList.do?gubun=1&strCategoryNameCode=019&strBbsId=kascrr&cate..
1. 평균 전체를 아우르는 값. 모든 데이터를 반영하기때문에 가장 쉽게 쓰이는 값. 통계에서는 Mean 으로 쓴다. 단점 : 아웃라이어같은 존재에 쉽게 값이 훼손되기 때문에 다른 분석값과 비교해봐야함 r 함수 : mean() 2. 중앙값 전체배열에서 중간에 있는 값. 아웃라이어에 훼손당하지 않음. Median 이라고 쓴다. 자체에 의미보단 Mean 값을 보완하기 위해 쓰이는 경우가 많다. r 함수 : median() 3. 범위값 최소 - 최대를 봄. 아웃라이어에 훼손당하기 쉬워서 사분위 범위를 사용한다. 25% 50% 75% 100% 구간별로 (이때 % 는 중앙값을 구하는 방식과 같이 구함. 순서대로 세우는 방식) 4분위 범위를 만든다. 이를 IQR 이라고 부르는데 Boxplot을 이용해 표시하면 중앙값..