티스토리 뷰

빅데이터/통계

기술통계 - 표본의 분석

Mac's analystics 2017. 2. 1. 12:46

1. 평균 


전체를 아우르는 값. 모든 데이터를 반영하기때문에 가장 쉽게 쓰이는 값. 통계에서는 Mean 으로 쓴다.


단점 : 아웃라이어같은 존재에 쉽게 값이 훼손되기 때문에 다른 분석값과 비교해봐야함 


r 함수 : mean()


2. 중앙값 


전체배열에서 중간에 있는 값. 아웃라이어에 훼손당하지 않음. 


Median 이라고 쓴다. 자체에 의미보단 Mean 값을 보완하기 위해 쓰이는 경우가 많다. 


r 함수 : median()



3. 범위값 


최소 - 최대를 봄. 아웃라이어에 훼손당하기 쉬워서 사분위 범위를 사용한다. 


25% 50% 75% 100% 구간별로 (이때 % 는 중앙값을 구하는 방식과 같이 구함. 순서대로 세우는 방식)


4분위 범위를 만든다. 이를 IQR 이라고 부르는데 Boxplot을 이용해 표시하면 


중앙값 + 아웃라이어를 동시에 확인할 수 있어서 많이 쓰임.


boxplot에 대한 이미지 검색결과 흔한 boxplot 


r 함수 : 범위값 range();  / 4분위 : quantile() / Boxplot : boxplot(); 



4. 산포도


분산 : 모든 데이터의 평균과의 차이의 제곱의 합. s제곱으로 표기함. 

표준편차 : 분산의 제곱근. 제곱근을 해주는 이유는 단위의 형평성을 위해. (제곱하면 너무 값이 커짐)  s 로 보통 표기함. 


r 함수 : 분산 var() / 표준편차 sd() 


5. 자유도 


표본표준편차는 1/n 이 아니라 1/(n-1) 을 사용하는데 이는 표본과 모집단의 성질때문이다. 


표본의 평균을 모집단과 맞추기 위해 n-1 개만 뽑고 나머지 1개는 모집단 평균에 맞춰 뽑는다. 


그래서 실제로 자유롭게 뽑은건 n-1 이고 1/(n-1) 을 자유도라고 부른다. 


모집단평균은 1/n 사용해도 됨. 



6. 표준화 


기준을 0 점으로 맞춰서 비교하는 방식. 서로 다른 단위 혹은 범위의 표본집단을 비교하기 좋음. 


R에서 표준값 구하는 함수를 통해 표본을 변환시킬 수 있음. 공식은 표준편차값과 표본평균값을 이용해 만듬. 


예시 : 토익, 토플의 비교. 


r 함수 : scale()


7. 변동계수 


표준화와 비슷한데 분산도를 한눈에 알 수 있도록 표시하는 방식. 표준편차의 표준화라고 보면 편함. 


어떤 집단의 표준편차를 말할 때는 항상 변동계수로 말하도록 하자. 


r 함수 : sd()/mean()


8. 공분산 


다변량 변수를 표시할 때 분산되는 정도를 뜻함. 상관관계를 파악하는데 보통 쓰임. 


상관관계는 -1 ~ 1 값을 가지며 절대값이 1에 가까울 수록 상관관계가 크다고 할 수 있으며 0 은 무관하다고 보면 됨. 



r 함수 : cor(x,y) 상관관계를 구함.  cov(x,y) 공분산을 구함. 



이는 모두 R 함수로 쉽게 구할 수 있다. 꼭 외워두자. 


'빅데이터 > 통계' 카테고리의 다른 글

법정동코드와 행정동코드  (0) 2017.08.21
기술통계란  (0) 2017.02.01
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
TAG
more
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함