롸?

통계 알못의 통계 쌩기초 용어부터 정리하기 본문

기타/Data Analysis

통계 알못의 통계 쌩기초 용어부터 정리하기

허니버터새우깡 2020. 6. 13. 16:20

 데이터 분석을 공부하면서 평소 접한 용어가 아니라 들을 때 마다 헷갈려서 정리.

 

 

 

기술 통계 

 - 기술통계(descriptive statistics)는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다. 기술통계에는 분석방향에 따라 여러가지가 있다. 단순한 평균 분산 등의 상투적인 분석 이외에, 모집단에서 어떤인자들이 있는지 뽑아내보는 인자분석과, 특정표본이 어떤모집단에 속하는지(원 모집단을 어떻게 여러 집단으로 나눠야 하는지) 판단하는 판별분석, 두 인자간의 상호관계에 대한 정준상관분석, 인자들의 숫자를 줄여 단순화 하는 주성분분석, 그 외 군집분석 등, 다양한 분석방법이 존재한다.

 

 

추론 통계

 - 추론 통계는 기술통계로 어떤 모집단에서 구한 표본정보를 가지고 그 모집단의 특성 및 가능성 등을 추론해내는 통계적 방법이다. 보통 수집된 자료는 어떻게 분석해야 할지 미리 정해져 있기도 하지만, 대부분 획득한 자료(모집단)을 가지고 여러 그래프를 그려보는 와중에 또다른 별개의 분석방법을 추가로 채택할 필요성을 느끼게 된다. 이러한 모집단에 대한 전체적 조감을 해보고 또다른 분석방향을 모색해 보는 과정에 해당한다. 추론 통계는 바탕인 기술 통계량이 있어야 한다. 이 추론 통계를 하는 이유는 모든 사람을 대상으로 검사를 하는 것은 비합리적이고 대규모 집단을 가지고 연구하는 것이 소수의 집단을 가지고 연구하는 것보다 훨씬 경제적이고 효율적이기 때문이다. 추론 통계는 기술 통계량의 정확성을 유지하는 작업으로서 사용한다. 보통 일반적인 추론은 실험 결과가 기존의 방식, 또는 다른 품종간 비교 등에서 차이점이 유의한지를 검증하는 것이다.

 

 

 

통계적 자료의 구분

R과 함께하는 통계학의 이해 - 저자 최용석

  • 질적이란 개체인 측정대상이 어느 범주(남자, 여자 or 흡연자, 비흡연자 등등)에 들어가는지를 나타내며 이를 분류 자료, 범주형 자료(categorical data) 또는 정성적 자료(qualitative data)라고도 한다.

  • 양적 자료에서 키와 몸무게와 같이 관측값들이 셀 수 없는 연속적인 구간의 값을 취 하는 경우를 수치적 자료(Numerical data), 연속형 자료(continuous data) 또는 정량적 자료(quantitative data)라고도 한다.

    • 순위형 자료(odinal data)는 범주가 순서상 의미가 있는 자료이다. (ex: 운동량(1=많음, 2=보통, 3=적음))

    • 명목형 자료(nominal data)는 성별, 흡연, 달리기(1=달리기를 한 사람, 2=달리기를 하지 않은 사람) 등 수치가 단지 구분하기 위한 것이다.

 


 

  • 확률변수는 변수 x가 취할 수 있는 모든 값에 대해 이들 값을 취할 확률이 정해져 있을 때, 이 변수 x를 확률변수하고 한다.

    • 이산 확률변수 - 어떤 구간 안에서 취할 수 있는 값이 특정되면 이산 확률 변수 (ex: 주사위를 던졌을 때 나올 수 있는 값은 1, 2, ,3, 4, 5, 6)

    • 연속 확률변수 - 어떤 구간 안에 있는 모든 값을 취할 수 있으면 연속 확률 변수 (ex: 어느 집단에서 키나 몸무게를 측정했을 때 나올 수 있는 값들)

  • 모집단(population)은 관측 대상이 되는 전체 집단이다. 조사의 대상이 되는 자료 전체이다. 

    • 모수는 모집단의 특성을 나타내는 수치

    • 비모수 통계는 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법이다.

  • 표본(sample)은 모 집단에서 일부만 조사한 것이다. 모집단에서 추출된 자료의 집합이다.

    • 통계량은 표본의 특성을 나타내는 수치

  • 대푯값(representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값이 있다.

  • 평균(mean)은 데이터를 모두 더한 후 데이터의 개수로 나눈 값이다.

  • 중앙값(median) 혹은 중위수는 전체 데이터를 크기순으로 나열했을 때 가장 가운데에 있는 수이다.

    • 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.

  • 사분위수(quartile)는 자료를 크기 순으로 정렬했을 때, 누적 백분율을 4등분한 각 점에 해당하는 값이다.

    •  제1사분위수는 누적 백분율이 25%에 해당하는 값이고, 제2사분위수는 누적 백분율 50%, 제3사분위수는 75%, 제4사분위수는 100%에 해당하는 값이다. 이 중 제2사분위수는 누적 백분율 50%이므로 개념적으로 중앙값과 동일하다.

  • 최빈값(mode)은 가장 자주 나오는 값이다.

  • 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.

  • 산포도(degree of scattering)는 자료가 흩어져 있는 정도를 나타낸다. 범위, 분산, 표준편차 등.

  • 편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.

  • 분산(variance)은 자료가 얼마나 퍼져 있는지를 알려주는 수치이다. 

    • 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

    • 분산은 음의 값을 가질 수 없으며 분산이 크면 클수록 확률분포는 평균에서 멀리 퍼져 있고, 0에 가까워질수록 평균에 집중된다.

  • 표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.

 


 

  • 변인 (variable): 변수라고도 부르며, 연구의 대상이 되고 있는 일련의 개체를 말한다.

  • 독립 변인: 다른 변인에게 작용하거나 다른 변인을 예언하거나 설명해 주는 변인. 실험연구의 경우는 독립변인은 실험자에 의하여 임의로 통제되고 조작된다. 따라서 실험변인(experimental variable) 또는 처치변인(處置變因, treatment variable)이라고도 한다.

  • 종속 변인: 독립변인의 조작결과(操作結果)에 의존하며 이의 효과를 판단하는 준거가 되는 변인.

    실험의 기본적인 형태는 어떤 변인이 다른 어떤 변인에 어떠한 영향을 미치는지를 알아보고자 한다.

  • 양적 변인: 양의 크기를 나타내기 위하여 수량으로 표시돠는 변인

  • 질적 변인: 변인이 가지고 있는 속성을 수량화할 수 없는 변인

  • 연속 변인: 주어진 범위 내에서는 어떤 값도 가질 수 있는 변인

  • 비연속 변인: 특정 수치만을 가진 변인

 


 

  편차는 관측치(개별 데이터값)과 평균과의 차이이다. 편차로 자료들이 평균으로부터 얼마나 떨어져있는지 확인 할 수 있다. 이렇게 모은 각 자료들의 편차로 전체 자료의 편차의 평균을 구하고 싶지만 불가능하다. 

  예를 들어 다음 자료에서 편차의 평균을 구하고자 한다.

(평균=174.75) A B C D
170 176 165 188
편차값(데이터-평균) -4.75 1.25 -9.75 13.25

   계산해보면 편차의 합은 0이 나온다. 이는 편차값이 +뿐만이 아니라 -값도 나오기 때문이다. 그래서 분산이라는 방법을 사용하게 되는 것이다.

 

  분산은 편차를 제곱한 후 더해서 다시 전체 자료의 갯수로 나눈 것(편차의 제곱합의 평균값)이다. 제곱을 함으로써 -값을 없애므로 평균값을 낼 수 있는 것이다. 하지만 이렇게 되면 자료의 단위가 달라지게 된다. 경우에 따라서는 값이 비정상적으로 커져서 계산하기도 어려워진다. 때문에 분산에 제곱근을 씌우는 것이다. 이것이 표준편차값이 된다.  

 

  근데 표준편차는 따지고 보면 평균편차라고 볼 수 없다. 제대로된 평균 편차를 구하려면 개별 값을 절대값으로 바꾸고 평균을 내야 할 것 같은데 왜 표준 편차를 쓰는 것일까? 이는 분산이 수식계산이 편하기 때문이다. 만약 절대값 부호가 수식에 들어가게 되면 수식 처리 및 계산을 하는데 불편한 점이 많고 좀 더 복잡해진다. 그래서 계산이 쉽게 제곱 형식을 사용하는 것이다. 

 

 

 


참고 

1.  위키피디아

2.  네이버 지식백과

3.  https://drhongdatanote.tistory.com/36

 

 

 

Comments