통계
– 모집단: 관심 있는 모든 데이터의 집합
– 표본: 모집단에서 조사를 위해 선정된 일부 데이터 세트 –> 여론 조사, 품질 관리
매개변수 및 통계
– 매개변수: 모집단의 특성을 숫자로 나타낸 것
– 통계: 샘플의 속성을 숫자로 나타낸 것
데이터에 대한 이해
데이터가 많이 쌓이면 분산이 일어난다.
분포가 나타나는 이유는 결정해야 할 숫자 뒤에 어느 정도의 불확실성이 있기 때문입니다.
모집단에 대한 데이터에 표현된 고유한 특성의 반복을 분포의 특성이라고 합니다.
-- 상단광고 -->
통계의 필요성
평범한 사람들이 관찰하는 데이터는 단순한 숫자 목록일 뿐입니다.
그래서 우리는 데이터 자체, 분포의 특성 또는 반복에서 무언가를 유추할 방법이 필요합니다.
이 방법은 통계입니다.
환원이란 데이터로 나열된 많은 숫자를 일정한 기준에 따라 정리하여 의미 있는 정보만을 추출하는 것을 의미한다.
대표적인 축소 방법은 피처를 식별할 수 있도록 차트를 만들거나 단일 숫자로 피처를 표현하는 것입니다.
통계란 무엇인가
통계는 데이터의 특성을 단일 숫자로 요약한 것입니다.
요약하려는 데이터의 유사한 특성에 따라 여러 통계가 사용됩니다.
대표 통계 수치
평균
데이터는 수치적으로 분포되어 있는데, 이 분포에서 하나의 숫자를 모든 데이터를 나타내는 숫자로 선택하고 대부분 데이터의 평균값을 중심으로 분포되어 있습니다.
-- 상단광고_2 -->
중앙값
데이터의 중간점을 나타내기 위해 평균과 함께 자주 사용되는 대표 값입니다.
B. 거리의 중심선.
편차(관측값 – 평균)
각 데이터 조각이 평균값에서 얼마나 크거나 작은지를 나타냅니다.
분산의 특징은 모든 데이터의 분산의 합이 0이라는 것입니다.
분산(VARP)
데이터가 얼마나 널리 분포되어 있는지 평가하는 데 사용할 수 있는 통계입니다.
표준 편차(STDEV)
평균이 데이터의 분포를 나타내는 숫자라면 표준편차는 데이터가 대표값에서 얼마나 떨어져 있는지를 알려주는 통계다.
산포도
데이터가 대표값(평균/중앙값)에서 얼마나 떨어져 있는지를 나타냅니다.
예를 들어 모든 사람의 체중이 60kg인 경우 표본에 산점도가 없습니다.
이 경우 산점도는 산술적으로 0이고 히스토그램은 슬림합니다.
모든 사람의 무게가 다르다면 어떤 형태로든 분산된 분배를 관찰할 수 있습니다.
따라서 스프레드가 있는 데이터는 다른 분포를 반영할 수 있습니다.