반응형
파이썬으로 간단하게 통계 내용을 공부해보아요. 오늘부터 열심히 달려보겠습니다.
포스팅은 타니아이 히로키님의 '누구나 파이썬 통계 분석' 책의 내용을 실습한 것입니다.
감사합니다.
소스코드와 데이터는 아래의 웹페이지에 공개되어 있습니다.
- 한빛출판네트워크(https://www.hanbit.co.kr/support/supplement_list.html)
- 깃허브(https://github.com/ghmagazine/python_stat_sample)
2.3 데이터의 정규화
- 어려운 시험에서 얻은 60점과 쉬운 시험에서 얻은 60점은 느낌이 다르죠?
- 수능 점수에도 쓰이는 표준점수는 시험 난이도를 고려하여 점수를 새로 산출한 것입니다.
- 데이터를 통일된 지표로 변환하는 것을 정규화(normalization)라고 합니다.
- 정규화를 통해 다양한 데이터를 동일한 기준으로 다룰 수 있기 때문에 데이터를 분석할 때 정규화는 일반적으로 사용하는 수단이 됩니다.
2.3.1 표준화
- 표준화(standardization) : 데이터에서 평균을 빼고 표준편차로 나누는 작업
- 표준화된 데이터를 표준화 변량 또는 Z 점수라고 합니다.
z = (scores - np.mean(scores) / np.std(scores))
z
- 표준화된 데이터의 평균은 0, 표준편차는 1입니다.
np.mean(z), np.std(z, ddof=0)
2.3.2 편찻값
- 편찻값은 평균이 50, 표준편차가 10이 되도록 정규화한 값입니다.
z = 50 + 10*((scores - np.mean(scores)) / np.std(scores))
z
- 이렇게 데이터프레임으로 나타내보았습니다.
- 편찻값이라는 지표를 통해 누가 우수한 성적을 얻었고 누가 평균에 가까운지 알 수 있습니다.
감사합니다.
'Python > 통계분석' 카테고리의 다른 글
[누구나 파이썬 통계분석]_Ch02.1차원 데이터 정리_시각화 (1) | 2024.01.13 |
---|---|
[누구나 파이썬 통계분석]_Ch02.1차원 데이터 정리_도수분포표 (0) | 2024.01.11 |
[누구나 파이썬 통계분석]_Ch02.1차원 데이터 정리_산포도 지표 (1) | 2024.01.08 |
[누구나 파이썬 통계분석]_Ch02. 1차원 데이터 정리_대푯값 (1) | 2024.01.05 |
[누구나 파이썬 통계분석]_Ch01. 데이터_변수에 대하여 (2) | 2024.01.03 |