본문 바로가기
Python/통계분석

[누구나 파이썬 통계분석]_Ch02.1차원 데이터 정리_정규화

by ssolLEE 2024. 1. 8.
반응형

파이썬으로 간단하게 통계 내용을 공부해보아요. 오늘부터 열심히 달려보겠습니다.

 

포스팅은 타니아이 히로키님의 '누구나 파이썬 통계 분석' 책의 내용을 실습한 것입니다. 

감사합니다.

소스코드와 데이터는 아래의 웹페이지에 공개되어 있습니다. 

- 한빛출판네트워크(https://www.hanbit.co.kr/support/supplement_list.html)

- 깃허브(https://github.com/ghmagazine/python_stat_sample)

 

2.3 데이터의 정규화

  • 어려운 시험에서 얻은 60점과 쉬운 시험에서 얻은 60점은 느낌이 다르죠? 
  • 수능 점수에도 쓰이는 표준점수는 시험 난이도를 고려하여 점수를 새로 산출한 것입니다. 
  • 데이터를 통일된 지표로 변환하는 것을 정규화(normalization)라고 합니다.
  • 정규화를 통해 다양한 데이터를 동일한 기준으로 다룰 수 있기 때문에 데이터를 분석할 때 정규화는 일반적으로 사용하는 수단이 됩니다. 

2.3.1 표준화

  • 표준화(standardization) : 데이터에서 평균을 빼고 표준편차로 나누는 작업
  • 표준화된 데이터를 표준화 변량 또는 Z 점수라고 합니다.
z = (scores - np.mean(scores) / np.std(scores))
z

  • 표준화된 데이터의 평균은 0, 표준편차는 1입니다.
np.mean(z), np.std(z, ddof=0)

 

2.3.2 편찻값

  • 편찻값은 평균이 50, 표준편차가 10이 되도록 정규화한 값입니다. 
z = 50 + 10*((scores - np.mean(scores)) / np.std(scores))
z

  • 이렇게 데이터프레임으로 나타내보았습니다. 
  • 편찻값이라는 지표를 통해 누가 우수한 성적을 얻었고 누가 평균에 가까운지 알 수 있습니다.

감사합니다.