본문 바로가기
Python/통계분석

[누구나 파이썬 통계분석]_Ch01. 데이터_변수에 대하여

by ssolLEE 2024. 1. 3.
반응형

파이썬으로 간단하게 통계 내용을 공부해보아요. 오늘부터 열심히 달려보겠습니다.

 

포스팅은 타니아이 히로키님의 '누구나 파이썬 통계 분석' 책의 내용을 실습한 것입니다. 

감사합니다.

소스코드와 데이터는 아래의 웹페이지에 공개되어 있습니다. 

- 한빛출판네트워크(https://www.hanbit.co.kr/support/supplement_list.html)

- 깃허브(https://github.com/ghmagazine/python_stat_sample)

 

질적 변수, 양적 변수 / 이산형 변수, 연속형 변수

Ch1의 주어진 data는 다음과 같습니다. 

여기서 학년, 악력, 윗몸일으키기, 점수, 순위는 변수에 해당합니다. 

학생번호는 원래 변수에 속했지만 제가 인덱스로 설정하였기 때문에 우선 현재 변수에서는 빼겠습니다. 

 

1. 우선 변수는 질적 변수와 양적 변수로 나눌 수 있습니다. 

   1) 질적 변수 : 선택이 필요한 변수(좋음, 보통, 나쁨)이거나 종류를 구별하기 위한 변수(혈액형)입니다. 

   2) 양적 변수 : 양을 나타내기 위한 변수(시험점수, 신장)입니다.

 

2. 질적 변수는 명의 척도와 순서 척도, 양적 변수는 간격 척도와 비례 척도로 세분화할 수 있습니다. 

   1) 명의 척도 : 분류 목적(변수의 동일성 여부) / 학생번호, 전화번호, 성별

   2) 순서 척도 : 순서 관계나 대소 관계 / 성적 순위, 설문조사의 만족도

   3) 간격 척도 : 대소 관계 + 차이 / 연도, 온도

   4) 비례 척도 : 대소 관계, 차이, 비 / 길이, 무게

 

3. 또 다른 변수 나누는 기준으로는 이산형 변수와 연속형 변수가 있습니다. 

   1) 이산형 변수 : 0, 1, 2...와 같이 하나하나의 값을 취하는 변수. 서로 인접한 숫자 사이에 값이 존재하지 않음

   2) 연속형 변수 : 연속적인 값을 취할 수 있는 변수. 어떤 두 숫자 사이에도 반드시 숫자가 존재함

 

4. 이를 바탕으로 data의 변수를 다시 한 번 살펴 볼까요? 

   1) 학생번호: 이미 인덱스로 지정했지만 성격을 보겠습니다. 인덱스로 지정할만한 변수라는 건 바로 학생을 식별하는 목                          적이 있는 것이지요. 대소 관계는 전혀 의미가 없으므로 학생번호는 명의 척도에 해당합니다. 

    2) 학년: 학년은 순서 관계에 의미가 있고, 학년간의 간격이 일정하지 않으므로 순서 척도입니다.(책에는 간격 척도로 분                   류된다고 써있지만 제 생각과 다릅니다.) 또한 연속형 변수에 해당합니다. 1.1학년, 2.8학년으로 세지 않죠?

   3) 악력: 양을 나타내는 양적 변수에 속합니다. 0의 여부로 척도를 알 수 있습니다. 악력 0kg은 악력이 전혀 없음을 의미                    하므로, 학력은 비례 척도이며 연속형 변수입니다.

   4) 윗몸일으키기: 0회는 윗몸일으키기를 하지 않음을 의미하므로 비례 척도에 속합니다. 그리고 1회, 2회, 3회 등으로 횟                                수를 세므로 이산형 변수입니다. 

   5) 점수: 비례 척도에 속하지만, 이산형인지 연속형인지 판단하기는 어렵습니다. 점수는 정숫값만 취하므로 겉보기에는 명백히 

   6) 순위: 순서에 의미가 있으므로 순위 척도, 이산형 변수입니다. 

 

 

오늘은 변수의 성질에 대해 알아보았습니다. 

데이터를 분석의 질을 높이기 위해서는 변수에 대해 파악하는 것이 중요합니다. 

오늘도 감사합니다.