pandas13 [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(5)_Pivot/Merge, Concat https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! 이번 시간에는 정말정말 중요한 Pivot 에 대해 연습하겠습니다. 회사원 친구에게도 들었는데, 데이터 관련 전공을 하지 않더라고 실무에 필요한 부분이라고 하더라구요. 우리 모두 화이팅!! Pivot 이런 데이터프레임입니다. Indicator 컬럼을 삭제하고 First Tooltip 컬럼에서 신뢰구간에 해당하는 표현을 지우기 df.drop('Indicator', axis=1, inplace=True) df['First Tooltip'] = df['First .. 2023. 10. 18. [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(4)_Time_Series https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! 이번 시간은 시계열 데이터(주가 데이터)를 가지고 연습하겠습니다. Time_Series Yr_Mo_Dy 컬럼을 datetime64 타입으로 변경하기 직관적인 코드! pd.to_datetime()를 사용합니다. df['Yr_Mo_Dy'] = pd.to_datetime(df['Yr_Mo_Dy']) df.info() Yr_Mo_Dy 에 존재하는 연도의 유일값을 모두 출력하기 datetime64에서 연도를 보고 싶을 땐 dt.year를 사용합니다. dt.month.. 2023. 10. 17. [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(3)_apply, map https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! APPLY, MAP apply(), map()은 모두 데이터 프레임에 함수를 적용하는 메서드입니다. 따라서 lambda와도 자주 사용합니다. apply()는 Series, 데이터프레임의 행, 열 등에 모두 사용이 가능합니다. map()은 Series에만 사용이 가능합니다. Income_Category의 카테고리를 map함수를 이용하여 다음과 같이 변경하여 newIncome 컬럼에 매핑하기 Unknown : N Less than $40K : a $40K~$6.. 2023. 10. 15. [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(2)_groupby https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! GROUPING host_name 컬럼에서 각 host_name의 빈도수를 구하고 host_name으로 정렬하여 상위 5개 출력하기 groupby('컬럼명').size() : 컬럼의 각 unique value끼리 묶어 주는 것(grouping)이 groupby()입니다. size()는 묶어준 각 group의 요소들의 count(size)를 계산하여 Series로 반환합니다. df.groupby('host_name').size().head() 또는 df.ho.. 2023. 10. 12. [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(1)_data기본처리 https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! 데이터 불러오고 파악하기 '\t'를 기준으로 구분되어 있는 데이터를 로드하기 sep = '\t' 쓰는 것 잊지 마세요!!! 구분자(separator)가 있을 경우에 사용하는 옵션입니다. import pandas as pd df = pd.read_csv('경로/데이터.csv', sep = '\t') 컬럼이 한글일 경우 encoding 옵션을 넣어줍니다. encoding = 'euc-kr' url = 'https://raw.githubusercontent.co.. 2023. 10. 11. [Visualization]_데이터 변환-그래프로 확인하기 데이터 분석에 앞서, 우리는 여러 경로로 수집한 데이터를 변환하는 과정이 필요합니다. 우리가 수집한 데이터는 말 그래도 raw data이기 때문에 잘 정리되어 있는 상태가 아닙니다. 전처리 과정이 필요하고, 전처리 후에는 해석을 위해 적절한 형태로 변환하여야 합니다. 우리는 적절하게 데이터를 변환하여 수집한 자료를 누구나 보기 쉽게 해석할 수 있도록 할 수 있습니다. 데이터 변환의 목적은 다음과 같이 제시할 수 있습니다. 데이터의 분포를 대칭적으로 만든다.(정규분포의 모양) 산포를 비슷하게 한다. 변수 간의 관계를 단순화한다. 데이터 변환 유형은 다음과 같습니다. 제곱근 변환 제곱 변환 로그 변환 지수 변환 그래프로 확인해볼까요? ChatGPT의 도움으로 우선 정규분포 모양의 그래프를 그립니다. impo.. 2023. 8. 30. [Crawling]_서울열린데이터광장에서 API로 데이터 수집하기 오늘은 '서울열린데이터광장'에서 데이터를 가져와 가공하는 연습을 하겠습니다. 서울열린데이터광장? 서울열린데이터광장은 서울시 시정활동 과정에서 수집된 다양한 데이터를 공유하는 곳입니다. 누구나 무료로 데이터를 이용하고, 재사용할 수 있습니다. 데이터에 대한 라이선스 정보도 함께 게시하고 있습니다. 데이터 수집 및 가공하는 실습을 진행하기 너무나도 좋은 우리나라입니다. ㅎㅎㅎ 데이터 수집 전 필수로 할 일! 인증키 발급 API로 데이터를 가져오기 위해서는 인증키가 꼭 있어야 합니다. 우선 우리가 실습할 데이터를 검색하겠습니다. 거기서 인증키를 발급받을 수 있어요! '서울시 공동주택 아파트 정보'를 검색합니다. 스크롤을 조금 내리다보면 Open API 항목이 보입니다. 클릭! 오른쪽 위에 '인증키 신청'을 누.. 2023. 8. 15. [Pandas]_Pandas library basic (4) 날짜 데이터 / shift 두 날짜의 차이점은 뭘까? 다음 두 코드를 비교해봅시다. 왼쪽 코드는 날짜가 str타입으로, 오른쪽 코드는 날짜가 list타입으로 입력되어 있습니다. 그리고나서 datetime으로 바꾸어보니 타입이 각각 timestamps, datetimeindex로 다르네요. 시계열 자료는 인덱스가 날짜나 시간인 데이터입니다. pandas에서 시계열 자료를 이용하기 위해서는 datetimeindex여야 합니다. 다음과 같은 데이터를 준비합니다. 'datesold'의 데이터타입이 object로 나와있습니다. 이것을 datetime으로 바꾸겠습니다. sales['datesold']=pd.to_datetime(sales['datesold'] sales.info() 각각의 연도, 월, 일을 추출하여 새로운 컬럼으로 만들어봅시.. 2023. 8. 9. [Pandas]_Pandas library basic (3) 결측치를 어떻게 처리할까? 데이터 전처리 결측치 다루기 결측치는 영어로 missing value라고 합니다. 값이 없는 것이죠. null이라고 표현하기도 하고 NA, NAN이라고 하기도 합니다. 데이터 만들기 import pandas as pd import numpy as np np.random.seed(0) # 무작위로 숫자 추출하는데 첫 결과 고정. 실험조건을 동일하게 맞춰주기 위함 data = np.random.randint(0, 10, size=(10, 3)).astype(float) data 결측치 만들기 - 값이 3이하인 것은 nan 처리 하겠습니다. data[data < 3] = np.nan data data를 데이터프레임으로 바꾸겠습니다. 이때 컬럼명은 col1, col2, col3로 설정하겠습니다. 그리고 습관적으로 .info(.. 2023. 8. 9. [Pandas]_Pandas library basic (2) loc & iloc 의 차이는? loc와 iloc 위 두 문법은 기본적으로 Pandas에서 특정 행이나 열을 추출할 때 사용합니다. 1. loc location의 약자입니다. Pandas Docs에는 'Access a group of rows and columns by label(s) or a boolean array.'라고 되어 있습니다. 다시 말하면, 레이블 값으로 데이터프레임의 행이나 칼럼을 고를 수 있다는 것입니다. 우선 데이터를 불러옵니다. df_boston.head(1) 두 가지 방법이 있지만 두 번째 방법이 확장성측면(다른 열을 추가적으로 가져올 때 등)에서 더 편리합니다. # 첫 번째 방법 result = df_boston.loc[:3, 'CRIM' : 'INDUS'] result # 두 번째 방법 result = df_.. 2023. 8. 9. 이전 1 2 다음 반응형