basic4 [Pandas]_Pandas library basic (4) 날짜 데이터 / shift 두 날짜의 차이점은 뭘까? 다음 두 코드를 비교해봅시다. 왼쪽 코드는 날짜가 str타입으로, 오른쪽 코드는 날짜가 list타입으로 입력되어 있습니다. 그리고나서 datetime으로 바꾸어보니 타입이 각각 timestamps, datetimeindex로 다르네요. 시계열 자료는 인덱스가 날짜나 시간인 데이터입니다. pandas에서 시계열 자료를 이용하기 위해서는 datetimeindex여야 합니다. 다음과 같은 데이터를 준비합니다. 'datesold'의 데이터타입이 object로 나와있습니다. 이것을 datetime으로 바꾸겠습니다. sales['datesold']=pd.to_datetime(sales['datesold'] sales.info() 각각의 연도, 월, 일을 추출하여 새로운 컬럼으로 만들어봅시.. 2023. 8. 9. [Pandas]_Pandas library basic (3) 결측치를 어떻게 처리할까? 데이터 전처리 결측치 다루기 결측치는 영어로 missing value라고 합니다. 값이 없는 것이죠. null이라고 표현하기도 하고 NA, NAN이라고 하기도 합니다. 데이터 만들기 import pandas as pd import numpy as np np.random.seed(0) # 무작위로 숫자 추출하는데 첫 결과 고정. 실험조건을 동일하게 맞춰주기 위함 data = np.random.randint(0, 10, size=(10, 3)).astype(float) data 결측치 만들기 - 값이 3이하인 것은 nan 처리 하겠습니다. data[data < 3] = np.nan data data를 데이터프레임으로 바꾸겠습니다. 이때 컬럼명은 col1, col2, col3로 설정하겠습니다. 그리고 습관적으로 .info(.. 2023. 8. 9. [Pandas]_Pandas library basic (2) loc & iloc 의 차이는? loc와 iloc 위 두 문법은 기본적으로 Pandas에서 특정 행이나 열을 추출할 때 사용합니다. 1. loc location의 약자입니다. Pandas Docs에는 'Access a group of rows and columns by label(s) or a boolean array.'라고 되어 있습니다. 다시 말하면, 레이블 값으로 데이터프레임의 행이나 칼럼을 고를 수 있다는 것입니다. 우선 데이터를 불러옵니다. df_boston.head(1) 두 가지 방법이 있지만 두 번째 방법이 확장성측면(다른 열을 추가적으로 가져올 때 등)에서 더 편리합니다. # 첫 번째 방법 result = df_boston.loc[:3, 'CRIM' : 'INDUS'] result # 두 번째 방법 result = df_.. 2023. 8. 9. [Pandas]_Pandas library basic (1) I/O, 행과 열 추출 파일 입출력 하기 현재 경로 확인하기 import os os.getcwd() # 파일 현재 경로 파일 만들고 저장하기 import pandas as pd sample_df = pd.DataFrame({"col1" : [1, 2], "col2" : [3, 4]}) sample_df sample_df.to_csv("output/sample/test1.csv", index=False) 위의 마지막 줄에서 저장하고 싶은 경로로 선택하여 파일을 저장할 수 있습니다. 설정안하면 현재 경로에 파일이 생성됩니다. sample_df.to_csv("저장 경로/test1.csv", index=False) 파일 불러오기 data = pd.read_csv('./output/sample/test1.csv') print(data).. 2023. 8. 9. 이전 1 다음 반응형