본문 바로가기

Python30

[빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(2)_groupby https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! GROUPING host_name 컬럼에서 각 host_name의 빈도수를 구하고 host_name으로 정렬하여 상위 5개 출력하기 groupby('컬럼명').size() : 컬럼의 각 unique value끼리 묶어 주는 것(grouping)이 groupby()입니다. size()는 묶어준 각 group의 요소들의 count(size)를 계산하여 Series로 반환합니다. df.groupby('host_name').size().head() 또는 df.ho.. 2023. 10. 12.
[빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(1)_data기본처리 https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! 데이터 불러오고 파악하기 '\t'를 기준으로 구분되어 있는 데이터를 로드하기 sep = '\t' 쓰는 것 잊지 마세요!!! 구분자(separator)가 있을 경우에 사용하는 옵션입니다. import pandas as pd df = pd.read_csv('경로/데이터.csv', sep = '\t') 컬럼이 한글일 경우 encoding 옵션을 넣어줍니다. encoding = 'euc-kr' url = 'https://raw.githubusercontent.co.. 2023. 10. 11.
[ML]_데이터 전처리 >> 데이터 인코딩(Label & One-Hot) 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 데이터에 대해서 공부하면서 느낀 점이 있습니다. 데이터만 "멀쩡"하면, 우선 시작은 할 수 있겠다!!!! 하지만 생각보다 "멀쩡"한 데이터는 많이 없습니다. 일부 데이터값이 없는 경우도 꽤 있었습니다. 이럴 땐 어떻게 해야 할까요? 무작정 없앨까요? 아니면 적당히 모른척 값을 채워넣어볼까요?(ㅎㅎ) 이미 탐색적 데이터 분석(EDA)을 하며 이러한 데이터값을 처리하는 것을 경험하셨을 것입니다. 우리는 머신러닝을 하는 만큼, 머신러닝에서 주의해야할 것을 알아야겠죠? 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않기 때문에, 모든 문자열 값은 인코딩되어서 숫자 형으로 변환해야 합니다. 우리는 이번 포스팅에서 인코.. 2023. 8. 28.
[ML]_하이퍼 파라미터 튜닝(GridSeachCV) 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. GridSeachCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에 결정 트리 알고리즘의 여러 가지 최적화 파라미터를 순차적으로 적용해 붓꽃 데이터를 예측 분석하는 데 GridSeachCV를 이용해보겠습니다. from sklearn.datasets import load_iris # 예제 데이터 불러오기 from sklearn.tree import DecisionTreeClassifier # 결정트리 머신러닝 알고리즘 중 하나 from sklearn.model_selection import train_test_split # 훈련 데이터 / 테스트 데이터 from sklearn.metrics import accuracy_.. 2023. 8. 27.
[ML]_파라미터도 있는데 하이퍼 파라미터는 또 뭐야? 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 분석 모형을 선정하고 나면 모형에 적합한 변수를 선택하여야 합니다. 이때 우리는 Parameter(매개변수)와 Hyper Parameter(초매개변수)를 선정하여야 합니다. 이 둘에 대해 한 번 알아보겠습니다. Parameter(매개변수) 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값 예측을 수행할 때 모델에 의해 요구되어지는 값들 parameter가 모델의 성능을 결정 parameter는 측정되거나 데이터로부터 학습 사람에 의해 수작업으로 측정되지 않음(임의로 조정 불가) 종종 학습된 모델의 일부로 저장 예 인공신경망에서의 가중치 서포트 벡터 머신에서의 서포트 벡터 선형 회귀나 로지스틱 회귀 분석에서.. 2023. 8. 27.
[ML]_머신러닝에서의 교차 검증 - K 폴드 vs. Stratified K 폴드 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 교차 검증 교차 검증은 데이터 편중을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행하는 것입니다. 머신러닝에서 사용되는 데이터 세트를 학습 데이터와 테스트 데이터로 나눕니다. 학습 데이터 세트를 다시 분할하여, 학습 데이터 세트와 학습된 모델의 성능을 일차 평가하는 검증 데이터 세트로 나눕니다. 모든 학습/검증 과정이 완료된 후 테스트 데이터 세트로 최종적으로 성능을 평가합니다. 데이터가 적을 때 사용합니다. K 폴드 교차 검증 데이터 샘플링에서 생길 수 있는 이슈를 줄이고자 학습과 검증 평가를 반복적으로 수행하는 것입니다. 사이킷런에서는 K 폴드 교차 검증 프로세스를 구현.. 2023. 8. 22.
[ML]_머신 러닝의 시작, 사이킷런 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 이번 포스팅에서는 머신러닝을 수행할 때 자주 만나는 친구들(?)의 정체를 밝혀보겠습니다. 머신러닝의 코드를 하나 하나 음미할 수 있는 포스팅이 되길 바랍니다! 모델 학습 & 예측 메서드 모든 사이킷런 클래스에서 머신러닝 모델 학습을 위해서 fit()을, 학습된 모델의 예측을 위해서는 predict() 메서드를 사용합니다. 사이킷런에서는 분류 알고리즘을 구현한 클래스를 Classifier로, 회귀 알고리즘을 구현한 클래스를 Regressor로 지칭합니다. 사이킷런에서는 매우 많은 유형의 Classifier와 Regressor 클래스를 제공합니다. Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부릅.. 2023. 8. 22.
[ML]_붓꽃 품종 예측하기 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 이 책은 코드와 자세한 설명이 함께 있어 찬찬히 한 장 한 장 넘기며 공부하기 좋습니다. 맨 앞 챕터에서는 파이썬의 기본 문법과 라이브러리에 대한 예제 코드도 함께 나와 있습니다. **분류**하기 우리는 붓꽃 데이터셋으로 붓꽃의 품종을 분류할 것입니다.(Classification) 붓꽃 데이터셋은 꽃잎의 길이와 너비(Sepal length, Sepal width), 꽃받침의 길이와 너비(Petal length, Petal width)로 붓꽃의 품종(Setosa, Vesicolor, Virginica)를 예측할 것입니다. 이때, 꽃잎의 길이와 너비, 꽃받침의 길이와 너비를 피처(feature), 붓꽃의 품종을 레이블(label.. 2023. 8. 21.
[ML]_머신러닝, 같이 할래요? 머신러닝? 내가 그걸 어떻게 알아? 몇 년 전에 처음 '머신러닝'이란 말을 들었을 때에는 너무나 단순하게 단어만 있는 그대로 해석하고 으잉? 했었습니다. 전 그랬습니다. ㅎㅎ 지금은 '머신러닝'이라는 단어는 굉장히 익숙하고 대략적으로 뭔지는 압니다. 기계학습. 뭔가 인공지능 같고 그런 것. 근데 나는 못하는 것 이렇게만 생각했는데 이제 머신러닝이 뭔지 맛 좀 제대로 보려고 합니다. 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 이 책은 코드와 자세한 설명이 함께 있어 찬찬히 한 장 한 장 넘기며 공부하기 좋습니다. 맨 앞 챕터에서는 파이썬의 기본 문법과 라이브러리에 대한 예제 코드도 함께 나와 있습니다. 그래서 머신러닝이 뭔데?? 일반적으로는 애플리케이션을 수정하지 않고.. 2023. 8. 17.
[Streamlit]_쉽고 예쁘게 웹을 꾸밀 수 있다고!? - All about **Columns**(1) Streamlit 포스팅은 BOOKK에서 발간한 "Streamlit으로 프로젝트 한방에 끝내기 with 파이썬"이라는 책을 참고하여 저의 공부 내용을 올립니다. 저자님께 감사드립니다. 또한 streamlit doc의 코드도 일부 변형하였습니다. 감사합니다, Streamlit! st.column_config Column st.column_config 클래스는 데이터 표현이나 상호작용을 구성하는 강력한 도구입니다. st.dataframe이나 st.data_editor와 함께 쓰이면서 다양한 데이터 타입으로 컬럼을 조정할 수 있습니다. import pandas as pd import streamlit as st # column data_df = pd.DataFrame( { "widgets" : ["st.sel.. 2023. 8. 15.
반응형