Python45 [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(3)_apply, map https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! APPLY, MAP apply(), map()은 모두 데이터 프레임에 함수를 적용하는 메서드입니다. 따라서 lambda와도 자주 사용합니다. apply()는 Series, 데이터프레임의 행, 열 등에 모두 사용이 가능합니다. map()은 Series에만 사용이 가능합니다. Income_Category의 카테고리를 map함수를 이용하여 다음과 같이 변경하여 newIncome 컬럼에 매핑하기 Unknown : N Less than $40K : a $40K~$6.. 2023. 10. 15. [ML]_분류 모형의 평가 지표 - Confusion Matrix, ROC 곡선 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 머신러닝 모델은 여러 가지 방법으로 예측 성능을 평가할 수 있습니다. 일반적으로 모델이 분류/회귀이냐에 따라서 여러 종류로 나뉩니다. 회귀 - 대부분 실제값과 예측값의 오차 평균값에 기반 분류 - 단순히 정확도만으로 판단하면 잘못된 평가 결과에 빠질 수 있습니다. 분류는 결정 클래스 값 종류의 유형에 따라 긍정/부정과 같은 2개의 결괏값만을 가지는 이진 분류와 여러 개의 결정 클래스 값을 가지는 멀티 분류로 나뉠 수 있습니다. 앞으로 언급할 분류의 성능 지표는 이진/멀티 분류 모두에 적용되는 지표지만 특히 이진 분류에서 더욱 중요하게 강조하는 지표입니다. 분류 모형의 평가 지표에는 Confusion Matrix, ROC 곡선.. 2023. 10. 14. [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(2)_groupby https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! GROUPING host_name 컬럼에서 각 host_name의 빈도수를 구하고 host_name으로 정렬하여 상위 5개 출력하기 groupby('컬럼명').size() : 컬럼의 각 unique value끼리 묶어 주는 것(grouping)이 groupby()입니다. size()는 묶어준 각 group의 요소들의 count(size)를 계산하여 Series로 반환합니다. df.groupby('host_name').size().head() 또는 df.ho.. 2023. 10. 12. [빅분기실기]_작업형 1유형 까먹을 것 같은 것 정리하기!(1)_data기본처리 https://www.datamanim.com/dataset/99_pandas/pandasMain.html 를 참고하였습니다. 감사합니다. 익숙한 줄 알았던 Pandas를 다시 해보니 가물가물합니다. 꾸준한 노력, 연습만이 합격!을 가져올 것입니다!! 데이터 불러오고 파악하기 '\t'를 기준으로 구분되어 있는 데이터를 로드하기 sep = '\t' 쓰는 것 잊지 마세요!!! 구분자(separator)가 있을 경우에 사용하는 옵션입니다. import pandas as pd df = pd.read_csv('경로/데이터.csv', sep = '\t') 컬럼이 한글일 경우 encoding 옵션을 넣어줍니다. encoding = 'euc-kr' url = 'https://raw.githubusercontent.co.. 2023. 10. 11. [ML]_타이타닉 생존자 예측하기(kaggle data 사용) 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. kaggle kaggle은 오픈된 데이터를 기반으로 누구나 자신의 데이터 분석 실력을 보여줄 수 있는 포털입니다. 저도 코드 공부할때 많이 참고합니다. 여기서 제공하는 유명한 데이터 셋 중에 타이타닉 생존자 데이터가 있습니다. 이번 포스팅에서는 사이킷런으로 타이타닉 생존자를 예측해보겠습니다. 데이터 다운로드 https://www.kaggle.com/c/titanic/data 에 접속하여 데이터를 다운로드합니다. 여러분들이 사용하는 주피터 노트북이나 코랩 등에 데이터를 저장합니다. 저는 train.csv / test.csv / gender_submission.csv로 저장하였습니다. 라이브러리 및 데이터 불러오기 import .. 2023. 10. 3. [ML]_Feature Scaling : 변수 값의 범위 맞추기 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. Feature Scaling Feature Scaling : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 표준화(Standardization) : 데이터의 피처 각각을 평균 0, 분산 1인 가우시안 정규 분포를 가진 값으로 변환 정규화(Normalization) : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환 사이킷런의 전처리에서 제공하는 Normalizer 모듈과 일반적인 정규화는 약간 차이가 있습니다. Normalizer 모듈 - 선형대수에서의 정규화 개념 → 개별 벡터의 크기를 맞추기 위해 변환(개별 벡터를 모든 피터 벡터의 크기로 나눠줍니다.) 용어를 다음과 같이 지칭하겠습니다. 피처 스케일링 - .. 2023. 10. 1. [Streamlit]_잘 만들었으면 자랑해야지! 웹 배포하기 나의 웹에 대한 고정관념(아무나 못해, 어려워, 난 예쁘게 못만들거야.....뭐든 나에 대해 부정부정한 말들)은 Streamlit을 알게 된 전 후로 나뉠 것 같습니다. 말은 이렇게 해도 Streamlit도 그렇게 쉽진 않아요. 다만 Django보다 편합니다. Django도 꾸준히 공부할거에요! 하지만 우선은 Streamlit을 익숙하게 해볼게요. 오늘은 Streamlit에서 만든 앱을 배포하는 것을 실습해보겠습니다. 잘 만든 건 자랑해야 뿌듯뿌듯하죠! 오늘 실습은 Streamlit을 가입하고, 깃헙 연동을 한 상태여야 합니다! 이왕이면 깃헙 2차 인증까지 완료해주세요! GitHub repository 생성 레포지토리를 생성합니다. 배포용이니 public, 사용언어는 python을 선택합니다. GitHu.. 2023. 9. 7. [DL]_텐서 + 텐서 = ????????? - 브로드캐스팅 딥러닝에 대해서 공부할 때에는 다음의 책과 함께 했습니다. 챕터 1에서는 인공지능과 머신러닝, 그리고 딥러닝에 대한 자세한 설명과 흐름을 얘기해주어 비교적 친숙하게 학습을 시작할 수 있었습니다. 감사합니다! 저번 포스팅에서 행렬의 형태를 가진 텐서에 대해서 알아보았습니다. 행렬로 연산할 수 있는 것처럼, 우리는 텐서에 적용되는 연산을 오늘 함께 실습해보겠습니다. 쉽게 말하면 덧셈, 뺄셈을 해본다는 것입니다. 그럼 시작해볼까요? 원소별 연산 원소별 연산을 구현해보겠습니다. relu 연산입니다. relu 함수는 입력이 0보다 크면 입력을 그대로 반환하고, 0보다 작으면 0을 반환합니다. relu(x) = max(x, 0) # relu 연산 def naive_relu(x): assert len(x.shape).. 2023. 8. 31. [Visualization]_데이터 변환-그래프로 확인하기 데이터 분석에 앞서, 우리는 여러 경로로 수집한 데이터를 변환하는 과정이 필요합니다. 우리가 수집한 데이터는 말 그래도 raw data이기 때문에 잘 정리되어 있는 상태가 아닙니다. 전처리 과정이 필요하고, 전처리 후에는 해석을 위해 적절한 형태로 변환하여야 합니다. 우리는 적절하게 데이터를 변환하여 수집한 자료를 누구나 보기 쉽게 해석할 수 있도록 할 수 있습니다. 데이터 변환의 목적은 다음과 같이 제시할 수 있습니다. 데이터의 분포를 대칭적으로 만든다.(정규분포의 모양) 산포를 비슷하게 한다. 변수 간의 관계를 단순화한다. 데이터 변환 유형은 다음과 같습니다. 제곱근 변환 제곱 변환 로그 변환 지수 변환 그래프로 확인해볼까요? ChatGPT의 도움으로 우선 정규분포 모양의 그래프를 그립니다. impo.. 2023. 8. 30. [ML]_데이터 전처리 >> 데이터 인코딩(Label & One-Hot) 이 공부는 다음 멋진 책과 함께 합니다. 위키북스와 저자님 너무나도 감사합니다. 데이터에 대해서 공부하면서 느낀 점이 있습니다. 데이터만 "멀쩡"하면, 우선 시작은 할 수 있겠다!!!! 하지만 생각보다 "멀쩡"한 데이터는 많이 없습니다. 일부 데이터값이 없는 경우도 꽤 있었습니다. 이럴 땐 어떻게 해야 할까요? 무작정 없앨까요? 아니면 적당히 모른척 값을 채워넣어볼까요?(ㅎㅎ) 이미 탐색적 데이터 분석(EDA)을 하며 이러한 데이터값을 처리하는 것을 경험하셨을 것입니다. 우리는 머신러닝을 하는 만큼, 머신러닝에서 주의해야할 것을 알아야겠죠? 사이킷런의 머신러닝 알고리즘은 문자열 값을 입력값으로 허용하지 않기 때문에, 모든 문자열 값은 인코딩되어서 숫자 형으로 변환해야 합니다. 우리는 이번 포스팅에서 인코.. 2023. 8. 28. 이전 1 2 3 4 5 다음 반응형