일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 태블로
- 프롬프트 엔지니어링
- 프로젝트
- 클러스터링
- lambda
- 머신러닝
- data analyst
- GA4
- 서브쿼리
- Chat GPT
- pandas
- jd
- 기초프로젝트
- SQL
- 히트맵
- Python
- 시각화
- 크롤링
- streamlit
- da
- SQLD
- 팀프로젝트
- cross join
- If
- 기초통계
- 군집화
- 최종 프로젝트
- 전처리
- 데이터 분석
- 데이터분석
- Today
- Total
목록스케일링 (5)
세조목
머신러닝2024.05.07 - [데이터 분석 공부/머신러닝] - 머신러닝 심화 복습(결측치, 인코딩&스케일링)(24.05.07) 머신러닝 심화 복습(결측치, 인코딩&스케일링)(24.05.07)결측치표준편차가 크다 = 평균에서 벗어난 값들이 많다so 표준편차가 크다면 결측치를 평균값으로 대체하기보단 중앙값으로 대체하는게 낫다. ※ 범주형 데이터의 경우 최빈값으로 대체표준편eyeoftheworld1209.tistory.com2024.05.07 - [데이터 분석 공부/머신러닝] - 머신러닝 심화 복습(과적합)(24.05.07) 머신러닝 심화 복습(과적합)(24.05.07)과적합개념모형이 지나치게 복잡할 경우 데이터를 너무 많이(or 적게) 학습(=적합)해서특정 데이터의 예측만 할 수 있고, 다른 데이터는 예측..
결측치표준편차가 크다 = 평균에서 벗어난 값들이 많다 so 표준편차가 크다면 결측치를 평균값으로 대체하기보단 중앙값으로 대체하는게 낫다. ※ 범주형 데이터의 경우 최빈값으로 대체 표준편차가 큰지는 어떻게 알 수 있지?? → 평균값과 비교 - 평균값보다 표준편차가 크다면 데이터들이 평균값에서 많이 벗어나 있다는 의미임 결측치 확인.notna() → 결측치 없는 데이터만 확인 가능 .isna() → 결측치인 데이터만 확인 가능 결측치 처리from sklearn.impute import SimpleImputer si = SimpleImputer() si.fit(titanic_df[['Age']]) titanic_df['Age_si_mean'] = si.transform(titanic_df[['Age']]) #..
KNN K Nearest Neighbor 최근접 이웃이라는 의미다. 2024.02.02 - [데이터 분석 공부/머신러닝] - 머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) 머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) 목차 의사결정나무 랜덤 포레스트 KNN(최근접 이웃) 부스팅 알고리즘 1. 의사결정나무 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder from sklearn.tree impo eyeoftheworld1209.tistory.com 위 포스팅에 KNN ..
머신러닝 2024.02.01 - [데이터 분석 공부/머신러닝] - 머신러닝 - 전처리(인코딩, 스케일링)(24.02.01) 머신러닝 - 전처리(인코딩, 스케일링)(24.02.01) 전처리(인코딩 & 스케일링) 인코딩이란 모델이 처리하기 쉬운 값으로 기존 값을 바꾸는 것을 의미한다. 범주형 데이터(Encoding) 레이블 인코딩(Label Encoding) One-Hot Encoding 수치형 데이터(Scaling) 표준 eyeoftheworld1209.tistory.com 2024.02.01 - [데이터 분석 공부/머신러닝] - 머신러닝 - 데이터 분리(feat. 과적합)(24.02.01) 머신러닝 - 데이터 분리(feat. 과적합)(24.02.01) 1. 과(대)적합 과대적합이란 데이터를 너무 과도하게..