일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 팀프로젝트
- 기초프로젝트
- SQL
- Chat GPT
- 최종 프로젝트
- jd
- 프로젝트
- Python
- GA4
- streamlit
- 데이터 분석
- 시각화
- 클러스터링
- 전처리
- If
- SQLD
- 태블로
- 프롬프트 엔지니어링
- 크롤링
- 기초통계
- 군집화
- data analyst
- 서브쿼리
- 히트맵
- lambda
- pandas
- cross join
- 머신러닝
- 데이터분석
- da
- Today
- Total
목록데이터 분석 공부/머신러닝 (16)
세조목
1. 과(대)적합과대적합이란 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상 을 의미한다.위 이미지의 첫번째 경우가 과(대)적합의 예시인데 주어진 데이터를 너무 과도하게 학습한 결과 위 예시와 같은 경우의 문제는 잘 맞추지만 나머지 문제들은 예측(or 분류)할 수 없게된다. 과(대)적합이 있다면 과(소)적합도 있을텐데 위 이미지의 가장 오른쪽 예시가 과(소)적합에 해당한다. 과(대)적합이 주어진 데이터를 너무 과도하게 학습한 결과라면 과(소)적합은 반대로 주어진 데이터를 충분히 학습하지 못함에 따른 결과다. 데이터가 충분하지 않거나, 모형이 지나치게 단수할 때 이런 과(소)적합이 발생한다. 2. 데이터 분할어떻게 이 문제를 해결할 수 있..
전처리(인코딩 & 스케일링) 인코딩이란 모델이 처리하기 쉬운 값으로 기존 값을 바꾸는 것을 의미한다. 범주형 데이터(Encoding) 레이블 인코딩(Label Encoding) One-Hot Encoding 수치형 데이터(Scaling) 표준화(Standardization) 정규화(Normalization) 로버스트 스케일링(Robus Scaling) 범주형 데이터(Encoding) 레이블 인코딩(Lable Encoding) One-Hot Encoding 1. 레이블 인코딩(Label Encoding) 먼저 레이블 인코딩이다. 레이블 인코딩은 간단하게 기존값을 '수치형'으로 변환시켜줘서 모델이 처리하기 쉽게 만들 수 있다. 다만 변경된 값의 순서간 크기에 의미가 부여되어 모델이 잘못 해석할 여지가 있다는..
1. 데이터 불러오기 titanic_df = pd.read_csv('경로', encoding = 'utf-8') * encoding의 경우 필요한 경우에만 2. 독립변수, 종속변수 지정 X = titanic_df[['Fare']] >> 클래스 종류 [0 1] 독립변수 갯수 1 들어간 독립변수(x)의 이름 ['Fare'] 가중치 [[0.01519617]] 바이어스 [-0.94129222] 7. 분류평가지표(정확도 & f1 score) 확인하기 from sklearn.metrics import accuracy_score, f1_score def get_metrics(true, pred): print('정확도', accuracy_score(true, pred)) print('f1_score', f1_score..
단순선형회귀 1. LinearRegression 함수 가져오기 from sklearn.linear_model import LinearRegression 2. 독립변수, 종속변수 준비 X = body_df[['weight']] y = body_df[['height']] 3. 학습시키기 model_lr = LinearRegression() model_lr.fit(X=X, y=y) 4. 가중치 & 편향 구하고 변수에 넣기 w1 = model_lr.coef_[0][0] >> array([[184.40385835], [179.22878362], [180.09129608], [188.71642061], [186.99139571], [161.97853455], [183.54134589], [166.29109682],..