일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 기초프로젝트
- 클러스터링
- 데이터 분석
- 히트맵
- cross join
- 머신러닝
- 프롬프트 엔지니어링
- 최종 프로젝트
- jd
- 전처리
- 데이터분석
- 팀프로젝트
- da
- If
- SQLD
- 프로젝트
- Chat GPT
- streamlit
- 태블로
- 군집화
- 크롤링
- 시각화
- SQL
- lambda
- 서브쿼리
- pandas
- 기초통계
- data analyst
- GA4
- Python
- Today
- Total
목록F1 score (2)
세조목
머신러닝예측숫자{(평균으로)회귀}범주/카테고리(분류)선형 회귀로지스틱 회귀선형 회귀를 차용해서 만든거라서 '회귀'가 붙음 다중공선성 제거 방법1. pair plot, 상관관계로 상관관계 확인 후 하나의 독립변수 제거2. PCA(차원축소) 로지스틱 회귀로지스틱 회귀 : 확률 예측 時 사용됨그림에서 확인할 수 있는대로 확률을 예측할 때는 선형회귀를 적용하는 것이 적절하지 않음그래서 0과 1에 수렴하는 Logistic Regression이 나왔음 오즈비 = p / 1-p ※ 오즈비의 경우 확률이 증가할수록 급격히 발산하기 때문에 사용이 적절하지 않음오즈비 + 로그 → 로짓(Logit) = log(p / 1-p) ※ 로그를 씌워주면 회귀모델로 사용하기에 적절하게 됨로지스틱 회귀의 임계값 → 0.5(0.5 넘으면..
1. 데이터 불러오기 titanic_df = pd.read_csv('경로', encoding = 'utf-8') * encoding의 경우 필요한 경우에만 2. 독립변수, 종속변수 지정 X = titanic_df[['Fare']] >> 클래스 종류 [0 1] 독립변수 갯수 1 들어간 독립변수(x)의 이름 ['Fare'] 가중치 [[0.01519617]] 바이어스 [-0.94129222] 7. 분류평가지표(정확도 & f1 score) 확인하기 from sklearn.metrics import accuracy_score, f1_score def get_metrics(true, pred): print('정확도', accuracy_score(true, pred)) print('f1_score', f1_score..