일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 머신러닝
- pandas
- data analyst
- 시각화
- SQL
- da
- Python
- 기초프로젝트
- 전처리
- 프롬프트 엔지니어링
- 데이터분석
- Chat GPT
- If
- cross join
- 태블로
- 기초통계
- 크롤링
- 최종 프로젝트
- SQLD
- 프로젝트
- jd
- lambda
- 팀프로젝트
- 데이터 분석
- 서브쿼리
- streamlit
- GA4
- 클러스터링
- 히트맵
- 군집화
Archives
- Today
- Total
세조목
이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression) 본문
테이블명.sum()
→ 컬럼별 수치의 합
전처리
- data.isna().sum() 을 하면 결측치의 개수를 알 수 있음
- 결측치 처리 : data.dropna()
- impute
- 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
- 여기서 '변수'에는 평균이나 중앙값 등이 들어감
- 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
binary classification(이진 분류) 에서 linear를 사용할 수 없는 이유
선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데
인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음
이 때 logistic regression을 사용하면
예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨
위 산식이 linear를 logistic으로 바꿔주는 산식임
1과 0 사이의 0.xxx의 값은 %를 나타냄
Confusion Matrix
Type 1 error
실제로는 아닌데(0) 그렇다라고(1) 얘기하는 경우
Type 2 error
실제로는 맞는데(1) 아니다라고(0) 얘기하는 경우
암 예측의 경우 Type 2 error를 더 민감하게 다뤄야 함
→ 실제 암에 걸렸는데(1) 암이 아니라고 얘기했음(0)
→ 이 경우 환자 생명에 큰 위험이 됨
마케팅의 경우 Type 1 error를 더 민감하게 다뤄야 함
→ 마케팅 하면 넘어올 것이라고 예측(1)했는데 넘어오지 않았음(0)
→ 마케팅 비용만 쓰고 고객은 얻지 못했음
1인 경우가 좋은 경우면(ex. 마케팅에따른 고객 확보) Type 1 error를 더 민감하게 다뤄야 하고
1인 경우가 좋지 않은 경우(ex. 암에 걸림)면 Type 2 error를 더 중요하게 다뤄야 함
'데이터 분석 공부 > 머신러닝' 카테고리의 다른 글
머신러닝 - 클러스터링(계층적 군집화) (0) | 2024.04.02 |
---|---|
이커머스 머신러닝 강의 복습(Ch.3 - KNN) (2) | 2024.02.28 |
이커머스 머신러닝 강의 복습(Ch.1 - Linear Regression) (1) | 2024.02.26 |
머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) (1) | 2024.02.02 |
머신러닝 - 전처리(인코딩, 스케일링)에서부터 로지스틱 회귀를 적용한 예측 모델 생성까지(feat. 선형회귀와 로지스틱 회귀의 차이, 스케일링의 정규화와 표준화는 각각 언제 사용하는지)(24.02.. (0) | 2024.02.02 |