데이터 분석 공부/머신러닝
이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression)
세조목
2024. 2. 27. 20:49
테이블명.sum()
→ 컬럼별 수치의 합
전처리
- data.isna().sum() 을 하면 결측치의 개수를 알 수 있음
- 결측치 처리 : data.dropna()
- impute
- 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
- 여기서 '변수'에는 평균이나 중앙값 등이 들어감
- 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
binary classification(이진 분류) 에서 linear를 사용할 수 없는 이유
선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데
인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음
이 때 logistic regression을 사용하면
예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨
위 산식이 linear를 logistic으로 바꿔주는 산식임
1과 0 사이의 0.xxx의 값은 %를 나타냄
Confusion Matrix
Type 1 error
실제로는 아닌데(0) 그렇다라고(1) 얘기하는 경우
Type 2 error
실제로는 맞는데(1) 아니다라고(0) 얘기하는 경우
암 예측의 경우 Type 2 error를 더 민감하게 다뤄야 함
→ 실제 암에 걸렸는데(1) 암이 아니라고 얘기했음(0)
→ 이 경우 환자 생명에 큰 위험이 됨
마케팅의 경우 Type 1 error를 더 민감하게 다뤄야 함
→ 마케팅 하면 넘어올 것이라고 예측(1)했는데 넘어오지 않았음(0)
→ 마케팅 비용만 쓰고 고객은 얻지 못했음
1인 경우가 좋은 경우면(ex. 마케팅에따른 고객 확보) Type 1 error를 더 민감하게 다뤄야 하고
1인 경우가 좋지 않은 경우(ex. 암에 걸림)면 Type 2 error를 더 중요하게 다뤄야 함