이커머스 머신러닝 강의 복습(Ch.2

세조목 2024. 2. 27. 20:49

→ 컬럼별 수치의 합

data.isna().sum() 을 하면 결측치의 개수를 알 수 있음
결측치 처리 : data.dropna()
impute
- 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
  - 여기서 '변수'에는 평균이나 중앙값 등이 들어감

선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데
인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음

이 때 logistic regression을 사용하면
예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨

위 산식이 linear를 logistic으로 바꿔주는 산식임
1과 0 사이의 0.xxx의 값은 %를 나타냄

Type 1 error

실제로는 아닌데(0) 그렇다라고(1) 얘기하는 경우

Type 2 error

실제로는 맞는데(1) 아니다라고(0) 얘기하는 경우

암 예측의 경우 Type 2 error를 더 민감하게 다뤄야 함

→ 실제 암에 걸렸는데(1) 암이 아니라고 얘기했음(0)

→ 이 경우 환자 생명에 큰 위험이 됨

마케팅의 경우 Type 1 error를 더 민감하게 다뤄야 함

→ 마케팅 하면 넘어올 것이라고 예측(1)했는데 넘어오지 않았음(0)

→ 마케팅 비용만 쓰고 고객은 얻지 못했음

1인 경우가 좋은 경우면(ex. 마케팅에따른 고객 확보) Type 1 error를 더 민감하게 다뤄야 하고

1인 경우가 좋지 않은 경우(ex. 암에 걸림)면 Type 2 error를 더 중요하게 다뤄야 함