세조목

이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression) 본문

데이터 분석 공부/머신러닝

이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression)

세조목 2024. 2. 27. 20:49

테이블명.sum()

→ 컬럼별 수치의 합

 

전처리

  1. data.isna().sum() 을 하면 결측치의 개수를 알 수 있음
  2. 결측치 처리 : data.dropna()
  3. impute
    • 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
      • 여기서 '변수'에는 평균이나 중앙값 등이 들어감

binary classification(이진 분류) 에서 linear를 사용할 수 없는 이유

선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데
인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음


이 때 logistic regression을 사용하면
예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨

위 산식이 linear를 logistic으로 바꿔주는 산식임
1과 0 사이의 0.xxx의 값은 %를 나타냄

 

Confusion Matrix

 

Type 1 error

실제로는 아닌데(0) 그렇다라고(1) 얘기하는 경우

 

Type 2 error

실제로는 맞는데(1) 아니다라고(0) 얘기하는 경우

 

암 예측의 경우 Type 2 error를 더 민감하게 다뤄야 함

  → 실제 암에 걸렸는데(1) 암이 아니라고 얘기했음(0)

  → 이 경우 환자 생명에 큰 위험이 됨

 

마케팅의 경우 Type 1 error를 더 민감하게 다뤄야 함

  → 마케팅 하면 넘어올 것이라고 예측(1)했는데 넘어오지 않았음(0)

  → 마케팅 비용만 쓰고 고객은 얻지 못했음

 

1인 경우가 좋은 경우면(ex. 마케팅에따른 고객 확보) Type 1 error를 더 민감하게 다뤄야 하고

1인 경우가 좋지 않은 경우(ex. 암에 걸림)면 Type 2 error를 더 중요하게 다뤄야 함