이커머스 머신러닝 강의 복습(Ch.2

Notice

Recent Posts

Recent Comments

Link

코쿤

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

세조목

이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression) 본문

데이터 분석 공부/머신러닝

이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression)

세조목 2024. 2. 27. 20:49

테이블명.sum()

→ 컬럼별 수치의 합

전처리

data.isna().sum() 을 하면 결측치의 개수를 알 수 있음
결측치 처리 : data.dropna()
impute
- 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수)
  - 여기서 '변수'에는 평균이나 중앙값 등이 들어감

binary classification(이진 분류) 에서 linear를 사용할 수 없는 이유

선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데
인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음

이 때 logistic regression을 사용하면
예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨

위 산식이 linear를 logistic으로 바꿔주는 산식임
1과 0 사이의 0.xxx의 값은 %를 나타냄

Confusion Matrix

Type 1 error

실제로는 아닌데(0) 그렇다라고(1) 얘기하는 경우

Type 2 error

실제로는 맞는데(1) 아니다라고(0) 얘기하는 경우

암 예측의 경우 Type 2 error를 더 민감하게 다뤄야 함

→ 실제 암에 걸렸는데(1) 암이 아니라고 얘기했음(0)

→ 이 경우 환자 생명에 큰 위험이 됨

마케팅의 경우 Type 1 error를 더 민감하게 다뤄야 함

→ 마케팅 하면 넘어올 것이라고 예측(1)했는데 넘어오지 않았음(0)

→ 마케팅 비용만 쓰고 고객은 얻지 못했음

1인 경우가 좋은 경우면(ex. 마케팅에따른 고객 확보) Type 1 error를 더 민감하게 다뤄야 하고

1인 경우가 좋지 않은 경우(ex. 암에 걸림)면 Type 2 error를 더 중요하게 다뤄야 함

'데이터 분석 공부 > 머신러닝' 카테고리의 다른 글

머신러닝 - 클러스터링(계층적 군집화) (0)	2024.04.02
이커머스 머신러닝 강의 복습(Ch.3 - KNN) (2)	2024.02.28
이커머스 머신러닝 강의 복습(Ch.1 - Linear Regression) (1)	2024.02.26
머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) (1)	2024.02.02
머신러닝 - 전처리(인코딩, 스케일링)에서부터 로지스틱 회귀를 적용한 예측 모델 생성까지(feat. 선형회귀와 로지스틱 회귀의 차이, 스케일링의 정규화와 표준화는 각각 언제 사용하는지)(24.02.. (0)	2024.02.02

'데이터 분석 공부/머신러닝' Related Articles

세조목