일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- jd
- SQLD
- 클러스터링
- 데이터 분석
- 최종 프로젝트
- Python
- GA4
- 시각화
- 프롬프트 엔지니어링
- data analyst
- lambda
- 태블로
- 머신러닝
- streamlit
- 데이터분석
- 기초프로젝트
- 기초통계
- 히트맵
- Chat GPT
- 크롤링
- 프로젝트
- 팀프로젝트
- SQL
- da
- 전처리
- pandas
- 군집화
- cross join
- 서브쿼리
- If
- Today
- Total
목록데이터 분석 공부/머신러닝 (16)
세조목
테이블명.sum() → 컬럼별 수치의 합 전처리 data.isna().sum() 을 하면 결측치의 개수를 알 수 있음 결측치 처리 : data.dropna() impute 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수) 여기서 '변수'에는 평균이나 중앙값 등이 들어감 binary classification(이진 분류) 에서 linear를 사용할 수 없는 이유 선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데 인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음 이 때 logistic regression을 사용하면 예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨 위 산식이 linear를 logistic으로 바꿔주는 산식임 1과 0 사이의 0.xxx의 값..
1. 컬럼 제거 drop(제거할 열, axis=1, inplace=True) * inplace=True → '컬럼 제거하고 저장하겠다.' numpy array datatype은 연산 속도가 빠르기 때문에 대규모 데이터를 처리할 때에는 이 datatype을 사용해줘야 함 2. 행 인덱싱 index명으로 인덱싱할때는 loc 순서로 인덱싱할때는 iloc 3. 컬럼 인덱싱(순서로) 컬럼을 순서로 인덱싱하고싶다면 행 인덱싱 적어준 후 콤마 찍고 인덱싱하고싶은 컬럼의 순서에 해당하는 숫자를 적어주면 됨 df.iloc[1:4, 0:3] 4. Linear Regression(statsmodel 활용) train, test data 나누기 라이브러리 import import statsmodels.api as sm 변수에..
목차 의사결정나무 랜덤 포레스트 KNN(최근접 이웃) 부스팅 알고리즘 1. 의사결정나무 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder from sklearn.tree import DecisionTreeClassifier, plot_tree titanic_df = pd.read_csv('경로.csv') 의사결정나무를 만들려면 sklearn.tree 라이브러리의 DecisionTreeClassifier 클래스를 가져와야한다. X_features = ['Pclass', 'Sex', 'Age', 'Fare', 'Embarked'] # 평균으로 ..
Step 데이터 불러와서 살펴보기 Sibsp(자녀수) + Parch(부모수) 이상치(Outlier) 처리 결측치 처리 인코딩(수치형 데이터) 스케일링(범주형 데이터) 로지스틱회귀(Logistic Regression) / 모델 평가 test 데이터에 적용 1. 데이터 불러와서 살펴보기 train_df = pd.read_csv('경로/train.csv') test_df = pd.read_csv('경로/test.csv') train_df.head(3) train_df.info() train_df.describe(include='all') 다양한 컬럼들이 존재하는데 이 중 'Age', 'Fare', 'Family', 'Embarked', 'Pcalss', 'Sex'를 독립변수로 'Survived'를 종속변수로 ..