일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 클러스터링
- 서브쿼리
- SQL
- streamlit
- 기초프로젝트
- Python
- pandas
- 전처리
- 군집화
- data analyst
- 데이터분석
- jd
- 최종 프로젝트
- lambda
- cross join
- 프롬프트 엔지니어링
- 히트맵
- 태블로
- SQLD
- Chat GPT
- da
- 시각화
- 프로젝트
- GA4
- If
- 팀프로젝트
- 머신러닝
- 크롤링
- 데이터 분석
- 기초통계
- Today
- Total
목록군집화 (11)
세조목
최종 프로젝트 19일차입니다. 금일은 어제부터 시작된 특성 및 긍/부정 점수 검토 작업을 마무리했습니다. 어제 퇴실하기 전 팀원들과 얘기한건 이렇게 하다가는 시간이 너무 많이 소요되니 '가장 오류값이 많은 bread와 beverage 컬럼에 대한 값만 확인하자' 였습니다. 오늘 오전 9시까지 완성본을 제출하기로 약속했기때문에 새벽 4시 30분에 일어나서 일과를 시작했고, 6시 30분부터 작업을 시작했습니다. 다행히 9시까지 팀원 모두 자료를 제출해주어서 제 때 데이터를 취합할 수 있었습니다. 그렇게 해서 완성된 데이터셋을 가지고서 튜터님들께 어떤 클러스터링 모델을 사용하는 것이 좋을지에 대해 질문드렸습니다. 확인 결과 저희 데이터셋에는 K-Means++ 모델이 적합했습니다. 처음에는 저희가 가지고 있는 ..
최종 프로젝트 9일차입니다. 금일은 팀원들 각자 완성한 크롤링 코드를 가지고서 팀 회의를 진행했습니다. 아래는 팀 회의 간 논의해야 할 사항들을 정리해놓은 리스트입니다. 1. 데이터셋 관련 1) 크롤링할 '구' 정하기 2) 컬럼 관련 (1) 수정할 것 ㄱ. Address 컬럼 '구'까지만(추가 논의 필요 / '구'만 할지, '서울+구' 까지만 할 지, '서울시'만 할 지) ㄴ. '구'별 Numbering(구에 있는 가게별로 Numbering) ㄷ. 구글 데이터 Rating 컬럼값 NaN으로 정할지 (2) 추가할 것 ㄱ. 특성 컬럼 정하기(네이버 특성 + a) ㄴ. 컬럼 방향 정하기 3) 데이터셋 이름 정하기(jongro_google.csv) 2. 클러스터링 관련 1) 모델링 時 사용 컬럼 정하기 3. 튜..
1. 계층적 군집화 상향식 군집화(일반적임) 하향식 군집화 장점 군집의 갯수를 정해줄 필요가 없다. 군집 간 계층적 관계를 찾아낼 수 있다. 방법 Single Linkage : 두 군집 사이 최소 거리 이용 Complete Linkage : 두 군집 사이 최대 거리 이용 Average Linkage : 포인트와 포인트 사이 모든 거리의 평균 Centroid Linkage : 각 군집의 centroid(무게 중심) 값 사이 거리 Ward Linkage(가장 많이 사용되며 계층적 군집화 라이브러리 기본값으로 지정되어있음) 클러스터 내 각각의 centroid와 거리의 제곱합(SSE) 계산 두 클러스터를 하나의 군집으로 만들었을 때의 새로운 평균과의 거리제곱합 계산 그 차이 = Ward Distance / 이 ..