일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 기초통계
- GA4
- SQL
- cross join
- 태블로
- 머신러닝
- 프롬프트 엔지니어링
- jd
- streamlit
- 프로젝트
- 데이터 분석
- da
- 기초프로젝트
- If
- lambda
- 데이터분석
- Chat GPT
- 서브쿼리
- 팀프로젝트
- 시각화
- SQLD
- Python
- 크롤링
- 히트맵
- 군집화
- 최종 프로젝트
- 전처리
- pandas
- data analyst
- 클러스터링
- Today
- Total
세조목
최종 프로젝트 9일차(24.04.04) 본문
최종 프로젝트 9일차입니다.
금일은 팀원들 각자 완성한 크롤링 코드를 가지고서 팀 회의를 진행했습니다.
아래는 팀 회의 간 논의해야 할 사항들을 정리해놓은 리스트입니다.
<To Do>
1. 데이터셋 관련
1) 크롤링할 '구' 정하기
2) 컬럼 관련
(1) 수정할 것
ㄱ. Address 컬럼 '구'까지만(추가 논의 필요 / '구'만 할지, '서울+구' 까지만 할 지, '서울시'만 할 지)
ㄴ. '구'별 Numbering(구에 있는 가게별로 Numbering)
ㄷ. 구글 데이터 Rating 컬럼값 NaN으로 정할지
(2) 추가할 것
ㄱ. 특성 컬럼 정하기(네이버 특성 + a)
ㄴ. 컬럼 방향 정하기
3) 데이터셋 이름 정하기(jongro_google.csv)
2. 클러스터링 관련
1) 모델링 時 사용 컬럼 정하기
3. 튜터님 질문 관련
1) 요기요 크롤링 진행 유무(답변 내용 바탕으로 결정)
2) 피드백(아쉬운 점, 보완 방식 등)
3) 추천 모델 사용
4. 최종 개인화 추천 모델 어떻게 만들 수 있을까?
1. 긍/부정 지수 매기고
2. 군집화 하고
하나씩 정리하자면
1. 크롤링할 '구' 정하기
'구'의 경우 통신모바일 데이터 기반 유입인구가 가장 많은 8개 '구'의 빵집 리뷰 데이터를 수집하는 것으로 정했습니다.
8개의 구는 다음과 같습니다.
- 은평구
- 서대문구
- 마포구
- 성북구
- 종로구
- 중구
- 동대문구
- 강남구
2. Address 컬럼 ('구'만 적을지, '서울+구'로 적을지, '서울시'만 적을지)
주소 컬럼은 '서울시+구'로 통일했습니다.
3. '구'별 넘버링
기존에는 가게별로만 넘버링을 진행했는데
구+가게를 한 묶음으로 넘버링을 진행하기로 했습니다.
4. 구글 리뷰 데이터 Rating 컬럼값 NaN으로 할 지
구글 리뷰 데이터의 경우 평점 컬럼의 값이 없는 경우가 있었습니다.
이 경우 원활하게 군집화가 이루어지지 않을 수 있기 때문에
만약 해당 가게가 다른 플랫폼(네이버, 카카오) 리뷰 데이터에도 있다면
각 플랫폼 평점의 평균을 구글 리뷰 컬럼에 넣기로 했으며
만약 모든 플랫폼에 해당 가게의 평점이 없다면
그 가게가 속해있는 구 전체의 평점 평균을 넣기로 했습니다.
5. 특성 컬럼 정하기
저희가 클러스터링을 할 때 이 특성 컬럼이 굉장히 중요하게 작용하기때문에
어떠한 특성을 컬럼에 넣을 것인지를 정할 필요가 있었습니다.
저희는 네이버 플레이스에서 확인할 수 있는 리뷰 특성 분류를 그대로 사용하기로 했습니다.
물론 전체를 다 그대로 쓰는 것은 아니고 일부는 빵집이라는 업종 특성에 맞게끔
특성을 수정 또는 추가할 예정입니다.
6. 데이터셋 이름 정하기
데이터셋 이름 역시 통일할 필요가 있다고 생각했습니다.
저희는 '플랫폼명_구명'으로 통일하였습니다.
예를 들어 'naver_jongro'와 같습니다.
이렇게 6가지 정도를 팀 회의에서 논의했고
지금까지 정리된 내용들 + 요기요 데이터 크롤링 진행 유무 및 기술 질문
을 저녁 시간에 튜터님께 여쭤봤습니다.
질의응답 내용은 아래 노션 페이지에 정리해두었습니다.
https://teamsparta.notion.site/1-c0942e09109341dda82ed9b90d9b4655
이를 바탕으로 To-Do 리스트 및 익일 토의할 내용들은 아래 페이지에 정리해두었습니다.
https://teamsparta.notion.site/a4d60968ac5a41c780a8daa0f64c32ae
'데이터 분석 공부 > TIL(Today I Learned)' 카테고리의 다른 글
TIL(Today I Learned) 108일차(24.04.05) (0) | 2024.04.05 |
---|---|
TIL(Today I Learned) 107일차(24.04.04) (0) | 2024.04.04 |
TIL(Today I Learned) 106일차(24.04.03) (0) | 2024.04.03 |
TIL(Today I Learned) 105일차(24.04.02) (0) | 2024.04.02 |
TIL(Today I Learned) 104일차(24.04.01) (0) | 2024.04.01 |