세조목

최종 프로젝트 9일차(24.04.04) 본문

데이터 분석 공부/TIL(Today I Learned)

최종 프로젝트 9일차(24.04.04)

세조목 2024. 4. 4. 23:47

최종 프로젝트 9일차입니다.

금일은 팀원들 각자 완성한 크롤링 코드를 가지고서 팀 회의를 진행했습니다.

 

아래는 팀 회의 간 논의해야 할 사항들을 정리해놓은 리스트입니다.

<To Do>
1. 데이터셋 관련
 1) 크롤링할 '구' 정하기
 2) 컬럼 관련
   (1) 수정할 것
     ㄱ. Address 컬럼 '구'까지만(추가 논의 필요 / '구'만 할지, '서울+구' 까지만 할 지, '서울시'만 할 지)
     ㄴ. '구'별 Numbering(구에 있는 가게별로 Numbering)
     ㄷ. 구글 데이터 Rating 컬럼값 NaN으로 정할지
   (2) 추가할 것
     ㄱ. 특성 컬럼 정하기(네이버 특성 + a)
     ㄴ. 컬럼 방향 정하기
 3) 데이터셋 이름 정하기(jongro_google.csv)

2. 클러스터링 관련
 1) 모델링 時 사용 컬럼 정하기

3. 튜터님 질문 관련
 1) 요기요 크롤링 진행 유무(답변 내용 바탕으로 결정)
 2) 피드백(아쉬운 점, 보완 방식 등)
 3) 추천 모델 사용

4. 최종 개인화 추천 모델 어떻게 만들 수 있을까?
  1. 긍/부정 지수 매기고
  2. 군집화 하고

 

하나씩 정리하자면

 

1. 크롤링할 '구' 정하기

'구'의 경우 통신모바일 데이터 기반 유입인구가 가장 많은 8개 '구'의 빵집 리뷰 데이터를 수집하는 것으로 정했습니다.

8개의 구는 다음과 같습니다.

  1. 은평구
  2. 서대문구
  3. 마포구
  4. 성북구
  5. 종로구
  6. 중구
  7. 동대문구
  8. 강남구

2. Address 컬럼 ('구'만 적을지, '서울+구'로 적을지, '서울시'만 적을지)

주소 컬럼은 '서울시+구'로 통일했습니다.

 

3. '구'별 넘버링

기존에는 가게별로만 넘버링을 진행했는데

구+가게를 한 묶음으로 넘버링을 진행하기로 했습니다.

 

4. 구글 리뷰 데이터 Rating 컬럼값 NaN으로 할 지

구글 리뷰 데이터의 경우 평점 컬럼의 값이 없는 경우가 있었습니다.

이 경우 원활하게 군집화가 이루어지지 않을 수 있기 때문에

만약 해당 가게가 다른 플랫폼(네이버, 카카오) 리뷰 데이터에도 있다면

각 플랫폼 평점의 평균을 구글 리뷰 컬럼에 넣기로 했으며

만약 모든 플랫폼에 해당 가게의 평점이 없다면

그 가게가 속해있는 구 전체의 평점 평균을 넣기로 했습니다.

 

5. 특성 컬럼 정하기

저희가 클러스터링을 할 때 이 특성 컬럼이 굉장히 중요하게 작용하기때문에

어떠한 특성을 컬럼에 넣을 것인지를 정할 필요가 있었습니다.

저희는 네이버 플레이스에서 확인할 수 있는 리뷰 특성 분류를 그대로 사용하기로 했습니다.

물론 전체를 다 그대로 쓰는 것은 아니고 일부는 빵집이라는 업종 특성에 맞게끔

특성을 수정 또는 추가할 예정입니다.

 

6. 데이터셋 이름 정하기

데이터셋 이름 역시 통일할 필요가 있다고 생각했습니다.

저희는 '플랫폼명_구명'으로 통일하였습니다.

예를 들어 'naver_jongro'와 같습니다.

 

이렇게 6가지 정도를 팀 회의에서 논의했고

지금까지 정리된 내용들 + 요기요 데이터 크롤링 진행 유무 및 기술 질문

을 저녁 시간에 튜터님께 여쭤봤습니다.

 

질의응답 내용은 아래 노션 페이지에 정리해두었습니다.

https://teamsparta.notion.site/1-c0942e09109341dda82ed9b90d9b4655

 

1주차 기술 멘토링 사전 노트 | Notion

프로젝트

teamsparta.notion.site

 

이를 바탕으로  To-Do 리스트 및 익일 토의할 내용들은 아래 페이지에 정리해두었습니다.

https://teamsparta.notion.site/a4d60968ac5a41c780a8daa0f64c32ae

 

분석 및 진행 방향 | Notion

테이블 정보

teamsparta.notion.site