세조목

TIL(Today I Learned) 93일차(24.03.18) 본문

데이터 분석 공부/TIL(Today I Learned)

TIL(Today I Learned) 93일차(24.03.18)

세조목 2024. 3. 18. 21:04

금일은 최종 프로젝트 관련 회의 진행 및 튜터님과의 질의응답 시간을 가졌습니다.

사전캠프 팀원들과 함께 최종 프로젝트를 진행했으면 해서 현재 해당 멤버들과 주제 구상 및 고민을 하고있는데

저희가 한 팀이 되어 최종 프로젝트를 진행할 수 있다면 선정할 주제는

'외식업종 상권 및 입지 선택을 위한 행정동 & 업종별 매출 예측 모델링' 입니다.

사용 예정 데이터셋

어떠한 데이터를 사용할지에 대해서 얘기 나눴고,

해당 데이터들을 가지고서 어떻게 데이터셋을 구상할 지,

어떤 머신러닝 모델을 활용할 수 있을지에 대해 함께 고민했습니다.

 

Q.1 데이터셋 관련
 1) 대용량 데이터라고 불리려면 '행의 개수'가 몇 개 정도 됐을 때 대용량 데이터라고 할 수 있나요?
 2) 대용량 데이터셋을 구축한다고했을때 데이터셋을 하나로, n개로 나누는 것 중에서 어떤 방식을 추천하시는지와 현업에서는 어떤식으로 대용량 데이터셋을 구축하시는지 궁금합니다.
 3) 추가적으로 대용량 데이터를 n개의 데이터셋으로 나눠서 구축하고 머신러닝 모델링을 할 때 MEREGE, CONCAT, JOIN해서 모델링해도 무방한지도 궁금합니다.
Q.2
17년도부터 22년까지의 데이터를 학습시켜서 23년도(1년 뒤)의 매출을 예측하고자하는데
저희가 생각하고있는 방식은 다음과 같습니다.
1. 17년도부터 21년도의 독립변수를 가지고서 22년도의 매출을 예측하고 실제 22년도 매출과 비교해서 모델의 정확성 체크
2. 18년도부터 22년도의 독립변수를 가지고서 23년도(1년 뒤 매출)의 매출을 예측
3. 19년도부터 23년도의 독립변수를 가지고서 24년도(2년 뒤 매출)의 매출을 예측
여기서부터 질문사항입니다.
 1) 이 때 23년도(1년 뒤)의 독립변수는 별도의 예측모델을 만들어서 값을 예측해야하는 것인지
 2) 종속변수인 '매출'을 독립변수에 넣어서 학습을 시켜도 무방한지

고민하는 과정에서 튜터님의 의견이 필요했기에 멤버들과 함께 질문을 드렸습니다.

튜터님께서는 클러스터링 분석을 강하게 추천하셨고,

클러스터링 분석은 저희도 기존에 생각하고있던 분석이다보니

클러스터링 분석을 바탕으로 행정동을 군집화하고,

우리가 타겟으로 삼고자 하는 고객들이 주를 이루는 행정동 및 상권의 매출 예측 모델링을 진행해보려고합니다.

 

차후 일정

이를 바탕으로 위와같은 대략적인 일정을 수립했습니다.

그래서 이번주는 각자 집중해야하는 내용들을 집중적으로 학습하고, 수집하지 못했던 데이터들을

집중적으로 수집하는데까지 진행할 예정입니다.

저의 경우 비정형 데이터 분석을 위해 웹 스크래이핑을 배우고 있는 중으로,

데이터 수집이 완료되면 해당 데이터들을 감정 지수화 및 리뷰 지수화 할 예정입니다.