세조목

실전 프로젝트 4~5일차(24.03.03~04) 본문

데이터 분석 공부/프로젝트

실전 프로젝트 4~5일차(24.03.03~04)

세조목 2024. 3. 4. 21:26

연휴 기간동안 금번 프로젝트의 문제들을 풀어봤습니다.

2024.03.01 - [데이터 분석 공부/프로젝트] - 실전 프로젝트 2일차(24.03.01)

2024.03.02 - [데이터 분석 공부/프로젝트] - 실전 프로젝트 3일차(24.03.02)

 

3일차때까지 초급 난이도 문제들은 모두 풀어봤는데 중급 난이도 문제들을 풀지 못하여

어제는 중급 난이도 문제 풀이에 집중했고,

연휴 기간동안 팀원들 각자가 풀어본 문제들을 가지고서 금일은 브리핑을 진행했습니다.

 

우선 중급 난이도 문제들에는

가 있었는데

 

(중급)-1의 요구사항인 초급단계에서 구한 세 가지 값을 월별로 집계하여 Line Chart로 만드는 것이 쉽지 않았습니다.

저의 경우

이렇게 조건식을 만들어서 문제들을 풀었기 때문에

이 조건들을 모두 하나의 시트에 넣어 하나의 차트로 만드는 것이 어려움이 있었습니다.

팀원들과 얘기 나눈 결과 아래와같이 하나의 시트에 여러개 차트를 만드는 방식으로

1~3 결과값들을 시각화하는 것이 좋을 것 같다고 의견을 모았습니다.

 

(중급)-2의 경우는 문제 요구사항이 아래와 같은데

유저와 상품을 기준으로 EVENT가 발생했는지 여부를 확인해야하기때문에

User_id와 Product_id를 기준으로 Id를 count하고,

 

그 개수가 1이면(event가 발생) 1을, 0이면(event가 미발생) 0을

표현하도록 조건식을 세웠습니다.

 

그렇게 했을때의 시각화 자료는 아래와 같았기때문에 조금 더 다듬어서 최종 결과물로 만들면 될 것 같습니다.

 

 

 

추가적으로 고급 난이도 문제의 산식도 작성해보았는데

구매 이전에 event가 발생했는지 여부를 확인해야하므로

event 테이블에서의 시각이 product 테이블에서의 시각보다 작은지 여부를 조건식을 가지고서 확인했습니다.

SUM(IF
{FIXED[User Id (Order Items.Csv)], [Product Id] : MIN([Created At (Order Items.Csv)])}
>
{FIXED [User Id], [Product Id] : MIN([Created At])}
THEN 1 ELSE 0 END)

시각화는 내일 진행할 예정입니다.

 

추가적으로 초급 3번째 문제의 경우 튜터님들께 피드백을 받았는데

금번 프로젝트 문제에서 처음으로 오류가 발생하는 부분이다보니

단순히 '오류가 있었다'에서 끝나는 것이 아니라

왜 그런 오류가 발생했고, 오류를 해결하기위해서는 어떻게 하는 것이 좋을지에 대한

고민까지도 함께 진행해보면 좋을 것 같다고 말씀해주셨습니다.

그래서 저희는 위 이미지와같은 flow를 생각했습니다.

다만 위 flow의 경우 대시보드를 보는 사람으로 하여금

event_type만을 보고서 원인을 시스템 오류로 판단한다는 것은

설득력이 떨어질 수 있기때문에

원인 파악 단계에 다른 데이터들(월별, 시간별, browser별...)을 기준으로 확인한 시각화 자료들을

충분히 소개한 다음 시스템 오류 이야기로 넘어가는 것이 좋을 것 같다고 생각해서

최종 발표 자료에서는 해당 내용들을 포함시킬 예정입니다.