일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Python
- 히트맵
- 군집화
- 크롤링
- If
- 기초프로젝트
- GA4
- 태블로
- 프롬프트 엔지니어링
- jd
- 최종 프로젝트
- 데이터분석
- pandas
- SQL
- Chat GPT
- SQLD
- streamlit
- lambda
- 전처리
- 클러스터링
- 시각화
- 팀프로젝트
- data analyst
- cross join
- 머신러닝
- da
- 서브쿼리
- 프로젝트
- 데이터 분석
- 기초통계
Archives
- Today
- Total
세조목
심화 프로젝트 2일차(24.02.07) 본문
https://www.notion.so/1-b5ad1ed6f85341709e3de365f816de0c
어제부터 심화 프로젝트가 시작됐습니다.
금일은 팀원들과 함께 데이터셋에대한 이야기, 측정기준에 대한 이야기를 간략하게 나누고
내일 있을 튜터링때 질문드릴 내용들을 공유했습니다.
저희가 사용하는 'train' dataset의 경우 json 형태의 속성값들이 다수 존재하여
json 형태를 각각의 컬럼으로 나누는 작업이 필요했습니다.
def load_df(csv_path, nrows=None):
JSON_COLUMNS = ['device', 'geoNetwork', 'totals', 'trafficSource']
df = pd.read_csv(csv_path,
converters={column: json.loads for column in JSON_COLUMNS},
dtype={'fullVisitorId': 'str'}, # Important!!
nrows=nrows)
for column in JSON_COLUMNS:
column_as_df = pd.json_normalize(df[column])
column_as_df.columns = [f"{column}.{subcolumn}" for subcolumn in column_as_df.columns]
df = df.drop(column, axis=1).merge(column_as_df, right_index=True, left_index=True)
print(f"Loaded {os.path.basename(csv_path)}. Shape: {df.shape}")
return df
위 코드를 활용하여 작업을 진행하였는데
그렇게 컬럼을 나누니 아래 이미지에서 확인할 수 있는것처럼 컬럼의 수가 굉장히 많아졌습니다.
그래서 일단 각 컬럼별 개념을 정의해보고,
각 컬럼을 가지고서 어떤 분석을 해볼 수 있을지에 대해 고민해봤습니다.
1. DAU, WAU, MAU(Line 차트)
2. 유저별 평균접속시간 분포(ECDF)
3. 방문 주차에따른 코호트
4. 코호트별 weekly 리텐션(히트맵)
5. 요일/시간대별 사용자 수(히트맵) \
저희는 기본적으로 위 다섯가지를 측정하는 것으로 방향을 잡았는데
조금 더 세부적인 계획은 내일 있을 회의에서 정할 예정입니다.
'데이터 분석 공부 > 프로젝트' 카테고리의 다른 글
심화 프로젝트 4~5일차(DAU, WAU, MAU구하기)(24.02.09~10) (1) | 2024.02.11 |
---|---|
심화 프로젝트 3일차(24.02.08) (0) | 2024.02.08 |
기초 프로젝트 7일차(24.01.18) KPT(Keep Problem Try) (0) | 2024.01.18 |
기초 프로젝트 6일차(24.01.17) (0) | 2024.01.17 |
기초 프로젝트 5일차(24.01.16) (0) | 2024.01.16 |