일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 프로젝트
- 기초통계
- 프롬프트 엔지니어링
- 군집화
- 클러스터링
- 팀프로젝트
- data analyst
- cross join
- 시각화
- If
- 기초프로젝트
- streamlit
- SQL
- 데이터 분석
- 최종 프로젝트
- lambda
- 서브쿼리
- 히트맵
- 전처리
- jd
- da
- 크롤링
- 데이터분석
- SQLD
- pandas
- GA4
- 태블로
- 머신러닝
- Python
- Chat GPT
- Today
- Total
목록전체 글 (328)
세조목
태블로 2024.03.01 - [데이터 분석 공부/태블로] - 태블로 - 계산식(LOD식, IF조건문) 태블로 - 계산식(LOD식, IF조건문) 실전 프로젝트를 진행하면서 태블로로 시각화할 때 계산식을 꽤 많이 활용하고있다. '두 명 이상의 ~~~', '두 가지 이상의 ~~~', 'user_id가 없는 ~~~'와 같은 조건들 말이다. python에서야 groupby 메서드 eyeoftheworld1209.tistory.com SQLD
실전 프로젝트를 진행하면서 태블로로 시각화할 때 계산식을 꽤 많이 활용하고있다. '두 명 이상의 ~~~', '두 가지 이상의 ~~~', 'user_id가 없는 ~~~'와 같은 조건들 말이다. python에서야 groupby 메서드로 a를 기준으로 b를 집계한 다음 그 값들을 가지고서 boolean 인덱싱하면 조건에 해당하는 값들을 쉽게 소팅할 수 있는데 태블로에서는 python에서와같은 방법을 활용할 수 없어서 많은 시간 고민을 해야했다. '계산된 필드 만들기' 가 방법이라는 것은 알고 있었지만 어떻게 계산식을 작성해야하는지가 문제였다. 아래 이미지는 금번 실전 프로젝트에서 우리가 풀어야 하는 과제인데 첫번째 문제를 보면 '두 명 이상의 unique user가 있는 세션의 수와 비율을 구하고 시각화화라'..
태블로 2024.02.29 - [데이터 분석 공부/태블로] - 태블로 - 테이블 결합 유의 사항, 연결 방식(라이브 vs 추출) 태블로 - 테이블 결합 유의 사항, 연결 방식(라이브 vs 추출) 1. 테이블 결합 유의사항 태블로에서 테이블과 테이블의 관계를 맺을때 데이터 타입이 동일해야 관계를 맺을 수 있습니다. 만약 데이터 타입이 다르다면 아래 이미지의 빨간 부분을 클릭해서 타 eyeoftheworld1209.tistory.com 실전 프로젝트 https://eyeoftheworld1209.tistory.com/entry/%EC%8B%A4%EC%A0%84-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-1%EC%9D%BC%EC%B0%A8240229 실전 프로젝트 1일차(24.02.29..
태블로를 활용하는 실전 프로젝트가 시작됐습니다. 저희 조는 이커머스 데이터 품질 검사를 주제로 프로젝트를 진행하기로했습니다. 오늘은 프로젝트 주제를 선정하고, GitHub 레포지토리를 개설했습니다. https://github.com/gabrietofu/B01_Data_Quality_Check 태블로에서 데이터 테이블을 결합하고 1번 문제를 살짝 맛보는 단계까지 진행했습니다. 테이블을 결합하는 과정에서 저희가 생각했을때 PK(Primary Key)라고 생각하는 user_id컬럼을 선택하면 아래와 같은 에러가 발생했습니다. 원인을 확인해본 결과 두 테이블 컬럼의 데이터 타입이 상이한것이 문제였습니다. 관련해서는 아래 포스팅에 정리해두었습니다. 2024.02.29 - [데이터 분석 공부/태블로] - 태블로 -..
1. 테이블 결합 유의사항 태블로에서 테이블과 테이블의 관계를 맺을때 데이터 타입이 동일해야 관계를 맺을 수 있습니다. 만약 데이터 타입이 다르다면 아래 이미지의 빨간 부분을 클릭해서 타입을 변경해줘야 합니다. 2. 태블로 연결(라이브 VS 추출) 태블로에서 데이터를 불러올 때 데이터베이스에서 데이터를 불러올수도 있고, 다운로드받은 데이터셋을 불러올수도 있다. 이 때 라이브로 불러올 것인지 추출할 것인지 선택할 수 있는데 빠른 데이터 처리가 필요하다면 '추출'을 선택하는 것이 좋다. 데이터를 추출할 경우 해당 데이터가 태블로의 고유한 데이터 엔진에 의해 최적화된 형태로 저장되기 때문이다. 하지만 데이터를 추출할 경우 실시간 데이터 업데이트를 반영하지는 못하기때문에 실시간 데이터 업데이트가 필요할 경우에는..
이커머스 머신러닝 2024.02.28 - [데이터 분석 공부/머신러닝] - 이커머스 머신러닝 강의 복습(Ch.3 - KNN) 이커머스 머신러닝 강의 복습(Ch.3 - KNN) KNN K Nearest Neighbor 최근접 이웃이라는 의미다. 2024.02.02 - [데이터 분석 공부/머신러닝] - 머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) 머신러닝 - 의사결정나무, 랜덤포레 eyeoftheworld1209.tistory.com SQL 예제 풀기 https://leetcode.com/problems/last-person-to-fit-in-the-bus/ SELECT PERSON_NAME FROM ( SELECT *, SUM(WEIGHT) OVER(ORDER BY ..
KNN K Nearest Neighbor 최근접 이웃이라는 의미다. 2024.02.02 - [데이터 분석 공부/머신러닝] - 머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) 머신러닝 - 의사결정나무, 랜덤포레스트, KNN, 부스팅 알고리즘(24.02.02) 목차 의사결정나무 랜덤 포레스트 KNN(최근접 이웃) 부스팅 알고리즘 1. 의사결정나무 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sklearn.preprocessing import LabelEncoder from sklearn.tree impo eyeoftheworld1209.tistory.com 위 포스팅에 KNN ..
이커머스 머신러닝 2024.02.27 - [데이터 분석 공부/머신러닝] - 이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression) 이커머스 머신러닝 강의 복습(Ch.2 - Logistic Regression) 테이블명.sum() → 컬럼별 수치의 합 전처리 data.isna().sum() 을 하면 결측치의 개수를 알 수 있음 결측치 처리 : data.dropna() impute 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수) 여기서 '변수'에 eyeoftheworld1209.tistory.com Python 예제 복습 자릿수 더하기 https://school.programmers.co.kr/learn/courses/30/lessons/12931 # 기존에 ..
테이블명.sum() → 컬럼별 수치의 합 전처리 data.isna().sum() 을 하면 결측치의 개수를 알 수 있음 결측치 처리 : data.dropna() impute 테이블명.fillna(변수) / 테이블명['컬럼명'].fillna(변수) 여기서 '변수'에는 평균이나 중앙값 등이 들어감 binary classification(이진 분류) 에서 linear를 사용할 수 없는 이유 선형으로 예측하면 1보다 크고, 0보다 작은 경우가 발생하는데 인지 아닌지를 보는 이진 분류에서 이는 말이되지 않음 이 때 logistic regression을 사용하면 예측값이 1과 0 사이에서 계산되기때문에 위에서의 문제가 해결됨 위 산식이 linear를 logistic으로 바꿔주는 산식임 1과 0 사이의 0.xxx의 값..
PYTHON 예제 https://school.programmers.co.kr/learn/courses/30/lessons/68935 2024.02.26 - [데이터 분석 공부/Python] - Python 예제(3진법 뒤집기) def solution(n): answer = ' ' while n > 0: n, re = divmod(n,3) answer += str(re) return int(answer, 3) SQLD(12주차) 학습 이커머스 머신러닝 2024.02.26 - [데이터 분석 공부/머신러닝] - 이커머스 머신러닝 강의 복습(Ch.1 - Linear Regression) 이커머스 머신러닝 강의 복습(Ch.1 - Linear Regression) 1. 컬럼 제거 drop(제거할 열, axis=1,..