일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- SQLD
- cross join
- Python
- 태블로
- 데이터 분석
- data analyst
- 최종 프로젝트
- GA4
- If
- 프로젝트
- pandas
- SQL
- 히트맵
- 프롬프트 엔지니어링
- 머신러닝
- jd
- 시각화
- 클러스터링
- 전처리
- 데이터분석
- da
- 서브쿼리
- Chat GPT
- streamlit
- 군집화
- 기초프로젝트
- 크롤링
- 팀프로젝트
- lambda
- 기초통계
- Today
- Total
세조목
WIL(Weekly I Learned)(12월 셋째주) 본문
12월 셋째주도 마무리되어가고있습니다.
금주는 본캠프 첫 주이자 미니 프로젝트가 진행됐던 주차여서 더 정신이 없었는데요,
그럼에도 불구하고 정신 바짝 차리고 주어진 과제를 수행하기 위해서 최선을 다했던 그런 만족스러운 한 주였습니다.
풀고있는 예제들의 난이도가 올라감에 따라 개인적으로 느끼는 부담감이 크긴하지만
그만큼 머릿속에 축적되는 지식들의 양이 늘어나서 기분이 좋습니다.
금주에 학습했던 내용들을 간략하게 키워드 중심으로 정리해보면서 금주의 WIL 정리하겠습니다.
1. SQL
1) is와 =은 각각 언제 사용하는걸까?
뒤에 Null이 나온다면 is를 사용하는 것이 맞는데 그 이유는
Null은 공백과는 다른 값으로 아직 값이 정해지지 않은 미지의 값 즉 Unknown 값이기 때문이다.
등호를 써버리면 Unknown = Unknown 의 결과인 False가 되므로 Null이 나올때는 등호 대신 is를 사용해야한다.
2) 서브쿼리
서브쿼리는 현 쿼리의 조건에서 가져올 수 없는 값을 사용하고싶을때 사용한다.
3) self join
self join은 기존에 있던 테이블을 그대로 옆에다가 붙이는 join이다.
하나의 컬럼내에서 값들을 비교해야할때 self join으로 합친 후 값들을 비교할 수 있다.
2. PYTHON
1) 정렬
PYTHON에서 데이터프레임 또는 시리즈를 정렬하고싶을때는
sort_index(ascending = True(or False)
sort_values(by='정렬하고싶은 컬럼명', ascending = True(or False)
를 사용하면 된다.
2) 피벗테이블
pandas 피벗테이블 기능은 아래 이미지처럼 하나의 테이블에 서로 다른 두 개의 컬럼을 가지고서 피벗테이블을 만들때
사용된다.
문법은 아래와 같다.
pivot_table(테이블명, values=' ', index = ' ', columns=' ', aggfunc='어떻게 합칠지(ex. count, sum)')
3) 히트맵
차트의 종류 중 아래와 같은 '히트맵' 차트가 있는데
다른 차트를 만들때 작성하는 코드와 다른점이라고한다면 히트맵을 만드는 코드에는 아래 코드가 들어간다는 점이다.
4) dtypes함수
dtypes함수는 데이터들의 속성들을 한눈에 확인할 수 있는 함수이다.
5) pd.to_numeric
pd.to_numeric함수는 판다스 내장함수로 테이블 內 모든 컬럼의 데이터 타입을 숫자로 바꿔주는 함수이다.
6) replace함수
replace함수는 영어단어 뜻 그대로 바꿔주는 함수이다.
테이블['컬럼명'].str.replace("before 텍스트", "after 텍스트")
이렇게 코드를 입력하면 특정 컬럼의 특정 문자를 내가 원하는 문자로 바꿀 수 있다.
7) 제곱과 제곱근
제곱은 ** 으로 계산할 수 있고,
제곱근은 sqrt함수를 사용해야하는데 이 때
from math import sqrt를 꼭 입력해주어야한다.
그런 다음 sqrt( )안에 제곱근을 구하고자하는 제곱 값을 넣어주면되는데
예를 들어 sqrt(4)의 결과값은 2가 된다.
8) 특정 열(or 행) 제거하기
테이블명.drop(['행 또는 컬럼명'], axis='rows(or columns)')
위 코드를 활용하면 특정 행 또는 컬럼을 제거할 수 있다.
행을 제거하고 싶을때는 axis에 rows를 적고,
열을 제거하고 싶을때는 axis에 columns를 적으면 된다.
9) 히스토그램 & 바 그래프의 차이
왼쪽이 히스토그램, 오른쪽이 바 그래프이다.
얼핏보면 같은 그래프로 볼 수 있는데
히스토그램의 경우 bar와 bar사이에 gap이 없어서 추세를 관찰하기 좋은 그래프이다.
10) gorupby
일반적으로 groupby함수를 사용할 때
groupby('기준이 되는 열')['계산할 값'].집계함수
위와 같이 사용한다.
그런데 평균을 구할때는 ['계산할 값'] 부분을 제외하고
groupby('기준이 되는 열').mean()
만 적어주면 된다.
11) sorted함수
sorted함수는 리스트, 튜플, 집합 등의 시퀀스 요소들을 정리할때 사용하는 내장함수로
내림차순 또는 오름차순으로 정렬할 때 사용하며 문법은 아래와 같다.
sorted(iterable, key=None, reverse=False(or True))
12) join함수
개별 문자로 이루어진 리스트를 하나의 문자열로 만들고싶을때 join함수를 쓸 수 있는데 문법은 아래와 같다.
int('',join(변수))
13) describe( ) 함수
describe 함수는 통계치들을 한눈에 확인해볼 수 있는 함수이다.
개수, 평균, 표준편차, 최소, 상위 25%, 상위 50%, 상위 75%, 최대값을 확인할 수 있다.
14) 차트 축 눈금 수정
시각화 작업을 진행할때 차트의 축 눈금을 수정하고싶을때가 있다.
이 때는 아래와 같이 코드를 입력해주면 된다.
plt.xticks([10,20,30,40,50], labels=[20,30,40,50,60])
'데이터 분석 공부 > WIL(Weekly I Learned)' 카테고리의 다른 글
WIL(Weekly I Learned)(1월 첫째주) (1) | 2024.01.05 |
---|---|
WIL(Weekly I Learned)(12월 넷째주) (0) | 2023.12.29 |
WIL(Weekly I Learned)(12월 둘째주) (0) | 2023.12.15 |
WIL(Weekly I Learned)(12월 첫째주) (1) | 2023.12.08 |
WIL(Weekly I Learned)(11월 다섯째주) (2) | 2023.12.01 |