세조목

최종 프로젝트 15~16일차(24.04.10~11) 본문

데이터 분석 공부/프로젝트

최종 프로젝트 15~16일차(24.04.10~11)

세조목 2024. 4. 11. 21:27

최종 프로젝트 14~15일차입니다.

어제는 거의 하루종일 프롬프트 선정 작업 및 GPT API 테스팅 작업을 진행했습니다.

정확도 때문에라도 GPT4를 사용하는게 맞겠다싶어서 해당 버전을 사용하는 것으로 이야기가 모아졌습니다.

GPT4 중에서도 TURBO 모델이 일반 4버전보다는 저렴해서 TURBO를 쓰기로 했는데요,

문제는 프롬프트를 입력했을 때 정확도가 들쭉날쭉하다는 문제가 있어서

계속해서 프롬프트를 수정했습니다.

프롬프트 예시 1
프롬프트 예시 2

이 작업만 거의 다섯시간 정도 했던 것 같습니다.

오후 4시쯤 돼서는 어느 정도 정리가 된 것 같아서

본격적으로 GPT API 테스팅을 시작했습니다.

일단 8달러 정도만 충전해서 테스팅했는데요,

저희가 생각했던 것보다 과금 속도가 빨랐습니다.

이대로 진행하다가는 13만건은 고사하고, 5만건도 제대로 분석할 수 없다고 생각했습니다.

그래서 일단은 GPT4로 돌리고 있던 코드를 중단시키고,

GPT 3.5 TURBO 버전을 사용하는 것으로 입을 모았습니다.

그렇게 하려면 프롬프트를 조금 더 정교하게 가다듬을 필요가 있었기 때문에

9시 이후부터는 다시 프롬프트 수정 작업에 들어갔습니다.

 

저의 경우 PPT 제작과 발표를 맡았기때문에

10시 이후부터는 PPT 작업에 들어갔는데요,

보통 6시부터 일정을 시작하다보니 11시 정도만 돼도 눈이 절로 감겨서

일단은 자고, 다음날(금일) 새벽 4시에 다시 일어났습니다.

 

금일 오전 10시까지가 발표 자료 제출 기한이었기때문에 최대한 빨리 만들어보았습니다.

다행히 제 시간에 맞춰서 자료를 제출할 수 있었고

이후 시간에는 급하게 만드느라 놓쳤던 부분들을 보완하고,

발표 스크립트를 작성했습니다.

 

그리고 나서 시간이 1시간~2시간 정도 남아서 기존에 하려고했던 워드클라우드 작업도 한 번 시도해봤습니다.

워드클라우드 작업은 저희가 제외한 리뷰 길이 5개 미만의 리뷰가 어떠한 단어들로 구성되어있는지를

시각화해서 살펴보기위해서 해본건데요,

구글링을 바탕으로 코드를 작성하긴했으나

발표 연습 해야한다는 마음에 조급해져서 제대로 작업하지는 못했습니다(+ a 느낌이어서 필수는 아니었거든요).

okt = Okt()
nouns_list=[]
for text in short['Review_text']:
    try:
        #text = remove_emojis(text)
        #clean_text = text.encode('utf-8', 'ignore').decode('utf-8')
        try:
            sentence_list = sent_tokenize(text)

            for sentence in sentence_list:
                nouns = okt.pos(sentence)
                for pos in nouns:
                    if pos[1] == ['Noun']:
                        nouns_list += [pos[0]]
        except Exception as e:
            print(f'오류는 {e}')
            pass
    except UnicodeDecodeError:
        print("인코딩 오류가 발생한 텍스트:", text)
        continue

워드 클라우드는 꼭 한 번 해보고싶은 분석이어서 꼭 이번이 아니더라도 연습해서 다시 시도해보려고합니다.

발표 리허설 1시간 정도 하고서 금일은 조금(?) 일찍 들어가보려고합니다.

새벽 4시에 일어나서 하루를 시작했더니 컨디션이 그렇게 좋지는 않은 것 같습니다.

내일은 중간 발표 날입니다.

발표 후 팀원들과 함께 지금까지 했던 내용들 다시 한 번 정리하고,

향후 방향성에 대해서도 얘기 나눠보려고합니다.