본문 바로가기

Playdata Analysis 33기

(13)
231116 TIL | 미니프로젝트 - 4 ⭐오늘 진행한 것 단어사전 기반으로 모델링Kobert 진행 완료 Kobert 레퍼런스 : https://velog.io/@fhflwhwl5/Python-KoBERT-7가지-감정%[…]류모델-구현하기 ✔️Trial and Error Kobert 모델 import 안되는 문제 발생 → hugging face에서 불러와서 해결 완료 📝느낀 점 감정분석 모델은 긍/부정으로만 나뉘는 모델만 알고 있었는데 다중 분류를 위해서 새로운 모델인 Kobert모델을 직접 모델링할 수 있어서 좋은 기회였다. 다만 감정사전을 직접 구축하는 단계를 추가해야 완벽히 감정분석을 익힐 수 있을 듯 파이썬 버전이 바뀌면서 모델이 안돌아가서 너무 당황했지만 코드 수정으로 해결! 뿌듯했음 🚩 다음 할 일 : 단어 사전 구축(목표 : 금~다..
231115 TIL | 미니프로젝트 - 3 ⭐오늘 진행한 것 프로젝트 주제 변경 : 화장품 리뷰 데이터 분석 퍼스널 컬러 추천 → 일기 감정 분석 기반 노래 추천 멜론 크롤러 코드 짜기 - ㅎㄱ, ㄴㄹ, ㅈㅇ 모델링 방향 기획 - ㅇㅈ 🚩내일 할 일 : 단어사전 기반으로 모델링 (LSTM - 지우가 보낸 프로젝트, Kobert- 내가보낸 프로젝트) 진행해보기 이후 앙상블 or 추가로 여러모델돌려보고 앙상블✔️참고 GIT(레퍼런스는 모델링 진행하면서 더찾아보기) Kobert추가 모델 :BERT, KoBERT, KoBERT-large, KoElectra-base, KoElectra-base, KLUE RoBERTa-base, KLUE RoBERTa-large Kobert : https://github.com/jongmin-oh/lyrics_emoti..
231114 TIL | 미니프로젝트 - 2 미니 프로젝트 단계 데이터 수집 - 글로우픽 리뷰 데이터 웹 크롤링 => 진행 중 데이터 전처리 => 진행 중 2-1(띄어쓰기, 외국어, 자음모음(ㅋㅋ,,ㅎㅎㅎㅎ), 특수문자 ) 등 리뷰에서 제거 EDA 사용자 평점 분포, 화장품 브랜드 분포 등 데이터 기본 정보 시각화 4.'퍼스널 컬러'가 포함된 리뷰만 남기기 논의 필요 토큰화 후 고빈도단어 추출 => 진행 중 6.고빈도 단어추출결과 바탕으로 'Personal color vocabulary' 정의 논의 필요 리뷰에서 많이 나오는 단어들을 각 "웜톤/쿨톤 으로 분류" -> 세부톤 "봄 웜톤, 여름 쿨톤, 여름 뮤트, 가을 웜톤, 가을 뮤트 , 겨울 쿨톤" 으로 분류 모델링 사용자 입력 -> 추천 결과 출력 오늘 진행한 것 ㅎㄱ, ㅈㅇ - 리뷰 데이터 웹..
231113 TIL | 미니프로젝트 - 1 미니 프로젝트 단계 1. 데이터 수집 - 글로우픽 리뷰 데이터 웹 크롤링 => 진행 중 2. 데이터 전처리 2-1(띄어쓰기, 외국어, 자음모음(ㅋㅋ,,ㅎㅎㅎㅎ), 특수문자 ) 등 리뷰에서 제거 3. EDA - 사용자 평점 분포, 화장품 브랜드 분포 등 데이터 기본 정보 시각화 4.'퍼스널 컬러'가 포함된 리뷰만 남기기 논의 필요 5. 토큰화 후 고빈도단어 추출 논의 필요 6.고빈도 단어추출결과 바탕으로 'Personal color vocabulary' 정의 논의 필요 리뷰에서 많이 나오는 단어들을 각 "웜톤/쿨톤 으로 분류" -> 세부톤 "봄 웜톤, 여름 쿨톤, 여름 뮤트, 가을 웜톤, 가을 뮤트 , 겨울 쿨톤" 으로 분류 7. 모델링 8. 사용자 입력 -> 추천 결과 출력 오늘 진행한 것 ㅎㄱ, ㅈㅇ ..
플레이데이터 애널리시스 33기 11월 1주차(10/30 ~ 11/03) 회고 1. 전반적인 느낌(일주일동안 한 일) 1) 실행한 것 - SQLD 스터디 DAY4~DAY8 -> SQLD 2과목 Where절 까지 끝냄. -창업경진대회아이데이션 기획서 작성 및 제출 ->1차 초안 완성 - python 튜토리얼 lv3~5 > 못함 ㅜㅜ - 제 1회 국민대학교 AI빅데이터 분석 경진대회 > 전처리 못함 ㅜㅜ + 추가로 진행한 것 - 미니프로젝트 기획 및 아이데이션 - 대학생 스타트업 애널리스트 1기 지원서 제출 2) 배운 것 딥러닝 모델 CNN RNN(+LSTM) LSTM을 이용한 삼성전자 주가 데이터 예측 GAN 유명인 얼굴인식 및 생성 3) 느낀 것 CNN에서는 convolution layer에서 filter와 channel의 관계를 이해하는 것이 어려웠다. RNN는 선형모델에 재귀순..
플레이데이터 애널리시스 33기 10월 4주차(10/23 ~ 10/29) 회고 1. 전반적인 느낌(일주일동안 한 일) 1) 배운 것 이번 주에는 '딥러닝 모델개선' 방법 6가지과 'CNN모델의 개요' 를 배웠다. 모델은 과소적합이나 과대적합이 일어날 수 있는데 , 1. DNN 모델의 크기를 변경하거나, 2. Epoch수, layer수,unit수를 조정해서 모델의 크기를 바꿀 수 있다. 3. Dropout layer를 추가해서 랜덤으로 노드를 학습해 overfitting을 방지하고, 4. 배치정규화를 이용해 모델의 성능을 높일 수 있었다. 5. 학습률 조정방식을 이용해서 gradient를 더욱 정교하게 찾을 수 있는 방법과 6. Hyperparameter tuning을 이용해 모델을 개선하는 방법도 있다. 2) 실행한 것(개인프로젝트, 수학 공부 등) 데이콘의 python 튜토리얼을..
[플레이데이터] 데이터 애널리시스 트랙 33기 합격 후기 | 데이터분석 부트캠프 부트캠프 선발 과정 🔗https://playdata.io/bootcamp_analysis 부트캠프 선발 과정은 홈페이지에 '신청서 제출 > 간단한 면접 인터뷰 > 1~2일 안에 합격 문자 > 개강일부터 오프라인으로 9시~6시 수강'이였다. 면접 면접을 본다고 해서 긴장했으나 내 기억으로는 수업에 잘따라올 수 있는지(6개월간 주중 오전 9시~6시 오프라인 수업), 성실히 참여할 수 있는지, 관련 분야에 대한 경험이 있는지 정도만 30분?쯤 간단히 물어봤던 부담없는 면접이였다. 합불에 큰 영향이 있는 면접은 아닌 것같았으니 너무 걱정하지 않길 바란다. 부트캠프 시작 전 준비 플레이데이터에서는 부트캠프에 합격하면 기초 지식이 없는 사람들을 위해 ,프리코스라는 이름의 기초 인강을 제공한다. 내일배움카드를 발급한..
플레이데이터 애널리시스 33기 10월 3주차(10.16 ~ 10.22) 회고 1. 전반적인 느낌 ( 일주일 동안 한 일 ) 이젠 이 생활에도 적응을 너무나 해버린~루틴화된 삶...반복반복 지난 주 배운 것 : 1) pytorch로 딥러닝을 학습하는 것을 끝냈음. 딥러닝 개요 -> tensor다루기 -> pytorch linear -> gradient deceding 과정을 돌면서 딥러닝의 기본에 대해서 배움. tensor객체를 생성해 머신러닝 모델링에 사용할 데이터를 처리하고, 모델링에서 선형 layer를 생성해 여러 layer를 중첩해서 내가 원하는 값을 도출하기 위한 모델링 샘플을 직접 만들어봄. 한 번의 모델링이 끝난 후에는 파라미터의 gradient를 계산해서 최적화 과정을 진행하는데 오차함수를 미분하여 최적화값을 구하는 과정을 직접 구해봄 2) Dataset와 Datal..