미니 프로젝트 단계
1. 데이터 수집 - 글로우픽 리뷰 데이터 웹 크롤링 => 진행 중
2. 데이터 전처리
2-1(띄어쓰기, 외국어, 자음모음(ㅋㅋ,,ㅎㅎㅎㅎ), 특수문자 ) 등 리뷰에서 제거
3. EDA
- 사용자 평점 분포, 화장품 브랜드 분포 등 데이터 기본 정보 시각화
4.'퍼스널 컬러'가 포함된 리뷰만 남기기 논의 필요
5. 토큰화 후 고빈도단어 추출 논의 필요
6.고빈도 단어추출결과 바탕으로 'Personal color vocabulary' 정의 논의 필요
리뷰에서 많이 나오는 단어들을 각 "웜톤/쿨톤 으로 분류" -> 세부톤 "봄 웜톤, 여름 쿨톤, 여름 뮤트, 가을 웜톤, 가을 뮤트 , 겨울 쿨톤" 으로 분류
7. 모델링
8. 사용자 입력 -> 추천 결과 출력
오늘 진행한 것
ㅎㄱ, ㅈㅇ - 글로우픽 리뷰 데이터 웹 크롤링 코드 짜기
- 크롤러 60% 완성
- 립 메이크업, 아이섀도우 키워드 검색결과로 나온 제품들 제품명, 별점 수, 리뷰 수 등 크롤링 => 완료
- 제품별 리뷰 데이터 , 사용자 아이디 크롤링 => 제품 ID 크롤링 까지 완료
ㅇㅈ - 웹크롤링 이후, 리뷰데이터 토큰화, 라벨링, 모델링 방식 기획 => 모델링 종류 확인까지 완료 , 라벨링 방식 고안 필요
ㄴㄹ - 빅콘테스트 발표 일정으로 불참
Trial and Error
- 크롤링 과정에서 비정상적 접근 과다로 서버가 다운됨 → 몇분 뒤 서버 정상화
- url에 있는 제품 코드를 추출하는 과정이 굉장히 까다로웠음 → html에서 find_element() > div태그 찾고 > div.get_attribute('id')로 id를 찾아서 리스트로 반환.해서 해결
'Playdata Analysis 33기' 카테고리의 다른 글
231115 TIL | 미니프로젝트 - 3 (0) | 2023.11.16 |
---|---|
231114 TIL | 미니프로젝트 - 2 (0) | 2023.11.16 |
플레이데이터 애널리시스 33기 11월 1주차(10/30 ~ 11/03) 회고 (1) | 2023.11.06 |
플레이데이터 애널리시스 33기 10월 4주차(10/23 ~ 10/29) 회고 (1) | 2023.10.31 |
[플레이데이터] 데이터 애널리시스 트랙 33기 합격 후기 | 데이터분석 부트캠프 (1) | 2023.10.24 |