1. 구글플레이 스토어 크롤링
https://heytech.tistory.com/293
2. 한글 명사 추출 및 빈도수 계산(KoNLPy 사용)
https://liveyourit.tistory.com/57
3. 한글 명사 시각화(Wordclooud 사용)
https://liveyourit.tistory.com/58
크게 위와 같은 방법으로 접근했다.
1. 긁어오고 싶은 스토어의 모든 리뷰를 가져온다
2. 리뷰들에서 사용된 명사 추출, 가장 많이 사용된 빈도수 순으로 나열
3. 추출한 데이터 시각화
테스트로 스토어에서 만보기 앱을 추출해봤다. 아래와 같이 나온다.
상위권으로 나온 텍스트는 아래와 같다.
'사용', 43)
('보기', 31)
('걸음', 31)
('운동', 26)
('시작', 18)
('기능', 15)
('표시', 13)
('하루', 12)
('거리', 12)
('걷기', 12)
('건강', 12)
('버튼', 11)
('매일', 11)
내가 확인해보고 싶던 앱의 키워드
rating 4~5 점 준 사람의 키워드
rating 1~2
파이썬 명사 추출 & 시각화 코드
import pandas as pd
from konlpy.tag import Okt
from collections import Counter
# 저장한 리뷰 정보 불러오기
df = pd.read_csv('../dataset/review_dataset.csv', encoding = 'utf-8-sig')
df = df.drop(['Unnamed: 0'], axis = 1) # 불필요한 칼럼 삭제
df
df.sort_values(by=['rating'])
condition = (df.rating >=4)
df = df[condition]
okt = Okt()
noun = okt.nouns("")
for rating, content in df.iterrows():
noun += okt.nouns(content.content)
count = Counter(noun)
#한글자 제거
for i,v in enumerate(noun):
if len(v)<2:
noun.pop(i)
count = Counter(noun)
noun_list = count.most_common(100)
for v in noun_list:
print(v)
from wordcloud import WordCloud
wc = WordCloud(font_path='C:\Cafe24Ssurround\Cafe24Ssurround.ttf', background_color="white", width=1000, height=1000,max_words=100,max_font_size=300)
wc.generate_from_frequencies(dict(noun_list))
wc.to_file('rating.png')
728x90
'Software Development > Python' 카테고리의 다른 글
Python + OpenPose로 달리기 포즈 추출해보기(이미지/비디오), OpenPose 기초 이해하기 (7) | 2022.02.02 |
---|---|
python 두번째 게임 - 마인 스위퍼 (0) | 2020.03.28 |
python 첫번째 게임 cave - 캐릭터 조작 게임로직 (0) | 2020.03.22 |
python 첫번째 게임 만들기 - cave, python/pygame 기초 코드이해 (0) | 2020.03.21 |
Python + Pygame 환경구축 (Window10 / VS code) (2) | 2020.03.15 |