파이썬 구글스토어 분석 & 명사 추출 및 시각화

Software Development/Python

파이썬 구글스토어 분석 & 명사 추출 및 시각화

huiyu 2022. 10. 2. 23:17

1. 구글플레이 스토어 크롤링

https://heytech.tistory.com/293

[Python] 구글 플레이 스토어 크롤러 코드 Version 2.0.3

안녕하세요! 오늘은 파이썬(주피터 노트북)을 기반으로 직접 코딩한 구글 플레이 스토어 웹 크롤러 코드를 공유합니다. 📝 목차 1. 업데이트 Log 2. 주요 기능 3. 전체 코드 4. 필수 초기 세팅 5.

heytech.tistory.com

2. 한글 명사 추출 및 빈도수 계산(KoNLPy 사용)

https://liveyourit.tistory.com/57

파이썬 KoNLPy를 사용한 한글 명사 추출 및 빈도 계산

KoNLPy 란 아무래도 언어마다 자연어처리를 하기 위한 특성이 제각각이다보니 영어에 맞춰진 자연어처리 도구를 사용하기는 한글에는 맞지 않는다. 그런 이유에서 한글 자연어 처리에 맞춤화된

liveyourit.tistory.com

3. 한글 명사 시각화(Wordclooud 사용)

https://liveyourit.tistory.com/58

파이썬 wordcloud를 사용한 한글 명사 시각화

파이썬 wordcloud는 중요한 단어나 키워드를 시각화해서 보여주는 시각화 도구이다. wordcloud 자체적으로 빈도수를 계산하는 기능이 있다고 하지만 아무래도 한글의 특성이 있다보니, 나는 한글 명

liveyourit.tistory.com

크게 위와 같은 방법으로 접근했다.

1. 긁어오고 싶은 스토어의 모든 리뷰를 가져온다
2. 리뷰들에서 사용된 명사 추출, 가장 많이 사용된 빈도수 순으로 나열
3. 추출한 데이터 시각화

테스트로 스토어에서 만보기 앱을 추출해봤다. 아래와 같이 나온다.

상위권으로 나온 텍스트는 아래와 같다.

'사용', 43)
('보기', 31)
('걸음', 31)
('운동', 26)
('시작', 18)
('기능', 15)
('표시', 13)
('하루', 12)
('거리', 12)
('걷기', 12)
('건강', 12)
('버튼', 11)
('매일', 11)

내가 확인해보고 싶던 앱의 키워드

rating 4~5 점 준 사람의 키워드

rating 1~2

파이썬 명사 추출 & 시각화 코드

import pandas as pd

from konlpy.tag import Okt
from collections import Counter

# 저장한 리뷰 정보 불러오기
df = pd.read_csv('../dataset/review_dataset.csv', encoding = 'utf-8-sig')
df = df.drop(['Unnamed: 0'], axis = 1) # 불필요한 칼럼 삭제
df

df.sort_values(by=['rating'])

condition = (df.rating >=4)

df = df[condition]

okt = Okt()
noun = okt.nouns("")

for rating, content in df.iterrows():
    noun += okt.nouns(content.content)

count = Counter(noun)


#한글자 제거
for i,v in enumerate(noun):
    if len(v)<2:
        noun.pop(i)


count = Counter(noun)

noun_list = count.most_common(100)
for v in noun_list:
    print(v)
    
from wordcloud import WordCloud

wc = WordCloud(font_path='C:\Cafe24Ssurround\Cafe24Ssurround.ttf', background_color="white", width=1000, height=1000,max_words=100,max_font_size=300)

wc.generate_from_frequencies(dict(noun_list))
wc.to_file('rating.png')

728x90

'Software Development > Python' 카테고리의 다른 글

Python + OpenPose로 달리기 포즈 추출해보기(이미지/비디오), OpenPose 기초 이해하기 (7)	2022.02.02
python 두번째 게임 - 마인 스위퍼 (0)	2020.03.28
python 첫번째 게임 cave - 캐릭터 조작 게임로직 (0)	2020.03.22
python 첫번째 게임 만들기 - cave, python/pygame 기초 코드이해 (0)	2020.03.21
Python + Pygame 환경구축 (Window10 / VS code) (2)	2020.03.15

현재글파이썬 구글스토어 분석 & 명사 추출 및 시각화

huiyu's blog

매일 기록하기 - 개발, 운동, 마라톤, 책, 영화, 여행

한식조리사, 실기준비, 타이젠, 운동기록, 업무기록, 운동일지, 도트찍기, 쓰다, 매일기록, Tizen, OpenGL, 설치, c#, WPF, Unity, C++, 알고리즘, 마라톤, 운동, 읽다,

Today :
Yesterday :

huiyu's blog