티스토리 뷰
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
|
from konlpy.tag import Okt
from konlpy.tag import Hannanum
from collections import Counter
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd
import csv
filename = "riss국내학술지.txt"
f = open(filename, 'r', encoding='utf-8')
news = f.read()
okt = Okt()
okt = Hannanum()
noun = okt.nouns(news)
count = Counter(noun)
noun_list = count.most_common(1000)
for v in noun_list:
print(v)
with open("noun_list.csv", "w", newline='', encoding='utf-8') as f:
csvw = csv.writer(f)
for v in noun_list:
csvw.writerow(v)
|
cs |
konlpy의 Okt와 Hannamum를 이용해서 어제 riss에서 추출한 학술지 논문 제목을 명사로 빈도분석했다.
논문의 영문 제목을 일일이 제거하는 방법을 몰라서 그냥 두었는데, VOSviewer를 이용할 때 의외의 이점이 되었다.
.txt 파일 자체로 다음과 같은 네트워크를 그릴 수 있었던 것.
물론 항목들의 명칭을 한국어로 나오게 하려면 결국 영어를 없애야겠지만...
일단 오전 업무는 여기까지.
20.11.25. 추가
영어와 특수문자를 없애는 코드는 이거다.
full_word_list = []
full_sentence_list = []
for j in data['프로그램 명']:
word_list = []
sentence = ''
text_analyze = hannanum.pos(j)
for i in text_analyze:
if 'N' in i:
if i[0].isalpha() == True: #문자로만 구성되어 있는지 확인
hangul = re.compile('[^ a-z ㄱ-ㅣ가-힣]+') #기호 모두 삭제 한글만 남기기
word = hangul.sub('', i[0])
re.sub('[^A-Za-z0-9가-힣]', '', i[0])
if word != '' and word != ' ' and len(word) != 1:
word_list.append(word)
sentence = sentence + ' '+ word
full_word_list.append(word_list)
full_sentence_list.append(sentence)
'2020 공공 빅데이터 청년인턴십: 데이터 전문교육과정 > 인평원에서' 카테고리의 다른 글
20201109 (0) | 2020.11.09 |
---|---|
20201102 논문 크롤링: riss에서 크롤링하기 (0) | 2020.11.02 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 자버
- 빅데이터
- 깃허브
- 데이터분석
- 빅분기합격
- 코테공부
- 자격증
- 인공지능
- Kaggle
- data annotation
- 이자포스터디
- 이력서
- Til
- ADsP합격후기
- 데이터준전문가합격후기
- googlecolab
- 취업준비
- 데이터준전문가
- 데이터과학
- 개발자포트폴리오
- 빅분기
- github
- todayIlearned
- 빅분기후기
- ai부트캠프
- 커리어코칭
- Notion2Tistory
- ADsP
- 빅데이터분석기사
- 코드스테이츠
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함