Published 2020. 1. 23. 20:32
반응형
기초적인 자연어 처리를 위해 데이터를 수집하는 경우 신문기사와 더불어 위키 덤프(wiki dump)를 많이 활용합니다.
오늘은 위키덤프를 다운로드 받고 파싱하여 txt형태로 저장하는 방법을 소개합니다.
1. 한글 위키 덤프 파일 다운로드
아래 링크를 통해 내용만 담긴 가장 최신 데이터를 받으실 수 있습니다.
http://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2
다른 한글 위키 덤프 파일의 경우 아래 링크에서 받으실 수 있습니다.
2. WikiExtractor 설치
https://github.com/attardi/wikiextractor
위 github에 접속하여 붉은 원으로 둘러쌓인 부분을 누르시면 깃 주소를 복사하실 수 있습니다.
3. Extract
위키덤프가 저장된 공간에서 cmd를 열어주신 다음 "git clone (복사한 주소)'를 입력하면 클론파일이 생성됩니다.
설치된 WikiExtractor.py가 있는 공간에 위키 덤프 파일을 넣어주신다음 bash를 열어
python WikiExtractor.py kowiki-latest-pages-articles.xml.bz2
를 입력해주시면 자동으로 추출이 시작됩니다.
반응형