[Python/Data]Pandas Profiling을 활용한 쉽고 빠른 Python EDA
2020. 10. 8. 13:48
Data/Data Analysis
Pandas_profiling I. Pandas Profiling 머신 러닝 등 데이터를 이용하는 모든 활동에서 선행되는 것은 보유한 데이터의 성격과 변수간 관계 파악 등 분석 과정과 전처리 과정입니다. 오늘 주제인 pandas profiling 은 한 줄의 명령어로 빠르게 데이터 EDA를 가능하게 해주는 라이브러리입니다. II. Pandas Profiling 사용 1. 설치 pip install pandas_profiling 2. 사용하기 google colab 환경에서 사용한 예시입니다. profile_report(), to_file() 이 두가지 메소드만 기억하시면 됩니다. 패키지 import 후 원하는 데이터를 가져와서 profile_report() 를 사용하면 됩니다. 파일로 저장하고 싶을 땐 ..
[Python/NLP]문서 간 코사인 유사도에 기반한 '유사 게시물 추천 시스템' 만들기(pandas, scikit-learn, tf-idf)
2020. 2. 5. 23:40
Data/ML
2020/01/11 - [Python 3/Natural Language Processing] - [python/NLP]웹 크롤링(crawling) 심화 - Riss 논문 검색 데이터를 csv파일로 저장하기 [python/NLP]웹 크롤링(crawling) 심화 - Riss 논문 검색 데이터를 csv파일로 저장하기 [Python]자연어 처리를 위한 데이터 수집 웹 크롤링-2(crawling-2) list/str 자료형의 특징 및 re(정규화) 2020/01/05 - [Python 3/Natural Language Processing] - 크롤링(crawling) 크롤링(crawling) NLP를 위해.. leo-bb.tistory.com 여태까지 다양한 사이트의 메타 데이터 중 필요한 데이터만 얻어오는 크..
[python]웹 크롤링(crawling) - Riss 논문 검색 데이터를 csv파일로 저장하기
2020. 1. 11. 14:35
Data/Data Engineering
다중 스레드를 활용한 Riss 논문 데이터 크롤러에 관한 링크입니다. [python]파이썬 동시성/비동기 프로그래밍 5. 활용 예시 Riss Crawler 만들어서 Riss 논문 데이터 다운로 파이썬 동시성/비동기 프로그래밍 4. concurrent.futures [Python]파이썬 동시성/비동기 프로그래밍 4. concurrent.futures 파이썬 동시성/비동기 프로그래밍 3. GIL(Global interpreter Lock) [Python]파이썬 동.. leo-bb.tistory.com 현 문서와의 차이점 1. 동시성을 이용해 속도 증가 2. 쉬운 사용법과 간결함 3. 비제한적 크롤링에 관한 전반적인 방법은 이전 글을 참고해주시기 바랍니다. Basic Riss crawl 어떤 목적을 가지고 연..