[Python/Data]Pandas Profiling을 활용한 쉽고 빠른 Python EDA
2020. 10. 8. 13:48
Data/Data Analysis
Pandas_profiling I. Pandas Profiling 머신 러닝 등 데이터를 이용하는 모든 활동에서 선행되는 것은 보유한 데이터의 성격과 변수간 관계 파악 등 분석 과정과 전처리 과정입니다. 오늘 주제인 pandas profiling 은 한 줄의 명령어로 빠르게 데이터 EDA를 가능하게 해주는 라이브러리입니다. II. Pandas Profiling 사용 1. 설치 pip install pandas_profiling 2. 사용하기 google colab 환경에서 사용한 예시입니다. profile_report(), to_file() 이 두가지 메소드만 기억하시면 됩니다. 패키지 import 후 원하는 데이터를 가져와서 profile_report() 를 사용하면 됩니다. 파일로 저장하고 싶을 땐 ..
[Python]파이썬 동시성/비동기 프로그래밍 3. GIL(Global interpreter Lock)
2020. 7. 19. 14:54
Programming/Python
파이썬 동시성/비동기 프로그래밍 2. Asyncio [python]파이썬 동시성/비동기 프로그래밍 2. Asyncio [python]파이썬 동시성/비동기 프로그래밍 1. 코루틴 [python]파이썬 동시성/비동기 프로그래밍 1. 코루틴 코루틴 3.5 버전부터 지원(async/await 문법은 3.7 이상부터) 코루틴을 사용하면 CPU와 리소스 낭�� leo-bb.tistory.com GIL(Global Interpreter Lock) I. 파이썬의 구동방식 파이썬은 대표적인 인터프리터 언어입니다. 때문에 파이썬 실행 시 인터프리터가 메모리에 할당되고, 코드를 컴퓨터의 언어로 해석하여 CPU에 전달하면 CPU가 이를 받아 실행하는 순서로 진행됩니다.(마치 자바의 JVM 같은 것으로 파이썬이 "느린 언어"라..
[python]Comprehension and Generator expression
2020. 7. 11. 20:59
Programming/Python
2020/07/11 - [Coder/Python] - [python/자료형] 시퀀스 자료형 -2. Dict [python/자료형] 시퀀스 자료형 -2. Dict 3. dict tuple, dict 와 함께 정말 많이 쓰는 자료형 중 하나 대표적인 hashtable 1) dict source = (('k1', 'val1'), ('k1', 'val2'), ('k2', 'val3'), ('k2', 'val4'), ('k2', 'val5')) dic1 = {} for k, v in s.. leo-bb.tistory.com 1. Comprehension and Generator expression 1) Comprehension iterable 한 객체를 생성하는 방법 중 하나 A. iterable 다수 요소(el..
[python]파이썬 함수형 프로그래밍(일급함수, 고차함수, 클로저)
2020. 7. 11. 19:17
Programming/Python
1. 개념 순수 함수들을 조합하여 전체 프로그램을 구현하는 방식으로 말 그대로 프로그램 내에서 데이터 연산 및 처리를 수학적인 개념에서 이해하여 다루려는 개념 2. 콘셉트 side effect 차단 모든 state를 immutable 하게 만들어 side effect를 사전에 차단하려 합니다. f(x+y) = z 가 있다면 f(x+y) = n 가 절대 불가능하듯 하나의 함수가 단 하나의 정상 값과 동작 결과를 갖도록 합니다. 모든 것을 객체로 취급 함수형 프로그래밍에서는 모든 것을 객체로 취급하기 때문에 함수 자체도 객체로 취급합니다. 따라서 함수형 프로그래밍에서는 함수가 인수로 전달되고, 변수에 할당될 수 도 있으며 반환될 수 있습니다. 보다 쉽고 안전한 동시성 작업 모든 객체들이 immutable 하..
[Python/test]Alien dictonary. 단어모음을 보고 알파벳 순서 예측하기
2020. 2. 16. 16:47
알고리즘 문제
#Problem_eng While you were traveling in a spaceship, you visited an alien planet. Surprisingly in alien languages, they also use lowercase letters in English, but perhaps in a different order. Looking at the set of words you got from studying alien languages, you try to make an alien dictionary. You first want to define what order their alphabet is in. What kind of methods should you use? #문제_한..
[Python/NLP]문서 간 코사인 유사도에 기반한 '유사 게시물 추천 시스템' 만들기(pandas, scikit-learn, tf-idf)
2020. 2. 5. 23:40
Data/ML
2020/01/11 - [Python 3/Natural Language Processing] - [python/NLP]웹 크롤링(crawling) 심화 - Riss 논문 검색 데이터를 csv파일로 저장하기 [python/NLP]웹 크롤링(crawling) 심화 - Riss 논문 검색 데이터를 csv파일로 저장하기 [Python]자연어 처리를 위한 데이터 수집 웹 크롤링-2(crawling-2) list/str 자료형의 특징 및 re(정규화) 2020/01/05 - [Python 3/Natural Language Processing] - 크롤링(crawling) 크롤링(crawling) NLP를 위해.. leo-bb.tistory.com 여태까지 다양한 사이트의 메타 데이터 중 필요한 데이터만 얻어오는 크..
[Python/NLP]WikiExtractor를 이용한 위키덤프(Wiki dump)파싱 for Mac/window
2020. 1. 23. 20:32
Data/Data Engineering
기초적인 자연어 처리를 위해 데이터를 수집하는 경우 신문기사와 더불어 위키 덤프(wiki dump)를 많이 활용합니다. 오늘은 위키덤프를 다운로드 받고 파싱하여 txt형태로 저장하는 방법을 소개합니다. 1. 한글 위키 덤프 파일 다운로드 아래 링크를 통해 내용만 담긴 가장 최신 데이터를 받으실 수 있습니다. http://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2 다른 한글 위키 덤프 파일의 경우 아래 링크에서 받으실 수 있습니다. https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9..