[Python/test]Alien dictonary. 단어모음을 보고 알파벳 순서 예측하기
2020. 2. 16. 16:47
알고리즘 문제
#Problem_eng While you were traveling in a spaceship, you visited an alien planet. Surprisingly in alien languages, they also use lowercase letters in English, but perhaps in a different order. Looking at the set of words you got from studying alien languages, you try to make an alien dictionary. You first want to define what order their alphabet is in. What kind of methods should you use? #문제_한..
[Python/NLP]문서 간 코사인 유사도에 기반한 '유사 게시물 추천 시스템' 만들기(pandas, scikit-learn, tf-idf)
2020. 2. 5. 23:40
Data/ML
2020/01/11 - [Python 3/Natural Language Processing] - [python/NLP]웹 크롤링(crawling) 심화 - Riss 논문 검색 데이터를 csv파일로 저장하기 [python/NLP]웹 크롤링(crawling) 심화 - Riss 논문 검색 데이터를 csv파일로 저장하기 [Python]자연어 처리를 위한 데이터 수집 웹 크롤링-2(crawling-2) list/str 자료형의 특징 및 re(정규화) 2020/01/05 - [Python 3/Natural Language Processing] - 크롤링(crawling) 크롤링(crawling) NLP를 위해.. leo-bb.tistory.com 여태까지 다양한 사이트의 메타 데이터 중 필요한 데이터만 얻어오는 크..
[Python/NLP]WikiExtractor를 이용한 위키덤프(Wiki dump)파싱 for Mac/window
2020. 1. 23. 20:32
Data/Data Engineering
기초적인 자연어 처리를 위해 데이터를 수집하는 경우 신문기사와 더불어 위키 덤프(wiki dump)를 많이 활용합니다. 오늘은 위키덤프를 다운로드 받고 파싱하여 txt형태로 저장하는 방법을 소개합니다. 1. 한글 위키 덤프 파일 다운로드 아래 링크를 통해 내용만 담긴 가장 최신 데이터를 받으실 수 있습니다. http://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2 다른 한글 위키 덤프 파일의 경우 아래 링크에서 받으실 수 있습니다. https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9..
[Python/LeetCode]코딩테스트 준비를 위한 파이썬 알고리즘 문제 11. Container With Most Water 해설(Medium level)
2020. 1. 21. 12:23
알고리즘 문제
문제 11. Container With Most Water Given n non-negative integers a1, a2, ..., an , where each represents a point at coordinate (i, ai). n vertical lines are drawn such that the two endpoints of line i is at (i, ai) and (i, 0). Find two lines, which together with x-axis forms a container, such that the container contains the most water. Note: You may not slant the container and n is at least 2. Loo..
[Python/LeetCode]코딩테스트 준비를 위한 파이썬 알고리즘 문제 7.Reverse integer 해설(Easy level)
2020. 1. 19. 18:53
알고리즘 문제
문제 7. Reverse integer Given a 32-bit signed integer, reverse digits of an integer. Example 1: Input: 123 Output: 321 Example 2: Input: -123 Output: -321 Example 3: Input: 120 Output: 21 Note:Assume we are dealing with an environment which could only store integers within the 32-bit signed integer range: [−2^31, 2^31 − 1]. For the purpose of this problem, assume that your function returns 0 when ..
[Python/LeetCode]코딩테스트 준비를 위한 파이썬 알고리즘 문제 5.Longest Palindromic Substring 참조해설(Medium level)
2020. 1. 19. 01:39
알고리즘 문제
문제 5. Longest palindromic substring Given a string s, find the longest palindromic substring in s. You may assume that the maximum length of s is 1000. Example 1: Input: "babad" Output: "bab" Note: "aba" is also a valid answer. Example 2: Input: "cbbd" Output: "bb" 오늘 해설의 idea는 "Chomolungma" 라는 유저의 글을 참고하였습니다. def longestPalindrome(s): #문자열이 공백인 경우 그대로 출력 if len(s)==0: return s flag=1 start=0 #문..
[Python/LeetCode]코딩테스트 준비를 위한 파이썬 알고리즘 문제 4.Median of Two Sorted Arrays 해설(High level)
2020. 1. 18. 21:02
알고리즘 문제
문제 4. Median of Two Sorted Arrays There are two sorted arrays nums1 and nums2 of size m and n respectively. Find the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)). You may assume nums1 and nums2 cannot be both empty. Example 1: nums1 = [1, 3] nums2 = [2] The median is 2.0 Example 2: nums1 = [1, 2] nums2 = [3, 4] The median is (2 + 3)/2 = 2.5 두 개의 sorted ..