Python 13

복합명사를 알아서 추출하는 논문 (JAVA 코드)

일명 후처리라고도 부르는, 복합명사 생성 알고리즘이다. 아래 논문에서 개념을 제시했다. 자바 코드가 있는 부분은 58쪽부터 60쪽 까지다. 'A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data', Hyeon Gyu Kim, Sahmyook Univ(삼육대 김현규), Journal of The Korea Society of Computer and Information, Vol. 26 No. 8, pp. 55-63, August 2021. https://doi.org/10.9708/jksci.2021.26.08.055 A Method for Compound Noun Extraction t..

파이썬 인코딩 문제 (해결함): 주요 코덱들(utf8, cp949, utf16)을 다 집어넣어 보기

한국어 처리할 때 제일 골치아픈 것은 인코딩 문제이다. 특히 UnicodeDecodeError 이거는 시도때도 없이 튀어나와서 사람 애먹인다. 처음에는 utf-8 에러가 뜨길래, cp949로 바꿨다. 그랬더니 다른 문서에서 에러가 뜨길래 utf-16을 써봤으나 별 도움이 안 되었다. 에러의 대표적인 예시: 'utf-8' codec can't decode byte 0xbe in position 0: invalid start byte UTF-16 stream does not start with BOM 'cp949' codec can't decode byte 0xbf in position 2: illegal multibyte sequence 전제: (txt 파일 read 로 불러올 때) with open (f..

코드 중간중간에 붙이는 주석 codetag(코드태그)의 목록

파이썬 내부에 XXX나 기타 희한한 문구를 붙여놓길래 뭔가해서 찾아보았다. 한글로 가볍게 번역해놨다.코드에 주석달 때 쓸만하겠다. 내가 번역 못한 것은 24.06에 챗지피티를 활용해서 이해 안되는 내용을 번역했다. https://peps.python.org/pep-0350/ PEP 350 – Codetags | peps.python.orgPEP 350 – Codetags Author Micah Elliott Status Rejected Type Informational Created 27-Jun-2005 Post-History 10-Aug-2005, 26-Sep-2005 Table of Contents This PEP has been rejected. While the community may be in..