Python 13

복합명사를 알아서 추출하는 논문 (JAVA 코드)

일명 후처리라고도 부르는, 복합명사 생성 알고리즘이다. 아래 논문에서 개념을 제시했다. 자바 코드가 있는 부분은 58쪽부터 60쪽 까지다. 'A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data', Hyeon Gyu Kim, Sahmyook Univ(삼육대 김현규), Journal of The Korea Society of Computer and Information, Vol. 26 No. 8, pp. 55-63, August 2021. https://doi.org/10.9708/jksci.2021.26.08.055 A Method for Compound Noun Extraction t..

파이썬 인코딩 문제 (해결함): 주요 코덱들(utf8, cp949, utf16)을 다 집어넣어 보기

한국어 처리할 때 제일 골치아픈 것은 인코딩 문제이다. 특히 UnicodeDecodeError 이거는 시도때도 없이 튀어나와서 사람 애먹인다. 처음에는 utf-8 에러가 뜨길래, cp949로 바꿨다. 그랬더니 다른 문서에서 에러가 뜨길래 utf-16을 써봤으나 별 도움이 안 되었다. 에러의 대표적인 예시:'utf-8' codec can't decode byte 0xbe in position 0: invalid start byteUTF-16 stream does not start with BOM'cp949' codec can't decode byte 0xbf in position 2: illegal multibyte sequence전제: (txt 파일 read 로 불러올 때)with open (file_p..

코드 중간중간에 붙이는 주석 codetag(코드태그)의 목록

파이썬 코드 내부에 XXX나 기타 희한한 문구를 붙여놓길래 뭔가해서 찾아보았다.코드에 주석달 때 쓸만하겠다. 내가 한글로 가볍게 번역해놨다.내가 직접 번역 못한 것은 24.06에 챗지피티를 활용해서 이해 안되는 내용을 번역했다.코드 태그는 해당 목적을 나타내는 줄임말이므로, 다양한 명칭이 가능하다.실제로는 하나의 코드 태그만을 쓰는게 나중에 찾기 좋다.글자수를 줄이는 것은 좋지만, 모음을 줄여 헷갈리게 만드는 것보단 차라리 긴 게 나을 것이다.MILESTONE  >= MLSTN https://peps.python.org/pep-0350/ PEP 350 – Codetags | peps.python.orgPEP 350 – Codetags Author Micah Elliott Status Rejected Ty..