꼬꼬마(Kkma)가 다른 한국어 형태소 분석기에 비해 느린 이유는, 사전 기반 방식(dictionary based)인데, 사전에 단어를 엄청나게 넣어 놓았기 때문이다. KoNLPy 라이브러리 중에 꼬꼬마가 더 느리다던 사람 글 보고 생각나서 쓴다. 각 형태소분석기 클래스 각각 풀어보면 꼬꼬마가 폴더 용량이 제일 크다. 뜯어보면 사전식인데 거기다가 온갖 단어를 다 집어넣어놓았다. 특히 일반명사 NNG 에는 한 10만개 쯤 들어가있어서 수 메가바이트 나오는걸로 안다. 다른 것들은 특정 상황에서 조사를 빼내는 방식인거 같던데, 꼬꼬마는 수십만개 사전으로 비교해보라고 던져주니 더 느리고 무거울수밖에 없을거다. Python/자연어처리(NLP) 2023.09.13
Python에서 glob.glob() 쓸 때 디렉토리 주소 끝에를 /* 로 보정해주는 함수 import glob 이런거 빠졌는지 확인하고. glob.glob(path_name) 쓸 때 path_name = '최상단폴더/하위폴더/하위폴더/.../파일있는폴더/*'로 써야한다. 그런데 주소 붙이다보면 '최상단폴더/하위폴더/하위폴더/.../파일있는폴더' 로 가져올 때가 있다. 언제 어디서 무엇이 틀렸는지 모르니까 그냥 함수로 보정해버리는게 편리하다. def adjust_dir_ending(dir_folder_path): ## 보통 sorted(glob.glob(dir_folder_path))에서 dir_folder_path 가 /* 로 끝나는 str이 아닐 때 오류가 난다. ## 이거 설정하는거 자주 깜빡하므로, 폴더 주소를 /*로 정확히 끝내지 않았을 때 /* 를 붙여 보정해주는 함수 ## 실제로 .. Python/분류가 애매함 2023.09.13
복합명사를 알아서 추출하는 논문 (JAVA 코드) 일명 후처리라고도 부르는, 복합명사 생성 알고리즘이다. 아래 논문에서 개념을 제시했다. 자바 코드가 있는 부분은 58쪽부터 60쪽 까지다. 'A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data', Hyeon Gyu Kim, Sahmyook Univ(삼육대 김현규), Journal of The Korea Society of Computer and Information, Vol. 26 No. 8, pp. 55-63, August 2021. https://doi.org/10.9708/jksci.2021.26.08.055 A Method for Compound Noun Extraction t.. Python/자연어처리(NLP) 2023.09.13
파이썬 인코딩 문제 (해결함): 주요 코덱들(utf8, cp949, utf16)을 다 집어넣어 보기 한국어 처리할 때 제일 골치아픈 것은 인코딩 문제이다. 특히 UnicodeDecodeError 이거는 시도때도 없이 튀어나와서 사람 애먹인다. 처음에는 utf-8 에러가 뜨길래, cp949로 바꿨다. 그랬더니 다른 문서에서 에러가 뜨길래 utf-16을 써봤으나 별 도움이 안 되었다. 에러의 대표적인 예시:'utf-8' codec can't decode byte 0xbe in position 0: invalid start byteUTF-16 stream does not start with BOM'cp949' codec can't decode byte 0xbf in position 2: illegal multibyte sequence전제: (txt 파일 read 로 불러올 때)with open (file_p.. Python/인코딩(encoding) 2023.09.13
코드 중간중간에 붙이는 주석 codetag(코드태그)의 목록 파이썬 코드 내부에 XXX나 기타 희한한 문구를 붙여놓길래 뭔가해서 찾아보았다.코드에 주석달 때 쓸만하겠다. 내가 한글로 가볍게 번역해놨다.내가 직접 번역 못한 것은 24.06에 챗지피티를 활용해서 이해 안되는 내용을 번역했다.코드 태그는 해당 목적을 나타내는 줄임말이므로, 다양한 명칭이 가능하다.실제로는 하나의 코드 태그만을 쓰는게 나중에 찾기 좋다.글자수를 줄이는 것은 좋지만, 모음을 줄여 헷갈리게 만드는 것보단 차라리 긴 게 나을 것이다.MILESTONE >= MLSTN https://peps.python.org/pep-0350/ PEP 350 – Codetags | peps.python.orgPEP 350 – Codetags Author Micah Elliott Status Rejected Ty.. Python/분류가 애매함 2023.09.13
구글계정 약 1주일마다 자동으로 로그아웃되는 문제 해결해보기: 포기 마지막 자동 로그아웃은 0822쯤 일어났다. 아래 작업을 실행해놓고 지켜보는 중이다. (기록에 이상 없다면 이글 읽는 지금까지 문제가 없다는 뜻이다.) 9/5 경에 다른 문제가 생겼지만, 로그아웃은 되지 않았다. 기존 자료들을 찾아보면 쿠키가 삭제되어서? 라고 하던데 정확히는 모르겠다. 이유없이 다음날 컴퓨터 켠 시점도 아니고 낮에 잘만 쓰는데 중간에 로그아웃된다. 24.02.01 포기했다. 저런거 해도 내가 알 수 없는 내부조작으로 쿠키가 삭제되면 바로 자동 로그아웃 시켜버린다. 영문 qna 뒤져봐도 크롬 고질병 정도로 설명하는 느낌이다. 어차피 일주일에 한번 정도니까 참고 써야겠다. 어쩌겠나. Google 2023.09.13
한글 2022 확장자 기본값 hwpx에서 hwp로 바꾸기 && 기본값 서식(폰트 10에서 12로) 바꾸는 방법: 각각 한짤 요약 사진으로 설명 대체한다. 출처 1. 확장자 바꾸기 2. 폰트 크기 기본값을 바꾸기 https://hwsecter.tistory.com/1357 한글 기본 글꼴 변경 및 폰트 크기 설정하는 방법 한컴오피스의 한글은 한글과컴퓨터(Hancom Inc.)는 창립자 이찬진이 1989년 한글 1.0을 발표한 이후 1995년 02월 한글오피스 3.0, 같은해 12월에 윈도우 3.1 기반의 한글오피스 3.1을 출시하면서 워드프로 hwsecter.tistory.com Windows/아래아한글(hwp) 2023.09.13
윈11에서 화면이 자꾸 무한 깜빡거리는 오류 증상 (해결) 원인은 다양하니, 자신의 사례를 검색어에 덧붙여서 상세검색하면 좀 더 빠르게 찾을 수 있다.(영어로 검색할거면 windows11 monitor flicker-ing 뒤에 이것저것 붙여서 검색ㄱㄱ. 영어 실력이 안되면 챗지피티에다 물어던지) 과정 요약: 나는 저 증상이 구버전 작업표시줄로 보여주는 프로그램인 explorer patcher와, 최근 윈도우 업데이트가 충돌하여 생겼다. 해당 프로그램 버전 업데이트로 해결했다. 상황explorer patcher 라는 윈10의 작업표시줄 보여주는 프로그램을 깔아서 썼다. (autohotkey도 있는데 이번 문제의 핵심은 아니다.)예전부터 화면 뜨자마자 제대로 작동 안하면서 깜빡거리는 증세는 며칠에 한번씩 나타났는데, 그때는 그냥 껏켯으로 해결되길래 무시했다... Windows/기타 프로그램(etc) 2023.09.13
윈도우 11에서, 폴더 정렬기준(=분류=그룹) 없애고, 고정시키기: '분류 없음'을 모든 폴더에 적용하기 매번 폴더의 정렬기준을 '수정된 날짜' 등에서 '없음'으로 바꿀 필요가 없도록 만든다. 한 폴더만 없애는게 아니라, 앞으로 만드는 모든 새 폴더가 정렬없이 나오도록 만드는 과정이다. (아마 윈도우 10도 동일할 것이다.) 첫번째 할일 순서 정렬기준이 있는 폴더로 간다. '없음'을 선택한다. 바로 옵션을 선택한다. (옵션 항목은 보통 ... 안에 있다.) 보기 >>> 모든 폴더에 적용 >>> 예 >>> 확인 이러면 모든 폴더가 정렬기준 '없음'을 기본값으로 하여 생성된다. 하는 방법 사진(접은글) 더보기 이 방법은 다음 사이트를 참고했다. https://www.auslogics.com/en/articles/disable-group-by-folder-view-in-win10-explorer/ How to D.. Windows/윈도우 기능 2023.09.13
윈도우10,11에서 Win+Shift+S로 캡처하였는데, 캡처 도구로 넘어가는 알림이 안 뜰 때: 알림 설정하여 해결 Win+Shift+S로 캡처하였는데, 하단에 캡처 도구로 가는 알림이 안 온다면, 이를 되돌리는 방법 설명. 반대로 알림을 신경끄고 싶은 사람도 해당. Win+i 눌러서 들어간다음, 시스템 >> 알림 (== System >> Notification) 에 들어간다. 쭉 내려가면 캡처 도구에 알림이 꺼져 있을 것이다. 켠다. 끄고싶으면 '끔'에 선택 Windows/윈도우 기능 2023.09.13