KoNLPy 라이브러리 중에 꼬꼬마가 더 느리다던 사람 글 보고 생각나서 쓴다.
각 형태소분석기 클래스 각각 풀어보면 꼬꼬마가 폴더 용량이 제일 크다.
뜯어보면 사전식인데 거기다가 온갖 단어를 다 집어넣어놓았다. 특히 일반명사 NNG 에는 한 10만개 쯤 들어가있어서 수 메가바이트 나오는걸로 안다.
다른 것들은 특정 상황에서 조사를 빼내는 방식인거 같던데, 꼬꼬마는 수십만개 사전으로 비교해보라고 던져주니 더 느리고 무거울수밖에 없을거다.
'Python > 자연어처리(NLP)' 카테고리의 다른 글
복합명사를 알아서 추출하는 논문 (JAVA 코드) (0) | 2023.09.13 |
---|