Python/자연어처리(NLP)

꼬꼬마(Kkma)가 다른 한국어 형태소 분석기에 비해 느린 이유는, 사전 기반 방식(dictionary based)인데, 사전에 단어를 엄청나게 넣어 놓았기 때문이다.

공시탈출넘버원 2023. 9. 13. 16:08

KoNLPy 라이브러리 중에 꼬꼬마가 더 느리다던 사람 글 보고 생각나서 쓴다.

각 형태소분석기 클래스 각각 풀어보면 꼬꼬마가 폴더 용량이 제일 크다.

뜯어보면 사전식인데 거기다가 온갖 단어를 다 집어넣어놓았다. 특히 일반명사 NNG 에는 한 10만개 쯤 들어가있어서 수 메가바이트 나오는걸로 안다.

 

다른 것들은 특정 상황에서 조사를 빼내는 방식인거 같던데, 꼬꼬마는 수십만개 사전으로 비교해보라고 던져주니 더 느리고 무거울수밖에 없을거다.