'Python/자연어처리(NLP)' 카테고리의 글 목록

Python/자연어처리(NLP) 2

꼬꼬마(Kkma)가 다른 한국어 형태소 분석기에 비해 느린 이유는, 사전 기반 방식(dictionary based)인데, 사전에 단어를 엄청나게 넣어 놓았기 때문이다.

KoNLPy 라이브러리 중에 꼬꼬마가 더 느리다던 사람 글 보고 생각나서 쓴다. 각 형태소분석기 클래스 각각 풀어보면 꼬꼬마가 폴더 용량이 제일 크다. 뜯어보면 사전식인데 거기다가 온갖 단어를 다 집어넣어놓았다. 특히 일반명사 NNG 에는 한 10만개 쯤 들어가있어서 수 메가바이트 나오는걸로 안다. 다른 것들은 특정 상황에서 조사를 빼내는 방식인거 같던데, 꼬꼬마는 수십만개 사전으로 비교해보라고 던져주니 더 느리고 무거울수밖에 없을거다.

Python/자연어처리(NLP) 2023.09.13

복합명사를 알아서 추출하는 논문 (JAVA 코드)

일명 후처리라고도 부르는, 복합명사 생성 알고리즘이다. 아래 논문에서 개념을 제시했다. 자바 코드가 있는 부분은 58쪽부터 60쪽 까지다. 'A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data', Hyeon Gyu Kim, Sahmyook Univ(삼육대 김현규), Journal of The Korea Society of Computer and Information, Vol. 26 No. 8, pp. 55-63, August 2021. https://doi.org/10.9708/jksci.2021.26.08.055 A Method for Compound Noun Extraction t..

Python/자연어처리(NLP) 2023.09.13

공부하다가 쓸만한 자료를 정리해 놓는 곳.

ㅢ발음분석, 이중모음표, 교육행정 9급 원서접수, 교행직 9급 원서, 이중모음발음변화위치, 교행직 원서접수, 이중모음발음변화, 민주주의의의의, 교행 원서접수, ㅢ발음, 공사행정이원론, ㅢ발음예제, 교육행정 원서접수, 2021 일반직 교행직 중복접수, 공사행정일원론, ㅢ발음종류, 9급 교행 원서접수, 2021 공무원 중복접수, 사건부호, 2021 지방직 지방교행직 중복접수,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

공부용 자료실

Python/자연어처리(NLP) 2

티스토리툴바