cancel
Showing results for 
Show  only  | Search instead for 
Did you mean: 
Choose Language Hide Translation Bar
Korean Text Explorer 사용법 안내

불용어(Stopwords) Update History

  First Release       2021-07-21    (693개)

  Current Release  2021-07-30 (2,256개)

 

2022년 10월 이후 출시 예정인 JMP 17 버전에서는 Text Explorer 기능에 한글이 포함되었습니다. 현재 JMP 17 Early Adopter 버전을 통해 Korean TE 기능을 만나보실 수 있으며, 사례를 통한 Korean TE 활용방법을 아래 링크와 같이 안내드렸었습니다.

 

JMP를 활용한 한국어 텍스트 분석(Korean Text Analysis) 소개

 

Text Mining 기법을 활용하기 위해선 자연 언어 처리(NLP: Natural Language Processing)가 우선되어야 하며, NLP 방법론에서도 아래 링크에 정리된 것처럼 여러 복잡한 형태소 분석(morphological analysis) 기능이 요구되기도 합니다.

 

한국어 형태소 분석기

 

한글의 경우 단순히 공백(space), 쉼표 등의 구분자로 단어를 구분한다거나, 수많은 품사(명사/동사/형용사/부사/조사/지시대명사 등)와 함께 파생어 또한 복잡한 구조로 되어 있어 자연어 처리가 쉽지 않다는 단점이 있습니다. 또한 위에 링크로 안내드린 형태소 분석 알고리즘도 저마다의 장단점을 가지고 있어, 완벽한 형태소 분석은 불가능 한 것으로 보입니다.

 

JMP 17버전에서 제공예정인 Text Mining 기능에서는 위와 같은 형태소 분석기능을 지원하지 않습니다. 공개가능한 한글단어사전(약 80만개 단어)를 통해 Term / Phrase를 구분하게 되어 있습니다. 이에 따라 사전에는 있으나 분석자가 원치 않는 단어가 분석결과에 포함되는 경우가 자주 발생하게 됩니다. 

 

"세우"라는 단어를 예로 들어보겠습니다(해양생물인 "새우"가 아닙니다). "세우"를 네이버 한글사전으로 검색해 보면 아래와 같은 결과를 얻게 됩니다.

DaeYun_Kim_0-1626849045981.png

분석자(Analyist)는 위 단어를 의미있게도, 혹은 의미없게도 판단할 수 있습니다. 의미있다고 판단하면 분석결과에 포함시키겠지만 의미가 없다면 아래와 같이 불용어로 등록하여 분석결과에서 제외시키면 됩니다.

 

DaeYun_Kim_0-1626847973938.png

 

여러 산업군에서 JMP가 사용되는 관계로 지나치게 단순화된 한글사전을 채택하는 데는 무리가 있었습니다. 따라서 이러한 경우가 많이 발생할 수 있게 됨에 따라  분석결과에 있어서의 단어 선택여부는 분석자의 의사결정이 중요하게 됩니다.

해당 단어의 포함여부에 대해 의사결정 후, 본인만의 불용어 사전을 만들어나가면 좋겠지만 이 또한 무(無)에서 시작하기엔 부담이 많이 가게 됩니다.

 

이에 JMP Korea Team은 첨부와 같이 불용어 사전 파일(Text file)을 공유드리고자 합니다. 해당 파일은 본 포스팅을 통해 지속 업데이트 예정입니다. 한번 다운로드 받으신 후 본인만의 불용어 사전을 만들어 나가셔도 좋고, 가끔 본 포스팅에서 업데이트 된 파일을 다운받으셔도 됩니다. 다운받으신 파일은 아래 경로에 저장하시면 됩니다.

 

C:\Users\(Personal ID)\AppData\Roaming\SAS\JMP\TextExplorer\ko

 

위 경로는 JMP 17 버전을 실행하신 후, Analyze >> Text Explorer >> Language >> Korean으로 지정하시면 한글 사전(80만 단어)이 다운로드되면서 생성됩니다. 해당 경로는 숨김처리되어 있어, 윈도우 탐색기에서 보시려면 윈도우 탐색기 >> 보기 >> 숨긴 항목 >> 체크 해 주시면 됩니다.

 

※ 물론, 첨부된 불용어 파일을 직접 수정하여 사용하셔도 됩니다.

 

감사합니다.

Last Modified: Jul 30, 2021 1:45 AM
Comments