안타깝게도 현재 JMP software에서는 한글 텍스트 분석을 지원하고 있지 않습니다. 물론 영어와 다른 언어는 현재 지원 중에 있습니다. JMP Korea 팀에서는 지속적으로 한글 텍스트 분석 기능 탑재를 추진하였고, 그 결과 JMP 17 EA(Early Adopter)에서는 한국 고객분들께서도 한글 텍스트 분석 기능을 만나실 수 있습니다.
아래 간단한 한글 텍스트 분석 사례를 소개해 드리오니, JMP 17 EA(2021년 2분기 예정)가 open 되면, 담당 Sales 분들께 요청하셔서 한걸음 빠르게 적용해 보시면 좋겠습니다.
우선, 사례분석은 빅카인즈(BIG KINDS)에서 아래와 같은 조건(기간은 2021년 1.1 ~ 1. 14일, 중앙지 중 처음 5개, 통합분류는 "사회")을 적용하여 다운받은 뉴스 data를 이용, 뉴스 제목과 본문을 이용해 분석을 진행했습니다.
데이터 다운로드 후 JMP Data Table로 불러들인 결과는 아래와 같으며, 여러 칼럼 중 "제목"과 "본문"을 이용해 간단한 텍스트 분석을 시도해 보았습니다. 분석과 관련된 상세한 내용은 생략하고 JMP의 한글 텍스트 분석이 어떻게 수행되는 지에 대해 간단히 보여드립니다.
JMP >> Analyze >> Text Explorer >> Language 에서 "Korean" 선택
JMP Output #1 : 뉴스 제목
. 2021년 이후 현재까지 약 2주간의 뉴스제목으로 텍스트 분석을 해 보면, 주요 키워드가 아래와 같이 Word Cloud로 표현됩니다.
- 코로나
관련 키워드 : 확진 / 백신 / 동부구치소 / 집단감염 / 검사 / 감염 / 접종
- 정인이 : 한국사회를 충격으로 몰아넣었던 아동학대 사건
관련 키워드 : 정인이 사건 / 아동학대 / 의혹 / 청원 / 분노
- 서울 : 서울의 기록적인 적설량과 그에 대한 서울시의 미진한 대응
관련 키워드 : 오늘의 날씨 / 서울시
. 또한 5개의 군집으로 나뉜 Latent Class 분석결과를 보면,
- Cluster 1 : 서울의 한파와 폭설로 인한 퇴근길 정체
- Cluster 2 : 백신 확보에 대한 정부 대응
- Cluster 3 : 정인이 사건
- Cluster 4 : 코로나 관련
- Cluster 5 : 검경 관련 기타 사회문제 등으로 표현되고 있음을 확인할 수 있습니다.
JMP Output #2 : 뉴스 본문
뉴스제목과 유사한 결과를 보이고 있으나, 약간의 차별점도 존재하는 것으로 보입니다. 세부적인 내용은 아래 분석결과를 확인해 보시기 바랍니다.