사전구축,

이전글에서 가사내용으로 음악의 성향을 판별하는 분류기를 만든다고 했는데, 성향을 판단하기위해서는 성향의 단어사전이 있어야 한다.

엠넷,벅스 등 음악포탈사이트에서 성향별로 사용자가 직접 추천한 음악리스트를 크롤한 뒤, 꼬꼬마 형태소분석기를 통해서 단어사전을 구축하고 있다.

고민인게, 사용자가 추천한게 좀 부정확하여 A성향의 단어가 B성향으로 들어가있는 등 문제점이 좀 있다.

일단은 정제된 단어만 따로 추려서 단어사전을 구축하였는데, 정확도를 높이려면 사전부터 잘 구축해야할듯…. 쿨럭; T.T

논문에서 분류작업을 할때 아래와 같은 방식을 사용하던데,

  • 영어단어사전
  • 번역기를 통해서 번역
  • 포탈사전DB에서 동의어,유의어를 찾아서 확장

근데, 현재 사전보다는 규모가 훨씬 작을듯한데…

다른 한글형태소분석기에서는 어떻게 사전을 구축했을까나.ㅎ

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중