Machine Learning Using Weka

요즘 하고있는건,

가사내용으로 음악의 성향을 판별하는 간단한 분류 프로그램을 만들고 있다.

네이버랩에 올라온 긍정부정검색과 비슷한 모양이 될터이고 얼마나 정확도를 가지고 분류 가능하냐가 성능의 지표이다.

  1. 음악의 성향은 “희,노,애,락” 4가지.
  2. 미리 구축된 사전으로 각 성향의 단어가 가사에서 얼마만큼 많이 나타나느냐 계산.
  3. 성향을 판단.

위와같은 간단한 프로세스로 분류를 한다는 것이다.

하지만, 성향을 판단하는 3번째는 조금 문제가 있다.

어떤기준으로 성향을 판단하냐라는 것.

  • A 희 – 69%, 노 – 10%, 애 – 0%, 락 – 30%
  • B 희 – 39%, 노 – 36%, 애 – 42%, 락 – 30%

A,B 2개의 가사를 분석해서 2개의 결과를 얻었다.

A는 한가지 성향이 명확히 우위를 차지하고 있기때문에 분류를 하였을때 정확도가 높게 나온다.

B는 어떤가? 성향들이 고루나타나기때문에 단순히 가장높은 수치로 분류했을 경우 정확도는 떨어질 수 밖에 없다.

위와같은 상황에서 정확도를 높이려면,

특정 통계를 미리알고 이러이러한 상황에서는 특정성향이 많이 나타났다라는 사실을 기반으로 분류를 하는 것이 정확도를 높이는 것이다.

머신러닝, 데이터 학습 등의 단어는 많이 들었지만 실제로 어떻게 적용되어야 하는지 모르고 있었다.

이번에 자바진영에서 가장 유명한 Weka를 사용하여 머신러닝을 할 것이다.

재미난 결과물이 나올듯하다ㅎ

PS.

가사기반의 음악분류는 간단히 생각해봐도 정확도가 높지 않다.

댄스곡인데 가사는 슬픈게 너무 많다.ㅎ

가사기반 + 음원패턴까지 함께 추출하면 정확도가 높아질 것이다.

음원패턴으로 찾아보았는데, 시간을 가지고 접근해야할듯하다. 쿨럭;

미도미나 엔서미(http://blog.enswer.net/87)의 기술의 깊이는 짐작이 가질않는다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중