기여하기

한국어 중의성해소 평가 데이터세트

바른팀에서 구축한 한국어 중의성해소 평가 데이터세트를 소개합니다.
중의성 단어란 서로 다른 문장에서 어절의 표면형이 같고, 의미가 다른 어절을 가리킵니다. '동음이의어'보다는 넓은 개념으로 용언과 체언의 활용 형태와 곡용 형태까지 포함한다고 볼 수 있습니다. 이러한 중의성을 해소하는 것은 단어 의미 명확화(Word Sense Disambiguation, WSD)라고도 불리며, 자연어 처리의 분야의 오랜 문제입니다.

예를 들어, "용인", "트는"의 경우의 다음과 같은 의미 차이가 있습니다.

> 전설속의 용인 이무기의:
   [('용', 'NNG'), ('이', 'VCP'), ('ㄴ', 'ETM')]
> 용인 제2 캠퍼스를 확대 운영:
   [('용인', 'NNG')]

> 제가 좋아하는 곡을 트는 것이 원칙이지만:
   [('곡', 'NNG'), ('을', 'JKO'), ('틀', 'VV'), ('는', 'ETM')]
> 동이 트는 아침 시각에:
   [('동', 'NNG'), ('이', 'JKS'), ('트', 'VV'), ('는', 'ETM')]

중의성해소 평가 데이터 구축

서울대 국어국문학과 팀에서 모호한 단어의 태깅수정 및 검수과정을 거쳐 문장을 선별하였습니다. 평가 데이터의 단어들이 형태는 같고 의미가 다른 단어의 수가 비슷하도록 선별하였습니다. 표면형이 부족한 단어에 대해선 별도로 문장을 제작하였습니다.

총 35,396 문장
8,285개의 표면형(가, 가가, 가거나 ...)

기여하기

중의성해소 평가 데이터 구축을 위해 함께해 주세요. 함께하면 자연어 처리 분야의 똑똑한 성능 지표가 탄생할 수 있습니다. 현재 이 데이터는 완벽하지 않으며, 오류가 있을 수 있습니다. 만약에 오류를 발견하면 풀 리퀘스트(Pull Request) 해주세요.

풀 리퀘스트(Pull Request) 해주시면 바른 담당자가 검토 후 반영해 드리겠습니다.
오류 수정을 요청하시면 기여자 목록에 추가됩니다.

보다 큰 변화가 필요하다면 토론을 위해서는 에 해당 데이터에 이슈를 만들고 댓글을 남겨주세요.

도움이 되었나요?