• 제목/요약/키워드: Lexicon Resource

검색결과 4건 처리시간 0.015초

Extended pivot-based approach for bilingual lexicon extraction

  • Seo, Hyeong-Won;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제38권5호
    • /
    • pp.557-565
    • /
    • 2014
  • This paper describes the extended pivot-based approach for bilingual lexicon extraction. The basic features of the approach can be described as follows: First, the approach builds context vectors between a source (or target) language and a pivot language like English, respectively. This is the same as the standard pivot-based approach which is useful for extracting bilingual lexicons between low-resource languages such as Korean-French. Second, unlike the standard pivot-based approach, the approach looks for similar context vectors in a source language. This is helpful to extract translation candidates for polysemous words as well as lets the translations be more confident. Third, the approach extracts translation candidates from target context vectors through the similarity between source and target context vectors. Based on these features, this paper describes the extended pivot-based approach and does various experiments in a language pair, Korean-French (KR-FR). We have observed that the approach is useful for extracting the most proper translation candidate as well as for a low-resource language pair.

소셜미디어를 통해 본 재난안전 분야 어휘 사용 양상 분석 (A Study on the Analysis of Disaster Safety Lexicon Patterns in Social Media)

  • 김태영;이정은;오효정
    • 한국콘텐츠학회논문지
    • /
    • 제17권10호
    • /
    • pp.85-93
    • /
    • 2017
  • 재난안전 분야 어휘의 표준화는 성공적인 재난안전사고 예방 및 대응을 위해 가장 기본적인 과정으로서 중요하다. 재난안전 분야의 어휘에 대한 이해 부족은 커뮤니케이션 및 정보공유의 부재로 이어지며, 이는 재난사고 발생 시 적절한 대응을 위한 의사소통에 문제가 될 수 있다. 현재 재난안전 유관기관별로 다양한 재난안전정보가 생산 및 관리되고 있으며, 정보공유를 위해 각 기관에서는 개별적으로 용어사전을 개발하여 활용하고 있다. 따라서 이용자에 따른 재난안전 분야의 어휘 사용 양상의 차이를 실제적으로 파악하는 것은 표준화를 위해 필수적이다. 이에 본 연구는 재난안전 분야의 어휘 사용 양상을 소셜미디어를 중심으로 분석하여 그 차이를 규명하였다. 구체적으로는 재난안전 분야에서 일반 이용자가 사용하는 어휘와 기존 재난안전 유관기관에서 활용하고 있는 어휘자원의 차이점을 비교 분석하였다. 이후 분석 결과를 기반으로 재난안전 분야 표준화 방안을 제안함으로써 용어사전 구축 방향성을 수립하였다.

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

중간언어 문맥벡터의 정제를 통한 이중언어 사전 구축의 성능개선 (Enhancing Performance of Bilingual Lexicon Extraction through Refinement of Pivot-Context Vectors)

  • 권홍석;서형원;김재훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권7호
    • /
    • pp.492-500
    • /
    • 2014
  • 본 논문은 중간언어 기반 이중언어 사전 구축 방법에서 문맥벡터의 정제 방법을 제안한다. 중간언어 기반 이중언어 사전 구축 방법은 두 언어 간의 사전이나 병렬말뭉치 등 언어 자원이 부족한 언어쌍에 매우 효과적인 방법이다. 본 논문은 두 가지 정제 방법을 통해서 성능을 개선한다. 첫 번째 방법은 양방향 번역확률을 통하여 문맥벡터를 정제하였고 두 번째 방법은 품사 정보를 이용하여 문맥벡터를 정제하였다. 본 논문은 두 개의 서로 다른 언어 쌍으로 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 48.5%를, 상위 20에서 최대 88.5%의 정확도를 얻었고, 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최상위에서 최소 26.5%를, 상위 20에서 최대 66.5%의 성능을 보였다.