• 제목/요약/키워드: URI 중의성 해소

검색결과 3건 처리시간 0.019초

URI 중의성 해소 및 오류 감소를 위한 LDA 기반 접근법 (LDA-based Approach for URI Disambiguation and Error Reduction)

  • 김지성;김영식;함영균;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-111
    • /
    • 2014
  • URI 중의성 해소 문제는 주어진 문서 내의 특정 단어에 연결 가능한 여러 URI가 주어졌을 때 진짜 URI 하나를 선택해내는 문제라고 할 수 있다. 이 문제는 다양한 해결법들이 존재할 수 있지만 기존에 연구된 문서의 문맥 간 유사도를 이용하여 해결하는 방법을 본 논문에서는 사용한다. 문맥 간 유사도를 이용하는 방법은 영어 디비피디아 URI spotting에서 TF*ICF방법으로 이미 연구가 되어있다. 본 논문에서는 Latent Dirichlet Allocation을 이용하여 URI 중의성 해소 문제를 다룰 것이며 그 범위를 한국어 디비피디아로 한정한다. 새로 제안하는 방법이 URI 중의성 해소 문제를 얼마나 잘 해결하며, 기존의 연구와 비교하여 얼마나 향상될 수 있는지를 분석한다. 또한 기존의 방법과 새로 제안한 방법 각자가 고유하게 풀 수 있는 문제가 존재함을 보이고, 두 방법을 병합하였을 때 보다 높은 성능에 도달할 수 있음을 전망한다.

  • PDF

한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소 (A Non-morphological Approach for DBpedia URI Spotting within Korean Text)

  • 김영식;함영균;김지성;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

국가과학기술 R&D 기반정보 온톨로지 (Semantic Web Ontology for Research Community)

  • 강인수;정한민;이승우;김평;성원경
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 춘계 종합학술대회 논문집
    • /
    • pp.231-234
    • /
    • 2006
  • 시맨틱웹 분야의 온톨로지는, 분산 이종 스키마를 갖는 정보에 대한 의미적 통합, 에이전트에 의한 자동화된 유통, 그리고 명시적으로 표현되지 않은 암묵적 지식의 추론을 가능케 하는, 논리에 기반하여 잘 정의된 도메인 의존적인 콘텐츠로 볼 수 있다. 이 논문에서는 과학기술 연구분야 도메인에서 정의된 하나의 시맨틱웹 온톨로지인 '국가과학기술 R&D 기반정보' 온톨로지를 소개한다. 이 온톨로지는, 논문, 과제, 특허 등과 같은 연구성과물을 바탕으로 특정 분야 전문가들이나 연구자 네트워크를 추론해 냄으로써 실제 연구자나 연구과제 기획/평가자들에게 도움을 주기 위한 목적으로, 현재 한국과학기술정보연구원에서 개발되고 있다. 이 논문에서는 온톨로지의 스키마 구성 요소로써 클래스와 속성을 기술하고, 온톨로지에서의 인스턴스 표현의 예를 보인다. 상기 온톨로지는 인력, 기관 등과 같은 실세계 인스턴스의 고유한 신원을 온톨로지 내에 대응시키기 위해, 실세계 신원의 중의성 해소 기법과 함께 개별 클래스에 종속적인 URI할당지침을 사용하여 온톨로지 내에 인스턴스를 표현하고 있다.

  • PDF