• 제목/요약/키워드: 의미적 유사도

검색결과 1,582건 처리시간 0.051초

메타데이터 기반 정보시스템간 의미 유사도 측정 방법 (A Methodology for Semantic Similarity Measurement among Metadata based Information System)

  • 임정은;최오훈;나홍석;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (C)
    • /
    • pp.85-87
    • /
    • 2006
  • 특정 도메인의 정보시스템간에 정보를 공유하기 위해서, 정보 시스템들은 도메인별로 사용되는 메타데이터를 각기 정의하여 사용하기 때문에 각각의 정보 시스템간의 정보 공유시 메타데이터의 이질성 문제가 발생되지 않는다. 그러나, 메타데이터의 불일치 문제는 이기종 도메인간에 정보를 공유할때 발생된다. 본 논문에서는 메타데이터를 이용하여 구축된 정보시스템 간의 상호운용성을 증진하기 위하여 메타데이터의 의미적 유사성 측정 방법을 제안한다. 이를 위하여 메타데이터 레지스트리(MDR)에 정의되어 있는 메타데이터에 대한 개념 모델을 정의하고. 개념모델의 인스턴스간에 의미유사성을 측정하는 방법을 제안한다. 제안한 방법을 사용한 결과 도메인이 다른 정보시스템간에 점보공유를 위한 의미적으로 유사한 최적의 메타데이터를 선택할 수 있다.

  • PDF

하이퍼텍스트 문서의 자동분류를 위한 워드넷 기반 특징 합병 기법 (A WordNet-based Feature Merge Method for HyperText Classification)

  • 노준호;김한준;장재영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.406-409
    • /
    • 2012
  • 본 논문은 하이퍼텍스트 문서의 자동분류 성능을 높이기 위한 새로운 접근법을 제시한다. 하이퍼텍스트 문서는 일반 문서와 달리 하이퍼링크로 서로 연결된 구조를 가진다. 이 하이퍼링크 정보는 대상문서와 연관도가 높은 정보를 가지고 있으며, 이러한 링크 정보로부터 특징을 보다 잘 선별하기 위해서는 보다 정밀한 접근법이 필요하다. 본 논문은 단어간 의미 유사도를 기반으로 하이퍼텍스트 링크 정보를 활용한 특징 가공기법을 제안한다. 제안 기법은 하이퍼링크 문서로부터 대상문서와 연관도가 높은 특징을 추출하기 위해 단어간 유사도 함수를 사용하며, 유사도 함수는 워드넷의 상/하위어 관계를 이용한다. 그리고 추출된 특징들 중 의미적으로 비슷한 개념의 특징들을 합병함으로써 의미적으로 보다 견고한 분류 모델을 구축한다. 제안 기법을 검증하기 위해 Web-KB 문서집합을 이용하여 실험을 수행하였고 실험 결과 기존 방법보다 우수한 성능을 보였다.

뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들 (Sentence Interaction-based Document Similarity Models for News Clustering)

  • 최성환;손동현;이호창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

WordNet과 텍스트 코퍼스에 기반한 의미 관계를 활용한 웹 텍스트 조사 기법 (A Web Text Mining Technique using Semantic Relations based on WordNet and Text Corpus)

  • 이호석;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.181-184
    • /
    • 2007
  • 본 논문은 문장 분석에 의하여 의미 관계를 생성하고 의미 네트워크에 의하여 유사한 의미 관계를 고려하는 의미 중심의 웹 텍스트 검색 기법에 대하여 논의한다. 기존의 웹 텍스트 검색은 단어만을 혹은 의미 관계만을 고려한 검색이었다고 할 수 있다. 그러나 문장 분석에 의한 의미 관계의 생성과 의미 네트워크에 의한 유사한 의미 관계의 고려는 기존의 단어 중심 혹은 의미 관계 중심의 검색 한계를 넘어서 유사한 의미 관계를 고려한 좀 더 포괄적이고 계층적인 검색을 가능하게 할 것으로 생각된다.

  • PDF

'같다' 구문의 통사.의미적 특성 (Syntactic and Semantic Analysis of Korean Verb 'Kat-')

  • 남윤진;한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.385-402
    • /
    • 1992
  • 용언 '같다'는 다양한 의미를 지니는데, 그 가운데 [동일]이나 [유사]를 나타내는 '같다' 구문은 '비교'의 논리가 적용되는 문장들로서 문장을 이루는 명사구의 의미 특성, 명사구 사이의 의미관계, 문장 유형등의 요소에 따라 의미 해석이 달라진다. 이 유형의 '같다' 구문은 특정 문형의 실현이 명사구들의 의미 관계에 따라 제약을 받으며, 또 실현되는 경우에도 [동일]이나 [유사]라는 [비교]의 의미를 갖지 못하고 [비유]의 의미를 나타내게 된다. 이러한 의미범주의 변화는, 특정조건하에서의 '비교'가 현실논리에서는 성립할 수 없는 반면 언어논리에서는 수용될 때 나타나는 두 논리간의 괴리를 보완하는 기제인 것으로 생각된다. 한편, [동일]이나 [유사]를 나타내는 '같다'와 [추측] 혹은 [불확실한 단정]을 나타내는 '같다'는 통사구조와 의미해석 논리에서 다른 양상을 보인다. 이들은 항상 '(-ㄴ/ㄹ) 것 같다'와 같은 구성양식을 갖는데, 그럼에도 불구하고 단문구조로 해석되는 것이다.

  • PDF

구조 및 의미적 유사성에 기반한 XML 문서들의 효율적인 저장을 위한 통합 기법 (The study of integration techniques for storing XML documents efficiently based on structures and semantics)

  • 김연희;김병곤;이재호;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.590-592
    • /
    • 2003
  • 최근 XML이 웹 상의 데이터의 표현, 교환, 중재의 표준으로 각광받으면서 이러한 XML 문서를 효과적으로 저장, 접근 및 검색하기 위한 기법에 대한 연구가 많았으나, 기존의 연구들은 하나의 XML 문서를 저장 및 검색의 대상으로 하는 경우가 대부분이였다. 그러나 XML 문서를 데이터의 표현과 교환의 표준으로 이용하는 애플리케이션의 개발이 점차 활성화됨에 따라 저장해야하는 XML 문서의 수가 크게 증가하면서 의미나 구조적으로 많은 유사성을 지니는 XML 문서들을 함께 효율적으로 저장하고 검색하기 위한 기법의 연구가 요구된다. 따라서 본 논문에서는 의미 및 구조적으로 유사성을 가지는 여러 XML 문서들을 통합하는 기법을 제안한다. 제안된 통합 기법은 같은 DTD나 XML Schema를 가지는 경우와 다른 DTD나 XML Schema를 가지는 경우를 모두 고려한다. 또한 특별한 구조적 정보를 가지지 않는 XML 문서의 경우도 다른 DTD나 XML Schema를 가지는 경우와 마찬가지로 처리함으로써 다양한 XML 문서들에 대한 통합이 가능하도록 한다. 이러한 통합 기법은 중복되는 엘리먼트나 애트리뷰트에 대한 저장 공간의 낭비를 최소화한다. 또한 의미적으로 또는 구조적으로 관련성있는 여러 XML 문서의 부분들을 디스크 상의 페이지내에 서로 가까이 저장할 수 있기 때문에 사용자의 일반적인 질의에 대해 효율적이고 빠른 검색 결과를 유도할 수 있고, I/O 횟수를 줄임으로써 그에 따른 오버헤드를 줄일 수 있는 장점이 있다.

  • PDF

경로 기반의 XML 문서 유사도 계산 기법 (Technique for Path-based Similarity Evaluation of XML Documents)

  • 이동애;장덕성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.689-692
    • /
    • 2004
  • XML은 의미적으로는 동일하거나 혹은 유사하지만 서로 다른 구조의 XML 문서들을 허용하므로 XML 문서들을 대상으로 하는 검색, 클러스터링 등의 응용에서는 XML 문서들간의 유사도 계산이 선행되어져야 한다. XML 문서간 유사도를 계산하기 위해서는 문서의 구조 정보인 엘리먼트들과 이들 엘리먼트들의 계층적 구조가 고려되어져야 한다. 본 연구에서는 두 XML 문서가 얼마나 유사한 경로들을 공통으로 가지냐를 두 문서간의 유사도로 보고, 경로 유사도 계산식과, 이를 기반으로 하는 문서 거리 및 문서 유사도 계산식을 정의하여, 유사도 계산 기법을 제안한다. 제안된 기법과 기존 유사도 계산 기법들을 예제 문서들을 통해 계산결과를 비교한다.

  • PDF

마코프 논리 기반의 시맨틱 문서 검색 (Semantic Document-Retrieval Based on Markov Logic)

  • 황규백;봉성용;구현서;백은옥
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.663-667
    • /
    • 2010
  • 본 논문은 질의 문서와 의미가 유사한 문서를 검색하는 문제를 다룬다. 이 문제에 대한 기본적인 접근법은 각 문서를 bag-of-words 형태로 표현한 후, 코사인 유사도 등의 거리 기준에 기반하여 유사 문서를 판별하는 것이다. 그러나, 이처럼 문서에 출현하는 단어에만 의존하는 검색 방법은 의미적 유사성을 제대로 반영하기 어렵다는 단점을 가진다. 본 논문에서는 이러한 문제를 극복하기 위해 데이터 기반의 감독 학습(supervised learning) 기법과 관련 온톨로지 정보를 마코프 논리(Markov logic)에 기반하여 결합한다. 구체적으로, 단어들 사이에 존재하는 관계를 표현한 온톨로지와 유사도가 태깅된 문서 데이터에서 마코프 논리 망(Markov logic network)을 학습하며, 학습된 마코프 논리 망과 문서 데이터 및 새로 주어진 질의 문서에 대한 추론을 통해 질의 문서와 의미적으로 유사한 문서를 검색하는 기법을 제안한다. 제안하는 접근법은 서울시의 민원서비스 홈페이지에서 수집된 실제 민원 데이터에 적용되었으며, 적용 결과, 단순한 문서 간 거리에 기반한 유사 문서 검색 기법에 비해 월등히 높은 정확도를 보였다.

기능동사 구문과 개념 유사도를 이용한 한국어 부사격의 의미역 결정 (Semantic Role Assignment for Korean Adverbial Case Using Support Verb Phrase and Concept Similarity)

  • 신명철;이용훈;김미영;정유진;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.451-453
    • /
    • 2005
  • 본 논문에서는 한국어에 있어 '에, 로'를 격표지로 하는 부사격에 대한 의미역 결정 모델에 대해 다루고 있다. 의미역 결정은 의미 분석의 핵심 과정 중 하나이고 자연언어처리에서 해결해야 할 중요한 문제이다. 본 논문은 기존 연구와 언어학 논저를 참고해서 의미역 결정에 유용한 자질들을 정리하였고 SVM을 이용하여 의미역 결정 모델을 구축하였다. 또한 기존 연구와 차별적으로 기능동사 구문의 처리와 지배소 개념의 유사도 보정 방법을 사용하여 보다 견고한 모델을 만들 수 있었다. 성능 평가 결과 개념(Concept)만을 사용한 기본 모델에 비해서 평균 $9\%$의 정확률 향상을 보였다.

  • PDF

도합유사도를 이용한 한국어 추출문서 요약 (Korean Indicative Summarization Using Aggregate Similarity)

  • 김재훈;김준홍
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.238-244
    • /
    • 2000
  • 본 논문에서 문서는 문서관계도라고 하는 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 표현하고, 링크는 노드들 간의 의미적인 관계를 나타낸다. 의미적 관계는 유사도에 의해서 결정되며, 문장의 중요도는 도합유사도로 나타낸다. 도합유사도는 한 노드와 인접한 노드들 사이의 유사도 합을 말한다. 본 논문에서는 도합유사도를 이용한 한국어 문서요약 기법을 제안한다. 실험에 사용된 평가용 요약문서는 정보처리 관련 분야에서 수집된 논문 100편과 KORDIC 에서 구축한 신문기사 105 건을 이용하였다. 문서요약 시스템에 의해서 생성된 요약문서의 크기가 본문 20%이고, 본문이 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 본문이 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다. 또한 제안된 방법은 상용시스템보다 좋은 성능을 보였다.

  • PDF