• 제목/요약/키워드: 의미적 유사도

검색결과 1,583건 처리시간 0.032초

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

한글의 음절특성에 따른 한자어 정보처리 (Hanja word processing on Hangul disyllabic characteristics)

  • 이재욱;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.125-130
    • /
    • 2002
  • 우리의 언어생활을 비추어 볼 때 한자어 정보처리는 많은 연구가 이루어야 함에도 불구하고 고유어 언구에 비해 소흘해 다루어져 왔다. 본 연구는 단일 한자어를 구성하는 각 음절이 단어의 재인에 어떤 영향을 미치는지 점화과제를 통하여 알아보았다. 본 실험은 기존의 한자어 연구에 빈도특성과 고유어와 외래어의 글자특성까지 고려하여 종합적으로 살펴보았다. 먼저 실험1의 어휘판단관제에서는 고유어와 한자어의 양상이 비슷하며 외래어는 다른 처리를 하는 것으로 드러났다. 고유어와 한자어는 빈도에 따라 영향을 받지만 외래어는 빈도의 영향에 변함없이 일정하게 나타났다. 이런 결과는 한국인은 고유어와 한자어를 동일한 양상으로 처리하며 이런 이유는 외래어의 한국어와는 다른 음운규칙이나 음절규칙의 영향으로 해석할 수 있겠다. 실험 2에서는 한자어 형태소와 의미적으로 유사한 조건(강도-강력)과 철자적 유사 조건(강도-강변), 고유어 유사 조건(강도-강정)조건을 점화과제를 이용하여 어휘판단을 하게 하였다. 실험 결과 모든 조건이 통제조건에 비하여 빠르게 나왔다. 그리고 의미적 유사 조건이 촉진적 점화효과를 일으키고, 철자적 유사조건은 억제 효과를 일으켰으며 고유어는 특이하게도 판단시간이 빠르게 나와 한자어와는 다른 처리과정이 있음을 보여주고 있다. 이런 결과는 지연조건에서도 동일하게 일어나고 있다. 이런 결과는 한자어는 어휘접근 이후에도 실험의 과제 특성상 한자어 형태소는 단어 수준 아래 위치하기는 힘든 반면, 고유어는 단어 수준 아래에 존재한다고 할 수 있다. 결국 한자어와 고유어는 기본적으로 외래어와 다른 처리를 보이면 한자어와 고유어 내에서도 한자어는 단어접근 전에 의미접근의 단계를 거쳐야 하지만 고유어는 각 음절이 형태소가 아니기 때문에 바로 어휘에 접근하는 것이라고 할 수 있겠다.ulic geometry and sediment transport has been applied to: (1) gravel-bed transport measurements in a cobble-bed stream at Little Granite Creek, Wyoming; (2) sand and gravel transport by size fraction in the sharp meander bends of Fall River, Colorado; (3) changes in sand dune geometry and resistance to flow during major floods of the Rhine River in the Netherlands; (4) changes in hydraulic geometry of the Rio Grande downstream of Cochiti Dam, New Mexico; and (5) analysis of the influence of water temperature and the Coriolis force on flow velocity and sediment transport of the Lower Mississippi River in Louisiana. Recent developments also include two textbooks on "Erosion and Sedimentation" and "River Mechanics" by the author and state-of-the-art papers in the ASCE Journal of Hydraulic Engineering.rk on is diversified, the importance of skills are diversified in each field of jobs.

  • PDF

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법 (A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing)

  • 김현주;박소미;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.113-120
    • /
    • 2010
  • 정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

유사객체 검색을 지원하는 협력 의료정보 시스템 설계 (Design of a Cooperative Medical Information System which Supports Similarity-Based Object Retrieval)

  • 원정임;박형주;안상원;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.119-121
    • /
    • 2000
  • 문자 정보 및 X-Ray, MRI, CT등과 같은 의료영상 정보를 취급하는 의료정보 시스템에서의 유사객체 검색을 지원하는 협력 의료정보 시스템의 설계에 대하여 논한다. 이를 위해 객체간 의미적 관련성을 기반으로 한 유사도 자동 추출 방식 및 지식베이스 구성 방식을 제안하고 이를 활용한 유사객체 검색에 대하여 논한다. 특히 의료영상을 객체 값으로 갖는 경우 객체간 유사도는 영상처리의 특징추출 방식에 의해 추출된 영상내에 출현하는 공간 객체의 위치, 면적, 둘레, 공간 객체간의 위상 관계 등의 공간 속성을 이용한다. 여기서 공간적 위치에 근거한 유사도는 공간 위치를 대표하는 Hilbert값의 분포와 빈도를 토대로 계산한다.

  • PDF

심층적 의미 매칭을 이용한 cQA 시스템 질문 검색 (Question Retrieval using Deep Semantic Matching for Community Question Answering)

  • 김선훈;장헌석;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.116-121
    • /
    • 2017
  • cQA(Community-based Question Answering) 시스템은 온라인 커뮤니티를 통해 사용자들이 질문을 남기고 답변을 작성할 수 있도록 만들어진 시스템이다. 신규 질문이 인입되면, 기존에 축적된 cQA 저장소에서 해당 질문과 가장 유사한 질문을 검색하고, 그 질문에 대한 답변을 신규 질문에 대한 답변으로 대체할 수 있다. 하지만, 키워드 매칭을 사용하는 전통적인 검색 방식으로는 문장에 내재된 의미들을 이용할 수 없다는 한계가 있다. 이를 극복하기 위해서는 의미적으로 동일한 문장들로 학습이 되어야 하지만, 이러한 데이터를 대량으로 확보하기에는 어려움이 있다. 본 논문에서는 질문이 제목과 내용으로 분리되어 있는 대량의 cQA 셋에서, 질문 제목과 내용을 의미 벡터 공간으로 사상하고 두 벡터의 상대적 거리가 가깝게 되도록 학습함으로써 의사(pseudo) 유사 의미의 성질을 내재화 하였다. 또한, 질문 제목과 내용의 의미 벡터 표현(representation)을 위하여, semi-training word embedding과 CNN(Convolutional Neural Network)을 이용한 딥러닝 기법을 제안하였다. 유사 질문 검색 실험 결과, 제안 모델을 이용한 검색이 키워드 매칭 기반 검색보다 좋은 성능을 보였다.

  • PDF

의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상 (Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity)

  • 윤희근;최수정;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.23-28
    • /
    • 2015
  • 본 논문에서는 한국어 트리플 생성 시스템의 정확도를 향상시키기 위한 distant supervision 기반의 신뢰도 측정 방법을 제안한다. 기존의 많은 패턴 기반의 트리플 생성 시스템에는 distant supervision의 기본 가정으로 인해 다수의 오류 패턴이 발생할 여지가 크다. 기존의 연구에서는 오류 패턴을 제거하기 위하여 발생 빈도, 공기 횟수 등의 통계에 기반하여 간접적으로 신뢰도를 측정하였다. 본 논문에서는 한국어 패턴과 영어 프로퍼티 사이의 의미 유사도를 측정함으로써 통계에 기반한 방법보다 더 정확한 신뢰도 측정 방법을 제안한다. 비지도 학습 방법인 워드임베딩을 활용하여 어휘의 의미를 학습하고, 이들 사이의 유사도를 측정한다. 한국어 패턴과 영어 프로퍼티의 어휘 불일치 문제를 해결하기 위하여 정준상관분석을 활용하였다. 실험 결과에 따르면 본 논문에서 제안한 패턴 신뢰도 측정 방법은 통계 기반의 방법에 비해 정확률이 9%나 더 높은 트리플 집합을 생성함을 보여주어, 의미 유사도를 반영한 신뢰도 측정이 기존의 통계 기반 신뢰도 측정보다 고품질 트리플 생성에 더 적합함을 확인하였다.

  • PDF

DTD의 의미 구조 분석을 이용한 XML 문서의 변환 (A Transformation of XML Documents With Semantic Constraints)

  • 곽동규;최종명;조용윤;유재우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.589.2-861
    • /
    • 2004
  • XML 문서를 변환하는 목적은 하나의 어플리케이션에서 사용되는 XML 문서를 다른 XML 어플리케이션에서 재 사용하여 사용자에게 동일한 정보를 제공하는데 있다 XML 문서는 어플리케이션 특성에 따라 한 문서에서 전달할 수 있는 정보의 량이 다르다. 따라서 문서를 변환하기 전에 어플리케이션의 특성에 따라 문서를 분할하거나 병합하여야 한다[1]. 또한, XML 문서의 정보는 속성에 따라 문법적인 특성을 가진다. 본 논문은 문벌적인 특성을 의미 속성이라 하고 의미 속성을 파악하기 위해 XML 문서의 의미 구조와 의미 구조 관계를 정의한다. 그리고 정의된 의미 구조와 의에 구조 관계를 이용하여 문서 정보의 속성을 분류하는 방법을 제안한다. 변환 규칙은 의ロP 구조 관계가 유사한 엘리먼트간의 대응으로 정의하고, 변환 규칙을 이용하여 문서 변환을 실행하여 변환 XML과 의미 관계 구조가 유사한 피 변환 XML 문서를 생성한다. 의미구조 분석을 이용한 변환은 기존의 사용 패턴을 분석한 변환에서 벗어나 DTD의 분석을 통한 자동화된 문서 변환 방법을 제공한다.

  • PDF

한국어 워드넷에서의 개념 유사도를 활용한 선택형 문항 생성 시스템 (A Question Example Generation System for Multiple Choice Tests by utilizing Concept Similarity in Korean WordNet)

  • 김용범;김유섭
    • 정보처리학회논문지A
    • /
    • 제15A권2호
    • /
    • pp.125-134
    • /
    • 2008
  • 본 논문에서는 난이도를 고려하여 선택형 문항을 자동으로 생성하는 방법을 고안하였으며, 학습자 수준에 적합하도록 동적인 형태로 다양한 문항 제시를 할 수 있는 시스템을 구현하였다. 선택형 문제를 통한 평가에서는 적절한 규모의 문제 은행이 필요하다. 이와 같은 요구를 만족시키기 위해서는 보다 쉽고 빠른 방식으로 다양하고 많은 문제 및 문항을 생성할 수 있는 시스템이 필요한데, 본 논문에서는 문제 및 문항의 생성을 위하여 워드넷이라는 언어 자원을 이용한 자동 생성 방법을 고안하였다. 자동 생성을 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드마다 워드넷의 계층적 특성에 따라 유사한 의미를 가진 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 기존의 한국어 워드넷의 스키마를 개념간 의미 유사도 행렬을 구할 수 있는 형태의 스키마로 변경한다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도가 없다고 볼 수 있는 수준 9까지 다양하게 제시될 수 있으며, 생성될 문항에 어느 정도의 유사도를 가진 어휘를 포함시키느냐에 따라서 출제자의 의도에 따른 난이도의 조정이 가능하다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 포함되어 있는 트리 구조의 크기까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 더 다양한 내용과 난이도를 가진 문제 또는 문항을 더 쉽게 출제할 수 있는 시스템을 개발할 수 있었다.

국소 문맥과 공기 정보를 이용한 비교사 학습 방식의 명사 의미 중의성 해소 (Unsupervised Noun Sense Disambiguation using Local Context and Co-occurrence)

  • 이승우;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.769-783
    • /
    • 2000
  • 본 논문에서는 한국어 명사의 중의성 해소를 위해, 원시 말뭉치로부터 얻을 수 있는 지식원으로서 국소문맥을 정의하고 추출하는 방법을 제시한다. 동일한 국소 문맥을 갖는 서로 다른 명사는 그 의미가 유사하다는 직관을 바탕으로 대상 명사의 중의성 해소를 위해 대상명사를 포함하는 국소문맥과 동일한 국소문맥을 갖는 단어를 단서로 사용함으로써 학습 자료의 활용도를 높일 수 있고 빈도수가 적은 단어의 의미 중의성도 해결할 수 있으며, 용언의 확장을 통해 자료 부족 현상을 줄일 수 있다. 대상 명사는 동일한 국소문맥에 의한 단서들과의 최대 유사도 계산을 통해 그 의미가 결정된다. 두 단어간의 유사도는 WordNet으로부터 차용한 의미 계층 구조에서 두 단어가 가지는 개념 사이의 거리에 의해 계산된다. 최대 유사도를 계산하는 과정에서는 단서들의 중의성을 점차 줄여 나감으로써 유사도 계산의 속도를 향상시킬 수 있다. 대상 명사가 둘 이상의 국소문맥을 가질 때에는 각 국소문맥의 종류에 따른 가중치를 부여하여 국소문맥의 종류에 따른 의미제약의 차이를 구현하였다. 또 하나의 지식원으로서 사전 정의와 예문으로부터 공기정보를 얻고, 이를 국소문맥을 보완하기 위한 지식으로 사용하여 최선의 의미를 선택할 수 있도록 하였다. 실험을 통해, 제안하는 방법은 국소 문맥의 적용률이 높고, 공기 정보는 국소 문맥과 상호 보완적으로 사용되어 정확도를 높일 수 있음을 보였다. 본 방법을 실험한 결과, 사용된 단어의 의미 중의성이 크면서도, 기존의 의미 부착 말뭉치를 이용한 교사 학습 방식의 성능보다도 높은 정확도(89.8%)를 얻을 수 있었다.

  • PDF

빈발 패턴 네트워크에서 연관 규칙 발견을 위한 아이템 클러스터링

  • 오경진;정진국;조근식
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.321-328
    • /
    • 2007
  • 데이터마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 제안되어 왔다. 본 논문에서는 정점으로 아이템을 표현하고, 간선으로 두 아이템집합을 표현하는 빈발 패턴 네트워크(FPN)이라 불리는 새 자료 구조를 제안한다. 빈발 패턴 네트워크에서 아이템 사이의 연관 관계를 발견하기 위해 이 구조를 어떻게 효율적으로 사용 하느냐에 초점을 두고 있다. 구조의 효율적인 사용을 위하여 한 아이템이 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 네트워크의 정점을 클러스터링하는 방법을 사용한다. 실험은 신뢰도, 상관관계 그리고 간선 가중치 유사도를 이용하여 네트워크에서 아이템 클러스터링의 정확도를 보여준다. 본 논문의 실험 결과를 통해 신뢰도 유사도가 네트워크의 정점을 클러스터링할 때 클러스터의 정확성에 가장 많은 영향을 미친다는 것을 알 수 있었다.

  • PDF