• 제목/요약/키워드: 벡터유사도

검색결과 728건 처리시간 0.023초

유사어를 이용한 단어 의미 중의성 해결 (Word Sense Disambiguation using Semantically Similar Words)

  • 서희철;이호;백대호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.304-309
    • /
    • 1999
  • 본 논문에서는 의미계층구조에 나타난 유사어 정보를 이용해서 단어 의미 중의성을 해결하고자 한다. 의미계층구조를 이용한 기존의 방법에서는 의미 벡터를 이용해서 단어 의미 중의성을 해결했다. 의미 벡터는 의미별 학습 자료에서 획득되는 것으로 유사어들의 공통적인 특징만을 이용하고, 유사어 개별 특징은 이용하지 않는다. 본 논문에서는 유사어 개별 특징을 이용하기 위해서 유사어 벡터를 이용해서 단어 의미 중의성을 해결한다. 유사어 벡터는 유사어별 학습 자료에서 획득되는 것으로, 유사어의 개별 정보를 가지고 있는 벡터이다. 세 개의 한국어 명사에 대한 실험 결과, 의미 벡터를 이용하는 것보다 유사어 벡터를 이용하는 경우에 평균 9.5%정도의 성능향상이 있었다.

  • PDF

특징점간의 벡터 유사도 정합을 이용한 손가락 관절문 인증 (Finger-Knuckle-Print Verification Using Vector Similarity Matching of Keypoints)

  • 김민기
    • 한국멀티미디어학회논문지
    • /
    • 제16권9호
    • /
    • pp.1057-1066
    • /
    • 2013
  • 손가락 관절문(FKP, finger-knuckle-print)을 이용한 개인 인증은 손가락 관절부에 나타나는 주름의 특징을 이용하는 것으로, 텍스처의 방향 정보가 중요한 특징이 된다. 본 논문에서는 SIFT 알고리즘을 이용하여 특징점들을 추출하고, 벡터 유사도 정합을 통해 FKP를 효과적으로 인증할 수 있는 방법을 제안하다. 벡터는 질의 영상에서 추출한 특징점과 이에 대응되는 참조 영상의 특징점을 연결하는 방향 벡터로 정의된다. 국소적인 특징점 쌍으로부터 방향 벡터를 생성하기 때문에 방향 벡터 자체는 국소적인 특징만을 나타내지만, 두 영상 간에 존재하는 다른 벡터들 간의 유사도를 비교함으로써 전역적인 특징으로 확장되는 장점이 있다. 실험결과 제안하는 방법은 기존의 방향코드를 이용한 다양한 방식에 비하여 우수한 성능을 나타내었다.

스테레오 비디오의 효율적인 오류 은닉 알고리즘 (An Efficient Error Concealment Algorithm for Stereoscopic Videos)

  • 정태영;김창수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 하계학술대회
    • /
    • pp.396-397
    • /
    • 2010
  • 본 논문에서는 스테레오 비디오의 오류 복원 알고리즘을 제안한다. 제안하는 알고리즘은 시간적 시점간 상관관계를 동시에 고려하여 오류 블록을 복원한다. 시간적 상관관계가 있는 블록들의 디스패리티 벡터 유사성을 통해 움직임 벡터와 디스패리티 벡터를 예측하고, 시점간 상관관계가 있는 블록들의 움직임 벡터 유사성을 통해 디스패리티 벡터와 움직임 벡터를 예측한다. 예측된 벡터들로부터, 오류 블록의 인접 화소 값들과 가장 유사한 값을 갖는 시간 시점 후보 블록들을 찾고, 시간 시점후보 블록들을 조합하여 오류 블록을 복원한다. 제안하는 알고리즘이 스테레오 비디오를 위한 효과적인 오류 은닉 방법으로서 높은 복원 효율을 나타냄을 컴퓨터 모의실험을 통해 확인한다.

  • PDF

뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 (Document Embedding and Image Content Analysis for Improving News Clustering System)

  • 김시연;김상범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.104-108
    • /
    • 2015
  • 많은 양의 뉴스가 생성됨에 따라 이를 효과적으로 정리하는 기법이 최근 활발히 연구되어왔다. 그 중 뉴스클러스터링은 두 뉴스가 동일사건을 다루는지를 판정하는 분류기의 성능에 의존적인데, 대부분의 경우 BoW(Bag-of-Words)기반 벡터유사도를 사용하고 있다. 본 논문에서는 BoW기반의 벡터유사도 뿐 아니라 두 문서에 포함된 사진들의 유사성 및 주제의 관련성을 측정, 이를 분류기의 자질로 추가하여 두 뉴스가 동일사건을 다루는지 판정하는 분류기의 성능을 개선하는 방법을 제안한다. 사진들의 유사성 및 주제의 관련성은 최근 각광을 받는 딥러닝기반 CNN과 신경망기반 문서임베딩을 통해 측정하였다. 실험결과 기존의 BoW기반 벡터유사도에 의한 분류기의 성능에 비해 제안하는 두 자질을 사용하였을 경우 3.4%의 성능 향상을 보여주었다.

  • PDF

게임컨텐츠 특징을 이용한 유사도 산출 기법에 관한 연구 (A Study of Similarity Measure using Game Contents Features)

  • 김진용
    • 한국게임학회 논문지
    • /
    • 제3권1호
    • /
    • pp.49-55
    • /
    • 2003
  • 게임산업의 급속한 발전과 더불어 대중적, 상업적, 인기 게임에 대한 저작권, 표절, 복제에 대한 논란이 많이 나타나고 있으나 게임에 대한 저작권, 표절, 복제도 산출, 유사도, 가치 평가에 대한 연구는 미비한 상태이며 유사도, 복제도 산출에 있어서 정량적인 산출 기법에 대한 연구는 전무한 상태이다. 본 논문에서는 게임 컨텐츠의 저작권, 프로그램보호권, 컴퓨터 게임과 영상 저작물의 관계를 고찰해 보았으며 이를 근거로 게임의 게임 저작권 설정에 대한 기초 자료를 제시하였다. 게임의 복제, 표절, 저작권 논란에 대하여 그동안 주관적이고 정성적인 형태로 표현된 유사도를 게임 특징벡터 추출 기법을 이용하여 객관적이고 정량적인 유사도 산출 방법을 제안하였다. 제안 방법은 게임 분류기법에서 특징 벡터를 추출하여 이를 근거로 원본 게임과 유사한 게임간의 특징 벡터를 비교하여 정량적인 유사도를 산출하였으며 실험 결과를 통하여 제안한 방법이 유사게임간의 그룹화, 정량적 유사도 산출의 가능성을 제시하였다.

  • PDF

Word2vec 모델의 단어 임베딩 특성 연구 (On Characteristics of Word Embeddings by the Word2vec Model)

  • 강형석;양장훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.263-266
    • /
    • 2019
  • 단어 임베딩 모델 중 현재 널리 사용되는 word2vec 모델은 언어의 의미론적 유사성을 잘 반영한다고 알려져 있다. 본 논문은 word2vec 모델로 학습된 단어 벡터가 실제로 의미론적 유사성을 얼마나 잘 반영하는지 확인하는 것을 목표로 한다. 즉, 유사한 범주의 단어들이 벡터 공간상에 가까이 임베딩되는지 그리고 서로 구별되는 범주의 단어들이 뚜렷이 구분되어 임베딩되는지를 확인하는 것이다. 간단한 군집화 알고리즘을 통한 검증의 결과, 상식적인 언어 지식과 달리 특정 범주의 단어들은 임베딩된 벡터 공간에서 뚜렷이 구분되지 않음을 확인했다. 결론적으로, 단어 벡터들의 유사도가 항상 해당 단어들의 의미론적 유사도를 의미하지는 않는다. Word2vec 모델의 결과를 응용하는 향후 연구에서는 이런 한계점에 고려가 요청된다.

대수적 특성을 고려한 벡터 유사도 측정 함수의 고찰 (Survey on Vector Similarity Measures : Focusing on Algebraic Characteristics)

  • 이동주;심준호
    • 한국전자거래학회지
    • /
    • 제17권4호
    • /
    • pp.209-219
    • /
    • 2012
  • 전자 상거래 시스템 환경에서 상품, 상품평, 사용자 특성 등은 주요한 정보 객체이다. 벡터는 객체의 표현기법으로 널리 사용되고 있다. 전자 상거래 데이터 객체들은 벡터로서 모델되어 각 특질에 해당하는 차원의 숫자 값으로 표현될 수 있다. 전자 상거래의 특성상 이러한 객체들은 방대한 분량이 되고 있고, 이중 여러 객체들은 실제로 같거나 유사한 객체일 수 있다. 따라서 객체간 유사도 측정은 전자상거래 시스템에서 중요한 역할을 한다. 본 논문에서는 벡터 객체에서 사용되는 대표적인 유사도 측정 함수들을 고찰한다. 유사 함수들은 각각의 대수적 특성을 가지고 있고 서로 연결된 특성을 보인다. 이러한 특성을 분석하고 또한 유사 함수들을 분류해 본다. 이러한 과정은 표준 벡터 유사도 함수가 가져야 할 대수적 특성을 제시해준다.

차원감소 단어벡터 시각화를 통한 어휘별 관계 분석 (Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization)

  • 고광호;백주련
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

다차원 데이터의 효과적인 유사도 검색을 위한 색인구조 (Index Structure for Efficient Similarity Search of Multi-Dimensional Data)

  • 복경수;허정필;유재수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.97-99
    • /
    • 2004
  • 본 논문에서는 다차원 데이터의 유사도 검색을 효과적으로 수행하기 위한 색인 구조를 제안한다. 제안하는 색인 구조는 차원의 저주 현상을 극복하기 위한 벡터 근사 기반의 색인 구조이다. 제안하는 색인 구조는 부모 노드를 기준으로 KDB-트리와 유사한 영역 분할 방식으로 분할하고 분할된 각 영역은 데이터의 분포 특성에 따라 동적 비트를 할당하여 벡터 근사화된 영역을 표현한다. 따라서, 하나의 노드 안에 않은 영역 정보를 저장하여 트리의 깊이를 줄일 수 있다. 또한 다차원의 특징 벡터 공간에 상대적인 비트를 할당하기 때문에 군집화되어 있는 데이터에 대해서 효과적이다 제안하는 색인 구조의 우수성을 보이기 위해 다양한 실험을 통하여 성능의 우수성을 입증한다.

  • PDF

모듈라 신경망에 기반한 번호판 인식시스템의 특징벡터 클러스터링 방법에 따른 성능평가 (Performance Evaluation of Clustering Methods of Feature Vectors in Vehicle Plate Recognition Systems based on Modular Neural Network)

  • 박창석;김병만;서병훈;이광호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.313-315
    • /
    • 2003
  • 분할 및 합병 개념에 바탕을 둔 모듈라 신경망이 자동차 번호판 문자 인식에서 단일 신경망 사용 보다 학습 질 측면이나 학습 속도 면에서 좋은 결과를 보였다. 본 논문에서는 번호판 인식을 위한 모듈라 신경망 구성 시, 특징 벡터 클러스터링 방법에 따른 모듈라 신경망의 성능을 평가하였다. K-means Clustering 알고리즘을 이용하여 유사한 특징 벡터를 그룹핑하는 방법과 본 논문에서 제안한 알고리즘을 사용하여 유사하지 않는 특징 벡터들을 그룹핑하는 방법 각각을 구현하여 실험하였다. 실험결과, 유사하지 않는 특징 벡터들로 모듈라 신경망을 구성할 경우가 그렇지 않은 경우보다 좋은 인식 결과를 보였다.

  • PDF