• 제목/요약/키워드: search similarity

검색결과 530건 처리시간 0.061초

POI(Point Of Interest) 데이터 검색에서 문자열 유사도 측정 정확도 향상 기법 (Accuracy Improvement Methods for String Similarity Measurement in POI(Point Of Interest) Data Retrieval)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권9호
    • /
    • pp.498-506
    • /
    • 2014
  • 교통의 발달로 활동범위가 넓은 현대인들은 네비게이션과 지도 앱을 통한 길찾기 검색을 자주 이용한다. 하지만 기존 검색 시스템에서는 부정확한 질의어가 입력되면 원하는 결과를 출력하지 못한다. 이 문제를 해결하기 위해 집합-기반 POI 검색 알고리즘이 등장했고 이어 문자열 유사도 측정 기법, 중복 글자를 고려한 검색 알고리즘이 연구되었다. 본 논문에서는 이전에 연구된 문자열 유사도 측정 알고리즘의 정확도를 향상시킨 기법을 제안한다. 기존 문자열 유사도 측정 기법에서 고려하지 않았던 고유어의 추정단계와 중복 단어를 고려한 블록 및 블록 나열 순서 구하기를 추가하고 측정 기법을 수식화한다. 이를 통해 측정방법을 체계적으로 표현하고 일반화함으로써 POI 검색 결과의 정확도를 향상시킨다. 실험을 통해 본 논문에서 제시하는 기법이 검색 결과 및 검색 순위의 정확도를 향상시킨다는 것을 확인하였다.

워드 임베딩(Word Embedding)을 활용한 최적의 키워드 추출 및 검색 방법 연구 (A Study on the Optimal Search Keyword Extraction and Retrieval Technique Generation Using Word Embedding)

  • 이정인;안진희;고경택;김영석
    • 한국지반신소재학회논문집
    • /
    • 제22권2호
    • /
    • pp.47-54
    • /
    • 2023
  • 본 논문에서는 자료 조사를 위한 최적의 키워드 추출 및 검색 방법을 제안하였으며, 북한 건설 관련 동향 파악을 예시로 제안 방법을 검증하였다. 대표적인 국내 언론 플랫폼인 빅카인즈(BigKinds)를 활용하여 표본 기사를 선정하고 키워드를 추출하였다. 추출된 키워드는 워드 임베딩(Word Embedding)을 활용하여 벡터화하였으며, 이를 토대로 코사인 유사도(Cosine Similarity)를 통해 추출된 키워드 간의 유사도를 검사하였다. 또한 상위 빈도수 10개에 대한 키워드를 기준으로 유사도 0.5 이상인 키워드들을 군집화하였다. 각 군집들은 빅카인즈 검색 양식에 맞추어 군집 내부 키워드 간에는 'OR', 군집 간에는 'AND'로 형성하였다. 심층 분석 결과, 본래 목적에 맞는 유의미한 기사들이 추출되었음을 확인할 수 있었다. 기존의 분류체계 및 검색 양식을 변형시키지 않은 상태에서 사용자의 세부 목적을 충족시키는 자료 조사·분류가 가능하게 되었다는 점에서 의의를 갖는다.

DYNAMIC TIME WARPING FOR EFFICIENT RANGE QUERY

  • Long Chuyu Li;Jin Sungbo Seo;Ryu Keun Ho
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2005년도 Proceedings of ISRS 2005
    • /
    • pp.294-297
    • /
    • 2005
  • Time series are comprehensively appeared and developed in many applications, ranging from science and technology to business and entertainrilent. Similarity search under time warping has attracted much interest between the time series in the large sequence databases. DTW (Dynamic Time Warping) is a robust distance measure and is superior to Euclidean distance for time series, allowing similarity matching although one of the sequences can elastic shift along the time axis. Nevertheless, it is more unfortunate that DTW has a quadratic time. Simultaneously the false dismissals are come forth since DTW distance does not satisfy the triangular inequality. In this paper, we propose an efficient range query algorithmbased on a new similarity search method under time warping. When our range query applies for this method, it can remove the significant non-qualify time series as early as possible before computing the accuracy DTW distance. Hence, it speeds up the calculation time and reduces the number of scanning the time series. Guaranteeing no false dismissals, the lower bounding function is advised that consistently underestimate the DTW distance and satisfy the triangular inequality. Through the experimental result, our range query algorithm outperforms the existing others.

  • PDF

커버곡 검색 정확도 향상을 위한 적합도 기반 크로마그램 쌍별 유사도 (A relevance-based pairwise chromagram similarity for improving cover song retrieval accuracy)

  • 서진수
    • 한국음향학회지
    • /
    • 제43권2호
    • /
    • pp.200-206
    • /
    • 2024
  • 음악 유사도 계산은 음악 검색 서비스 구현에서 중요한 구성 요소 중 하나이다. 본 논문은 커버곡 검색 성능을 제고하기 위해서, 크로마그램 벡터 별로 커버곡 검색 적합도를 구하여 음악 유사도 계산 시 가중치로 활용한다. 커버곡 검색 적합도는 확률 적합도 모델을 이용하여 구한다. 커버곡 검색에 도움이 될 수 있는 분별도가 높은 벡터에 높은 가중치를 부여하고, 흔하게 존재하여 분별도가 떨어지는 벡터에 낮은 가중치를 부여하는 방식으로 음악 유사도 함수를 유도한다. 두 가지 커버곡 실험 데이터셋에서 성능 비교를 수행하여 제안한 음악 유사도 함수가 커버곡 검색 성능을 개선시킬 수 있음을 보였다.

WWW 탐색도구의 색인 및 탐색 기능 평가에 관한 연구 (A Comparative Study of WWW Search Engine Performance)

  • 정영미;김성은
    • 한국문헌정보학회지
    • /
    • 제31권1호
    • /
    • pp.153-184
    • /
    • 1997
  • WWW 탐색도구들은 인터넷 정보자원의 탐색에 있어서 매우 중요한 역할을 하고 있다. 본 연구에서는 주요한 WWW 탐색도구들의 성능을 평가할 목적으로 먼저 각 탐색도구의 색인 데이터베이스 특성, 탐색 기능, 적합성 순위 부여 방법 등을 비교한 후, 탐색실험을 통하여 검색효율, 중복탐색의 정도, 탐색결과의 유사도 등을 측정하였다. 탐색실험 결과 탐색질문의 유형에 관계없이 Alta Vista, HotBot, Open Text Index가 비교적 좋은 검색효율을 보였으며, 대부분의 탐색도구가 질문의 유형에 따라 검색효율에 있어서 차이를 보였다. 동일한 사이트를 중복하여 탐색하는 탐색의 중복도는 Magellan, WebCrawler, Yahoo!를 제외한 나머지 탐색도구들에서 모두 높게 나타났다. 탐색결과의 유사도를 측정한 견과 대부분의 탐색도구들이 매우 낮은 유사도를 보였다.

  • PDF

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

내용 및 유사도 검색을 위한 움직임 객체 모델링 (Moving Objects Modeling for Supporting Content and Similarity Searches)

  • 복경수;김미희;신재룡;유재수;조기형
    • 한국멀티미디어학회논문지
    • /
    • 제7권5호
    • /
    • pp.617-632
    • /
    • 2004
  • 비디오 데이터에는 시간의 변화에 따라 공간적인 위치가 변화하는 움직임 객체를 포함하고 있다. 이 논문에서는 비디오 데이터의 움직임 객체에 대한 새로운 모델링 방법을 제안한다. 제안하는 모델링은 움직임 객체를 효과적으로 검색하기 위해 시간의 변화에 따라 공간적인 위치와 크기 변화를 표현한다. 또한 객체의 시간에 따른 시각적 특징 변화와 객체의 방향, 거리 그리고 속도를 고려한 궤적을 표현한다. 따라서 움직임 객체의 시각적인 특징 유사도 검색, 거리 유사도 검색, 제적 유사도 검색을 수행할 수 있다. 또한 이들을 통합한 가중치 검색이 가능하도록 한다.

  • PDF

Word2Vec 학습을 통한 의미 기반 해외 유사 특허 검색 방안 (Identifying Similar Overseas Patent Using Word2Vec-Based Semantic Text Analytics)

  • 백민지;김남규
    • 한국IT서비스학회지
    • /
    • 제17권2호
    • /
    • pp.129-142
    • /
    • 2018
  • Recently, the number of patent applications have been increasing rapidly every year as the importance of protecting intellectual property rights becomes more important. Patents must be inventive and have novelty. Especially, the novelty implies that the corresponding invention is not the same as the previous invention. To confirm the novelty, prior art search must be conducted before and after the application. The target of prior art search should include not only Korean patents but also foreign patents. Search of foreign patents should be supported by multilingual search techniques. However, a dictionary-based naive approach shows a limitation because some technical concepts are represented in different terms according to each nation. For example, a Korean term and a Japanese term may not be synonym even though they represent the same technical concept. In this paper, we propose a new method to map semantic similarity between technical terms in Korean patents and Japanese patents. To investigate different representations in each nation for the same technical concept, we identified and analyzed pairs of patents those are mutually connected with priority claim relationship. By performing an experiment with real-world data, we showed that our approach can reveal semantically similar technical terms in other language successfully.

윤곽선 이미지 피라미드와 관심영역 검출을 이용한 SIFT 기반 이미지 유사성 검색 (SIFT based Image Similarity Search using an Edge Image Pyramid and an Interesting Region Detection)

  • 유승훈;김덕환;이석룡;정진완;김상희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권4호
    • /
    • pp.345-355
    • /
    • 2008
  • 다양한 형태 특징 추출 방법 중의 하나인 SIFT는 물체 인식, 모션 추적, 3차원 이미지 재구성과 같은 컴퓨터 비전 응용 분야에서 많이 사용된다. 하지만 SIFT 방법은 많은 특징점들과 고차원의 특징 벡터를 사용하기 때문에 이미지 유사성 검색에 그대로 적용하기에는 많은 어려움이 있다. 본 논문에서는 윤곽선 이미지 피라미드와 관심영역 검출을 이용한 SIFT 기반 이미지 유사성 검색 기법을 제안한다. 제안한 방법은 윤곽선 이미지 피라미드를 이용하여 이미지의 밝기 변화, 크기, 회전등에 불변한 특징을 추출하고, 타원 형태의 허프변환을 이용한 관심영역 검출을 통해 불필요한 많은 특징점들을 제거하여 검색성능을 높인다. 실험 결과에서 제안한 방법의 이미지 검색 성능이 기존의 SIFT의 방법에 비해 평균 재현율이 약 20%정도 좋은 성능을 보이고 있다.

Needleman-Wunsch 알고리즘을 이용한 유사예문 검색 (Searching Similar Example-Sentences Using the Needleman-Wunsch Algorithm)

  • 김동주;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.181-188
    • /
    • 2006
  • 본 논문에서는 번역지원 시스템을 위한 유사예문 검객 알고리즘을 제안한다. 유사예문 검색이란 질의문에 대하여 구조적, 의미적으로 유사한 예문을 찾는 것으로 번역지원 시스템의 핵심 요소이다. 제안하는 알고리즘은 생물정보학 분야에서 두 단백질의 아미노산열의 유사성을 판별하기 위한 Needleman-Wunsch 알고리즘에 기반하고 있다. 표면정보만 이용하는 Needleman-Wunsch 알고리즘을 그대로 문장 비교에 적용하였을 경우 단어 굴절요소에 민감하여 의미적으로 유사한 문장을 발견하지 못할 가능성이 높다. 따라서 표면 정보 외에 단어의 표제어 정보를 추가적으로 이용한다. 또한 문장 구조의 유사성 정도를 반영하기 위해 품사 정보를 이용한다. 즉, 본 논문에서는 단어의 표면 정보. 표제어 정보, 품사 정보를 융합한 문장 비교 척도를 제안한다. 그리고 이 척도를 이용하여 유사 문장을 검색하고, 유사성에 기여하는 부분쌍을 파악하여 결과로 제시한다. 제안하는 알고리즘은 전기통신 분야의 데이터에 대해 매우 우수한 성능을 보였다.

  • PDF