• 제목/요약/키워드: Related Documents Retrieval

검색결과 56건 처리시간 0.027초

Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model

  • Kadowaki, Natsuki;Kishida, Kazuaki
    • Journal of Information Science Theory and Practice
    • /
    • 제8권2호
    • /
    • pp.6-17
    • /
    • 2020
  • Word similarity is often measured to enhance system performance in the information retrieval field and other related areas. This paper reports on an experimental comparison of values for word similarity measures that were computed based on 50 intentionally selected words from a Reuters corpus. There were three targets, including (1) co-occurrence-based similarity measures (for which a co-occurrence frequency is counted as the number of documents or sentences), (2) context-based distributional similarity measures obtained from a latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), and Word2Vec algorithm, and (3) similarity measures computed from the tf-idf weights of each word according to a vector space model (VSM). Here, a Pearson correlation coefficient for a pair of VSM-based similarity measures and co-occurrence-based similarity measures according to the number of documents was highest. Group-average agglomerative hierarchical clustering was also applied to similarity matrices computed by individual measures. An evaluation of the cluster sets according to an answer set revealed that VSM- and LDA-based similarity measures performed best.

폭소노미 기반 개인화 웹 검색 시스템 (Folksonomy-based Personalized Web Search System)

  • 김동욱;강수용;김한준;이병정
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권1호
    • /
    • pp.105-115
    • /
    • 2010
  • 검색엔진들은 사용자로부터 질의어를 전송받아 질의어와 관련이 가장 높은 웹 문서들을 보여주게 된다. 하지만 검색엔진이 사용자의 질의어만 가지고 사용자의 의도를 파악하여 정확한 웹 문서를 제공하기는 어렵다. 따라서 검식 엔진 시스템은 다양한 개인화 방법을 사용하여 각 사용자가 원하는 검색 결과를 보여주기 위해 노력한다. 본 논문에서는 개인화 검색을 위해 '폭소노미'를 기반으로 사용자에게 적합한 질의어를 추천해 주는 방법을 제안한다. 또한 이러한 개인화된 검색 결과를 제공하는 시스템이 가질 수 있는 프라이버시 침해 위험성을 제거하면서도 검색 서비스 제공자 입장에서는 사용자 정보를 활용한 다양한 서비스(개인화 광고등) 제공이 가능하도록 하는 개인화 검색 서비스 구조를 제안한다.

Shadow Libraries: A Bibliometric Analysis of Black Open Access Phenomenon (2011: 2023)

  • Safinaz Mahmoud Elroukh
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.21-32
    • /
    • 2024
  • This study analyzes the global literature on the black open-access phenomenon from 2011 to 2023. A bibliometric analysis was conducted using the Scopus database. The search strategy employed advanced queries with multiple synonymous terms to ensure exhaustive retrieval of relevant documents. The VOSviewer software was employed to visualize the co-occurrence networks. The findings reported 90 papers published during the study period. An evolving scholarly landscape was revealed, with heightened attention from 2016 onwards, peaking in 2017, 2021, and 2023. Articles constitute 83.3% of the total published documents. Singh and Srichandan are prolific authors, with 11.2% of the total publications. The United States contributes 18.9% of the papers, followed by India and Spain. Information Development and Scientometrics are pivotal journals in scholarly discussions about this scope, contributing 4.4% of publications. Co-occurrence network visualization revealed "Sci-Hub" and "open access" as the most used keywords in the global literature. The findings underscore the need for additional research to discover innovative business models to safeguard intellectual property rights while meeting researchers' evolving needs. The importance of this paper comes from being the first bibliometric study analyzing international literature related to this phenomenon, which provides a basis for future research efforts and policymaking.

가중치 기반 PLSA를 이용한 문서 평가 분석 (Reputation Analysis of Document Using Probabilistic Latent Semantic Analysis Based on Weighting Distinctions)

  • 조시원;이동욱
    • 전기학회논문지
    • /
    • 제58권3호
    • /
    • pp.632-638
    • /
    • 2009
  • Probabilistic Latent Semantic Analysis has many applications in information retrieval and filtering, natural language processing, machine learning from text, and in related areas. In this paper, we propose an algorithm using weighted Probabilistic Latent Semantic Analysis Model to find the contextual phrases and opinions from documents. The traditional keyword search is unable to find the semantic relations of phrases, Overcoming these obstacles requires the development of techniques for automatically classifying semantic relations of phrases. Through experiments, we show that the proposed algorithm works well to discover semantic relations of phrases and presents the semantic relations of phrases to the vector-space model. The proposed algorithm is able to perform a variety of analyses, including such as document classification, online reputation, and collaborative recommendation.

연구개발 생산성 향상을 위한 태스크 유사도 기반 산출물 재사용 추천 프레임워크 (A reuse recommendation framework of artifacts based on task similarity to improve R&D performance)

  • 남승우;혼 다네스;홍장의
    • 융합정보논문지
    • /
    • 제9권2호
    • /
    • pp.23-33
    • /
    • 2019
  • 연구 개발 활동은 다양한 기술 정보의 조사 분석 및 기술 보고서 작성 활동들로 구성된다. 연구 개발 활동이 구체화되면서 이전 단계에 작성된, 또는 이전의 유사 프로젝트에서 작성된 관련 기술 문서를 참조하는 일이 많이 발생한다. 본 논문에서는 연구자가 원하는 이전 산출물의 효율적인 재사용을 가능하게 하는 재사용 추천 프레임워크인 RTRF(research task based reuse recommendation framework)를 제안한다. 제안하는 프레임워크는 기존의 유사어 기반 검색 및 재사용에 추가하여 태스크 유사도를 기반으로, 개발자의 연구와 비슷한 흐름을 가지고 있는 다른 개발자가 재사용한 문서를 추천해주어 개발자에게 필요할 수 있는 정보를 제공한다. 사례연구는 연구자들이 기존 문서를 재사용하여 기술동향보고서를 작성하는 과정에서의 효율성을 보이기 위해 수행하였다. RTRF를 이용하여 재사용을 수행하는 경우, RTRF를 이용하지 않는 경우와 비교했을 때 다른 단계의 문서 및 다른 연구분야의 문서를 더 빈번하게 재사용하는 것을 알 수 있었다. 본 논문에서 제안하는 RTRF는 개발자가 저장소에 저장되어 있는 방대한 양의 R&D 문서들 중에서 원하는 문서를 효율적으로 재사용하는 것에 큰 기여를 한다.

연관 태그의 군집화를 위한 클러스터링 기법 비교 연구 (A Comparative Study on Clustering Methods for Grouping Related Tags)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.399-416
    • /
    • 2009
  • 본 연구에서는 태그 공간에서 정보의 효율적 탐색을 위해 이용자에게 제공될 수 있는 연관 태그 클러스터의 생성을 위해 다양한 유사계수와 클러스터링 기법을 적용한 후 그 결과를 평가하고 비교 분석함으로써 연관 태그의 클러스터링에 가장 적합한 클러스터링 알고리즘을 확인하고자 하였다. Delicious에서 임의의 태그 10개를 대상으로 각각 300개의 문서에서 추출한 연관 태그를 대상으로 태그쌍 간의 연관성을 측정한 후 계층적 기법과 비계층적 기법을 적용하여 생성된 클러스터를 대상으로 클러스터 적합도를 측정한 결과, 일반적으로 용어 클러스터링에서 널리 활용되는 것으로 알려진 워드 기법이 코사인 유사계수와 결합했을 때 거의 모든 실험 대상에 대해 유사한 경향을 보이면서 가장 우수한 성능을 나타내는 것으로 나타났다. 연관 태그 클러스터는 정보관리 측면에서 유사한 합목적성을 갖는 태그끼리 군집을 이루면서 용어의 중의성을 해소함으로써 태그 공간에서의 이용자의 정보 탐색에 유용하게 활용될 것이다.

온톨로지를 이용한 웹문서의 시맨틱 검색 (Semantic search of web documents using ontology)

  • 오성균;김병곤
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권5호
    • /
    • pp.603-612
    • /
    • 2014
  • 사용자들에게 좀 더 정확하고 편리한 검색결과를 제공하기 위하여 정보의 구조적인 특징 등을 사용하는 시맨틱 검색의 개념이 널리 연구되고 있다. 이를 위하여, 최근의 정보검색분야와 데이터구축 분야의 연구에서는 데이터의 구조적인 표현과 검색 메카니즘을 구현하기 위하여 온톨로지를 강조하고 있다. 본 연구에서는 웹 환경에서의 검색 정확도와 만족도를 향상시키기 위하여 온톨로지를 이용한 시맨틱 검색 방법을 제안한다. 온톨로지와 KB(KnowledgeBase)를 이용하여 검색 대상을 키워드간의 관계를 유추한 사실(fact)과 관계키워드들을 지니는 웹문서들로 크게 나누고 이들을 서로 유기적으로 검색을 진행하는 시맨틱 검색 질의 처리기법을 제안하였다. 또한 결과에 대한 사용자의 검색 만족도를 높이기 위하여 결과 문서와 사실에 대한 랭킹 방법을 제안하였다. 실험을 통하여 주어진 식의 값을 달리하여 랭킹을 올바로 구현하는 요소로 키워드의 빈도와 온톨로지상의 클래스 레벨이 영향을 미치는 것을 확인 할 수 있었고, 이를 통하여 적합한 형태의 계수 값을 제시하였다.

조세심판 문서 검색 효율 향상 모델에 관한 연구 (A Study on the Improvement Model of Document Retrieval Efficiency of Tax Judgment)

  • 이후영;박구락;김동현
    • 한국융합학회논문지
    • /
    • 제10권6호
    • /
    • pp.41-47
    • /
    • 2019
  • 조세 심판에 대한 선결정례는 법원 판례의 경우 유사 심판례를 검색하여 파악하는 것이 매우 중요한 상황이다. 그러나 기존 심판문에 대한 검색은 사용자가 입력하는 키워드를 통하여 검색하는 방법을 사용하고 있으나, 정확한 키워드의 입력이 필요하며, 키워드를 모르는 경우 필요한 문서를 검색하는 것은 불가능하다. 또한 검색된 문서 중에는 내용이 다른 경우도 발생한다. 이에 본 논문에서는 정확한 심판례의 검색을 위하여 문서를 3차원 공간에 벡터화하고, 코사인 유사도를 계산하여, 거리상 가까운 문서를 검색하는 방법의 효율성을 향상시키기 위하여 심판례에서 사용되고 있는 단어들의 유사도를 분석한 후, 최빈값을 추출하여 본문의 텍스트에 삽입하는 방법으로 검색하고자 하는 문서의 코사인 유사도를 향상시키는 방안을 제안한다. 제안 모델을 통하여 조세와 관련된 심판례를 검색하고자 하는 사용자에게 신속하고, 정확한 검색을 제공할 수 있을 것으로 기대된다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

중소기업에서의 하이퍼웨이브를 이용한 정보관리시스템 도입에 관한 연구 (A Study on Introducing Hyperwave System in Small and Medium Enterprises)

  • 노영희
    • 정보관리연구
    • /
    • 제27권2호
    • /
    • pp.65-94
    • /
    • 1996
  • 본고에서는 기술정보를 관리할 필요성을 느끼면서도 재정적인 이유와 조직구조상의 문제로 정보관리실이나 정보관리담당자를 둘 수 없는 중소기업이 낮은 비용으로 기술정보를 효과적으로 관리함으로써 업무의 중복을 피할 수 있고 기술혁신을 가져올 수 있는 방안을 제시하고 있다. 이러한 방안은 차세대 웹 브라우저로 등장하고 있는 하이퍼웨이브를 기술정보관리시스템으로 활용하는 것으로서 다음과 같은 장점을 가지고 있다. 첫째, 하이퍼웨이브는 어느 누구나 기술정보를 용이하게 관리할 수 있다. 둘째, 하이퍼웨이브를 이용하여 기술정보를 관리할 경우 정보자료의 입력, 수정, 삭제를 용이하게 할 수 있다. 셋째, 하이퍼웨이브 시스템은 관련된 문헌 혹은 이미지들을 연결시키기 위해 링크를 간단하게 생성할 수 있다. 넷째, 다양한 검색기법을 제공한다. 다섯째, 하이퍼웨이브는 가격이 저렴하고 기업의 특성을 살려서 기술정보를 조직할 수 있다.

  • PDF