• 제목/요약/키워드: text similarity

검색결과 277건 처리시간 0.024초

논문 데이터베이스를 위한 텍스트 기반 유사도 계산 방안 (A Text-based Similarity Measure for Scientific Literature)

  • 윤석호;김상욱
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.317-322
    • /
    • 2011
  • 본 논문에서는 기존 텍스트 기반 유사도 계산 방안을 이용해서 논문들 간의 유사도를 계산하는 방안에 대해서 논의한다. 먼저, 실험을 통해서 논문의 제목, 요약, 그리고 본문 중에서 어떤 부분이 유사도를 계산하는데 더 유용한지 확인하고 적절한 가중치를 부여한다. 두 번째로 논문의 텍스트 정보가 불완전한 상황에서 논문들 간의 유사도를 보다 정확하게 계산할 수 있는 키워드 확장 방안을 제안한다. 실제 논문 데이터베이스를 이용해서 제안하는 방안의 우수성을 검증한다.

빅데이터 환경에서 텍스트마이닝 기법을 활용한 공공문서 분류체계의 적용사례 연구 (Case Study on Public Document Classification System That Utilizes Text-Mining Technique in BigData Environment)

  • 심장섭;이강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.1085-1089
    • /
    • 2015
  • 과거의 텍스트마이닝기법은 텍스트 자체의 복잡성과 텍스트 내에 산재한 변수의 자유도 때문에 분석 알고리즘을 구현하는데 어려움이 있었다. 의미 있는 정보를 얻기 위하여 어렵게 알고리즘을 구현했다고 하더라도, 기계적으로 텍스트 분석에 소요되는 시간이 텍스트를 사람이 직접 읽어 분석 하는 것보다 많은 시간이 요구 되었다. 그러나 최근 하드웨어와 분석 알고리즘의 발전과 함께 빅데이터라는 기술이 등장하였으며, 앞에서 설명한 제약사항을 극복할 수 있게 되었고, 텍스트마이닝을 통한 분석이 현실세계에서 그 가치를 충분히 인정받고 있다. 만약, 텍스트의 탐색 수준에서 벗어나 마이닝을 통하여 분석이 가능하다면 텍스트 분석에 소비되는 인적, 물적 자원의 비용을 절감할 수 있기 때문에 공공분야에서 절실히 요구되는 창조적인 일에 더 많은 자원을 효과적으로 활용할 수 있을 것이다. 이에 본 논문에서는 인적 자원이 수작업으로 하는 공공분야 문서 분류의 결과값과 빅데이터 환경에서 텍스트마이닝기반의 문서내 단어 빈도수(TF-IDF)와 문서간 코사인 유사도(Cosine Similarity)를 활용한 공공분야 문서분류의 결과값을 비교하여 평가한다.

  • PDF

가변적 클러스터 개수에 대한 문서군집화 평가방법 (The Evaluation Measure of Text Clustering for the Variable Number of Clusters)

  • 조태호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.233-237
    • /
    • 2006
  • This study proposes an innovative measure for evaluating the performance of text clustering. In using K-means algorithm and Kohonen Networks for text clustering, the number clusters is fixed initially by configuring it as their parameter, while in using single pass algorithm for text clustering, the number of clusters is not predictable. Using labeled documents, the result of text clustering using K-means algorithm or Kohonen Network is able to be evaluated by setting the number of clusters as the number of the given target categories, mapping each cluster to a target category, and using the evaluation measures of text. But in using single pass algorithm, if the number of clusters is different from the number of target categories, such measures are useless for evaluating the result of text clustering. This study proposes an evaluation measure of text clustering based on intra-cluster similarity and inter-cluster similarity, what is called CI (Clustering Index) in this article.

  • PDF

R&D과제의 기술분류를 이용한 사업간 유사도 분석 기법에 관한 연구 (A study on Similarity analysis of National R&D Programs using R&D Project's technical classification)

  • 김주호;김영자;김종배
    • 디지털콘텐츠학회 논문지
    • /
    • 제13권3호
    • /
    • pp.317-324
    • /
    • 2012
  • 최근 R&D 투자효율성 제고를 목표로 사업 간의 유사중복 조정에 대한 중요성이 강조되고 있으나, 과제 혹은 예산요구서 내용 등을 텍스트 기반으로 비교하는 기존 유사검색 방식은 내용의 품질 편차 등으로 인해 유의미한 유사성 도출에 제한점이 있다. 이러한 텍스트 기반의 키워드 추출을 통한 유사검색 한계성을 극복하기 위한 방안으로 본 연구에서는 사업 간 유사도 분석 시 과제의 기술분류를 활용한다. 국가R&D사업 조사 분석 시 수집된 과제들의 과학기술표준분류를 추출하여 사업별 고유벡터 모형을 생성 후 이를 이용하여 코사인 기반, 유클리디안 거리기반 알고리즘을 통해 각 사업 간 유사도를 측정하였으며 기존 키워드 추출방식으로 유사도를 측정한 결과와의 비교를 통해 연구 효율성을 검증하였다.

PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법 (Automatic Inter-Phoneme Similarity Calculation Method Using PAM Matrix Model)

  • 김성환;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권3호
    • /
    • pp.34-43
    • /
    • 2012
  • 두 문자열 간의 유사도를 계산하는 문제는 정보 검색, 오타 교정, 스팸 필터링 등 다양한 분야에 응용될 수 있다. 동적 계획법 기반의 유사도 계산 방법을 통하여 한글 문자열의 유사도 계산을 위해서는 우선 음소간의 유사도에 대한 정의가 필요하다. 그러나 기존의 방법들은 수동적 설정에 의한 유사도 점수를 사용하고 있다는 한계점이 있다. 본 논문에서는 PAM(Point Accepted Mutation) 행렬과 유사한 확률 모델을 이용하여 변형 단어 집합으로부터 음소 간의 유사도를 자동적으로 계산하는 기법을 제안한다. 제안 기법은 주어진 변형 단어의 집합 내 유사한 단어 쌍을 찾아 문자열 정렬(Text Alignment)을 수행함으로써 음소 변형 규칙을 도출하고, 이로부터 각 음소 쌍의 상호 변형 빈도에 따른 유사도 점수를 계산한다. 실험 결과 특이도(Specificity) 77.2~80.4% 수준에서 불일치 여부에 따른 단순 점수 부여 방식에 비해서는 10.4~14.1%, 수동으로 음소 간 유사도를 직접 설정하는 방식에 비해서는 8.1~11.8%의 민감도(Sensitivity) 향상이 있음을 확인하였다.

도합유사도를 이용한 한국어 문서요약 시스템 (A Korean Text Summarization System Using Aggregate Similarity)

  • 김재훈;김준홍
    • 인지과학
    • /
    • 제12권1_2호
    • /
    • pp.35-42
    • /
    • 2001
  • 본 논문에서 문서는 문서관계도라고 하는 가중치 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 명사벡터로 표현하고, 링크는 노드들 간의 의미적인 관계를 표현하며 의미적 유사도를 가중치로 가지고 있다. 한 노드의 인접한 노드를 사이의 유사도 합을 도합유사도라고 하며, 이를 문서에서 문장의 중요도로 간주한다. 본 논문에서는도합유사도를 이용한 한국어 문서요약 시스템을 기술한다. 실험에 사용된 평가용 요약문서는 정보처리관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서요약 시스템에 의해서 생상된 요약문서와 크기가 본문의 20%이고 평가용 요약문서가 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 평가용 요약문서가 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다.

  • PDF

Evaluation of Similarity Analysis of Newspaper Article Using Natural Language Processing

  • Ayako Ohshiro;Takeo Okazaki;Takashi Kano;Shinichiro Ueda
    • International Journal of Computer Science & Network Security
    • /
    • 제24권6호
    • /
    • pp.1-7
    • /
    • 2024
  • Comparing text features involves evaluating the "similarity" between texts. It is crucial to use appropriate similarity measures when comparing similarities. This study utilized various techniques to assess the similarities between newspaper articles, including deep learning and a previously proposed method: a combination of Pointwise Mutual Information (PMI) and Word Pair Matching (WPM), denoted as PMI+WPM. For performance comparison, law data from medical research in Japan were utilized as validation data in evaluating the PMI+WPM method. The distribution of similarities in text data varies depending on the evaluation technique and genre, as revealed by the comparative analysis. For newspaper data, non-deep learning methods demonstrated better similarity evaluation accuracy than deep learning methods. Additionally, evaluating similarities in law data is more challenging than in newspaper articles. Despite deep learning being the prevalent method for evaluating textual similarities, this study demonstrates that non-deep learning methods can be effective regarding Japanese-based texts.

정서 차원 공간에서 소설의 지배 정서 분석 및 분류 (Analyzing and classifying emotional flow of story in emotion dimension space)

  • 이신영;함준석;고일주
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.299-326
    • /
    • 2011
  • 소설, 블로그, 채팅 메시지, 상품평 등의 텍스트는 전반적인 정서의 흐름을 가지고 있다. 텍스트 간의 정서 흐름의 유사도를 비교하면 유사한 정서 흐름을 갖는 텍스트를 분류할 수 있고, 상품 추천이나 의견 수집 등에 활용할 수 있다. 본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다. 제안한 방법을 통해 한국 근대 단편 소설들을 분석하여 지배 정서를 분석하였고 유사한 지배 정서를 가지는 소설들을 분류하였다.

  • PDF

Learning Probabilistic Kernel from Latent Dirichlet Allocation

  • Lv, Qi;Pang, Lin;Li, Xiong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2527-2545
    • /
    • 2016
  • Measuring the similarity of given samples is a key problem of recognition, clustering, retrieval and related applications. A number of works, e.g. kernel method and metric learning, have been contributed to this problem. The challenge of similarity learning is to find a similarity robust to intra-class variance and simultaneously selective to inter-class characteristic. We observed that, the similarity measure can be improved if the data distribution and hidden semantic information are exploited in a more sophisticated way. In this paper, we propose a similarity learning approach for retrieval and recognition. The approach, termed as LDA-FEK, derives free energy kernel (FEK) from Latent Dirichlet Allocation (LDA). First, it trains LDA and constructs kernel using the parameters and variables of the trained model. Then, the unknown kernel parameters are learned by a discriminative learning approach. The main contributions of the proposed method are twofold: (1) the method is computationally efficient and scalable since the parameters in kernel are determined in a staged way; (2) the method exploits data distribution and semantic level hidden information by means of LDA. To evaluate the performance of LDA-FEK, we apply it for image retrieval over two data sets and for text categorization on four popular data sets. The results show the competitive performance of our method.

An Efficient Block Index Scheme with Segmentation for Spatio-Textual Similarity Join

  • Xiang, Yiming;Zhuang, Yi;Jiang, Nan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권7호
    • /
    • pp.3578-3593
    • /
    • 2017
  • Given two collections of objects that carry both spatial and textual information in the form of tags, a $\text\underline{S}patio$-$\text\underline{T}extual$-based object $\text\underline{S}imilarity$ $\text\underline{JOIN}$ (ST-SJOIN) retrieves the pairs of objects that are textually similar and spatially close. In this paper, we have proposed a block index-based approach called BIST-JOIN to facilitate the efficient ST-SJOIN processing. In this approach, a dual-feature distance plane (DFDP) is first partitioned into some blocks based on four segmentation schemes, and the ST-SJOIN is then transformed into searching the object pairs falling in some affected blocks in the DFDP. Extensive experiments on real and synthetic datasets demonstrate that our proposed join method outperforms the state-of-the-art solutions.