• 제목/요약/키워드: 텍스트 랭킹 알고리즘

검색결과 7건 처리시간 0.03초

Performance Evaluations of Text Ranking Algorithms

  • Kim, Myung-Hwi;Jang, Beakcheol
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권2호
    • /
    • pp.123-131
    • /
    • 2020
  • 텍스트 순위 알고리즘은 키워드 추출을 위한 대표적인 방법이며 그 중요성이 강조되고 있다. 본 논문에서는 텍스트 랭킹 알고리즘에서 대표적으로 사용되는 TF-IDF, SMART, INQUERY, CCA 알고리즘이 적용된 최근 연구와 실험해비교한다. 먼저, 각 알고리즘을 설명한 후 뉴스와 트위터 데이터를 기반으로 알고리즘의 성능을 분석한다. 실험 결과에 따르면 네 가지 알고리즘 모두 뉴스 데이터에서 특정 단어의 추출 성능이 좋다는 것을 알 수 있다. 그러나 Twitter의 경우 CCA는 특정 단어를 추출하는 최고의 성능을 가지며 INQUERY는 가장 낮은 성능을 보여준다. 또한 6 가지 비교 메트릭을 통해 알고리즘의 정확성을 분석한다. 실험 결과 CCA가 뉴스 데이터에서 최고의 정확도를 보여주고, 트위터의 경우 TF-IDF와 CCA는 비슷한 성능을 보이며 높은 정확도를 보인다.

의미적으로 확장된 문장 간 유사도를 이용한 한국어 텍스트 자동 요약 (Korean Text Automatic Summarization using Semantically Expanded Sentence Similarity)

  • 김희찬;이수원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.841-844
    • /
    • 2014
  • 텍스트 자동 요약은 수많은 텍스트 데이터를 처리함에 있어 중요한 연구 분야이다. 이중 추출요약은 현재 가장 많이 연구가 되고 있는 자동 요약 분야이다. 본 논문은 추출 요약의 선두 연구인 TextRank는 문장 간 유사도를 계산할 때 문장 내 단어 간의 의미적 유사성을 충분히 고려하지 못하였다. 본 연구에서는 의미적 유사성을 고려한 새로운 단어 간 유사도 측정 방법을 제안한다. 추출된 문장 간 유사도는 그래프로 표현되며, TextRank의 랭킹 알고리즘과 동일한 랭킹 알고리즘을 사용하여 실험적으로 평가하였다. 그 결과 문장 간 유사성을 고려할 때 단어의 의미적 요소를 충분히 고려하여 정보의 유실을 최소화하여야 한다는 것을 실험 결과로써 확인할 수 있었다.

텍스트/비텍스트 특성기반 질의답변문서의 품질지수 알고리즘 (A Quality Value Algorithm based on Text/Non-text Features in Q&A Documents)

  • 김덕주;박건우;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.105-108
    • /
    • 2010
  • 쌍방향으로 질문과 답변을 하는 커뮤니티 기반의 지식검색서비스에서는 질의를 통해 원하는 답변을 얻을 수 있지만, 수많은 사용자들이 참여함에 따라 방대한 문서 속에서 검증된 문서를 찾아내는 것은 점점 더 어려워지고 있다. 지식검색서비스에서 기존 연구는 사용자들이 생성한 데이터 즉 추천수, 조회수 등의 비텍스트 정보를 이용하거나 답변의 길이, 자료첨부, 연결어 등의 텍스트 정보 이용하여 전문가를 식별하거나 문서의 품질을 평가하고, 이를 검색에 반영하여 검색성능을 향상시키는 데 활용했다. 그러나 비텍스트 정보는 질의/응답의 초기에 사용자들에 의해 충분한 정보를 확보할 수 없는 단점이 제기 되며, 텍스트 정보는 전체의 문서를 답변의 길이, 자료 첨부등과 같은 일부요인으로 판단해야하기 때문에 품질평가의 한계가 있다고 볼 수 있겠다. 본 논문에서는 이러한 비텍스트 정보와 텍스트 정보의 문제점을 개선하기 위한 품질평가 알고리즘을 제안한다. 제안된 알고리즘을 통한 품질지수는 텍스트/비텍스트 정보와 소셜 네트워크 사용자 중앙성을 고려하여 질문에 적합하고 신뢰성 있는 답변을 랭킹화 함으로써 지식검색문서를 분별하는 지표가 되며, 이는 지식검색서비스의 성능향상에 기여를 할 수 있을 것으로 기대된다.

  • PDF

QualityRank : 소셜 네트워크 분석을 통한 Q&A 커뮤니티에서 답변의 신뢰 수준 측정 (QualityRank : Measuring Authority of Answer in Q&A Community using Social Network Analysis)

  • 김덕주;박건우;이상훈
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권6호
    • /
    • pp.343-350
    • /
    • 2010
  • 질문(Question)과 답변(Answer)을 하는 커뮤니티 기반의 지식검색서비스에서는 질의를 통해 원하는 답변을 얻을 수 있지만, 수많은 사용자들이 참여함에 따라 방대한 문서 속에서 신뢰성있는 문서를 찾아내는 것은 점점 더 어려워지고 있다. 지식검색서비스에서 기존 연구는 사용자들이 생성한 데이터 즉 추천수, 조회수 등의 비텍스트 정보를 이용하거나 답변의 길이, 자료첨부, 연결어 등의 텍스트 정보 이용하여 문서의 품질을 평가하고, 이를 검색에 반영하여 검색성능을 향상시키는 데 활용했다. 그러나 비텍스트 정보는 질의/응답의 초기에 사용자들에 의해 충분한 정보를 확보할 수 없는 단점이 있으며, 텍스트 정보는 전체의 문서를 답변의 길이, 연결어등과 같은 일부요인으로 판단해야하기 때문에 품질평가의 한계가 있다고 볼 수 있다. 본 논문에서는 이러한 비텍스트 정보와 텍스트 정보의 문제점을 개선하기 위한 QualityRank 알고리즘을 제안한다. QualityRank는 텍스트/비텍스트 정보와 소셜 네트워크 분석 기반의 사용자 중앙성을 고려하여 질문에 적합하고 신뢰성 있는 답변을 랭킹화 한다 실험결과 제안한 알고리즘을 사용했을 경우 텍스트/비텍스트 모델 보다 랭킹성능에 있어 향상된 결과를 얻을 수 있었다.

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

문장 수반 관계를 고려한 문서 요약 (Document Summarization Considering Entailment Relation between Sentences)

  • 권영대;김누리;이지형
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.179-185
    • /
    • 2017
  • 문서의 요약은 요약문 내의 문장들끼리 서로 연관성 있게 이어져야 하고 하나의 짜임새 있는 글이 되어야 한다. 본 논문에서는 위의 목적을 달성하기 위해 문장 간의 유사도와 수반 관계(Entailment)를 고려하여 문서 내에서 연관성이 크고 의미, 개념적인 연결성이 높은 문장들을 추출할 수 있도록 하였다. 본 논문에서는 Recurrent Neural Network 기반의 문장 관계 추론 모델과 그래프 기반의 랭킹(Graph-based ranking) 알고리즘을 혼합하여 단일 문서 추출요약 작업에 적용한 새로운 알고리즘인 TextRank-NLI를 제안한다. 새로운 알고리즘의 성능을 평가하기 위해 기존의 문서요약 알고리즘인 TextRank와 동일한 데이터 셋을 사용하여 성능을 비교 분석하였으며 기존의 알고리즘보다 약 2.3% 더 나은 성능을 보이는 것을 확인하였다.

의미적 연관성을 이용한 멀티미디어 정보 검색 (Multimedia Information Retrieval Using Semantic Relevancy)

  • 박창섭
    • 인터넷정보학회논문지
    • /
    • 제8권5호
    • /
    • pp.67-79
    • /
    • 2007
  • 최근 웹 기술의 발달과 유무선 네트워크 성능의 향상, 그리고 다양한 멀티미디어 서비스가 등장함에 따라 텍스트 문서나 이미지에 대한 검색뿐만 아니라 동영상을 포함한 멀티미디어 검색에 대한 요구가 크게 증가하고 있다. 그러나 기존의 멀티미디어 검색 방법은 멀티미디어 콘텐츠에 포함된 의미 개념들의 연관성을 효과적으로 이용하지 못하고 콘텐츠에 대한 메타데이터의 검색에 의존함에 따라 제한적인 검색 결과만을 제공한다. 본 논문에서는 도메인 온톨로지를 활용하여 멀티미디어 콘텐츠의 의미적 연관성에 기반을 둔 멀티미디어 검색 방법 및 시스템 구조를 제안한다. 사용자 검색어를 직접적으로 포함하지 않지만 의미적으로 연관성이 있는 개념들을 온톨로지에서 검색하고 이들에 대한 랭킹을 결정하기 위한 클래스 연관도 척도를 정의하고, 이를 효율적으로 계산하기 위한 알고리즘을 제시한다. 또 프로토타입 시스템 구현 및 실험을 통해 제안한 검색 방법 및 시스템의 효과를 보인다.

  • PDF