• 제목/요약/키워드: Keyword Ranking

검색결과 55건 처리시간 0.037초

트위터에서 형태소 분석과 PageRank 기반 화제단어 추출 방법 제안 (Proposal of keyword extraction method based on morphological analysis and PageRank in Tweeter)

  • 이원형;조성일;김동회
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.157-163
    • /
    • 2018
  • SNS를 이용하는 사람들은 매일 자신의 다양한 생각을 SNS에 게시한다. SNS에 게시된 데이터는 수많은 사람들의 생각과 의견이 담겨있다고 할 수 있다. 특히 트위터에서 서비스되는 인기 화제어는 사용자가 올린 글에서 자주 등장한 단어의 횟수를 집계해 순위를 결정한다. 하지만 이와 같은 방법은 단순히 중복된 단어가 나열된 불필요한 데이터에 민감하다. 제안하는 방법은 단어간의 관계도를 이용한 단어의 화제성을 기반으로 순위를 결정하므로 불필요한 데이터의 영향을 적게 받고 주요단어를 안정적으로 추출할 수 있다. 성능 비교를 위하여 내림차순 화제어 순위와 상위 20개중에서 의미 없는 화제어의 비율 측면에서 형태소 분석과 PageRank 기반의 제안 방식과 단순 등장 횟수 기반의 기존 방식을 비교한다. 제안하는 방안과 기존 방안은 상위 20개중에서 무의미한 화제어를 각각 55%과 70%를 순위권에 포함시켰으며 제안한 방법이 기존 방법과 비교할 때 15% 정도 향상된다.

인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법 (A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns)

  • 김민규;김남규;정인환
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.123-136
    • /
    • 2014
  • 최근 온라인 및 다양한 스마트 기기의 사용이 확산됨에 따라 온라인을 통한 쇼핑구매가 더욱 활성화 되었다. 때문에 인터넷 쇼핑몰들은 쇼핑에 관심이 있는 잠재 고객들에게 한 번이라도 더 자사의 링크를 노출시키기 위해 키워드에 비용을 지불할 용의가 있으며, 이러한 추세는 검색 광고 시장의 광고비를 증가시키는 원인을 제공하였다. 이 때 키워드의 가치는 대체로 검색어의 빈도수에 기반을 두어 산정된다. 하지만 포털 사이트에서 검색어로 자주 입력되는 모든 단어가 쇼핑과 관련이 있는 것은 아니며, 이들 키워드 중에는 빈도수는 높지만 쇼핑몰 관점에서는 별로 수익과 관련이 없는 키워드도 다수 존재한다. 그렇기 때문에 특정 키워드가 사용자들에게 많이 노출된다고 해서, 이를 통해 구매가 이루어질 것을 기대하여 해당 키워드에 많은 광고비를 지급하는 것은 매우 비효율적인 방식이다. 따라서 포털 사이트의 빈발 검색어 중 쇼핑몰 관점에서 중요한 키워드를 추출하는 작업이 별도로 요구되며, 이 과정을 빠르고 효과적으로 수행하기 위한 자동화 방법론에 대한 수요가 증가하고 있다. 본 연구에서는 이러한 수요에 부응하기 위해 포털 사이트에 입력된 키워드 중 쇼핑의도를 포함하고 있을 가능성이 높을 것으로 추정되는 키워드만을 자동으로 추출하는 방안을 제시하고, 구체적으로는 전체 검색어 중 검색결과 페이지에서 쇼핑과 관련 된 페이지로 이동한 검색어만을 추출하여 순위를 집계하고, 이 순위를 전체 검색 키워드의 순위와 비교하였다. 국내 최대의 검색 포털인 'N'사에서 이루어진 검색 약 390만 건에 대한 실험결과, 제안 방법론에 의해 추천된 쇼핑의도 포함 키워드가 단순 빈도수 기반의 키워드에 비해 정확도, 재현율, F-Score의 모든 측면에서 상대적으로 우수한 성능을 보이는 것으로 나타남을 확인할 수 있었다.

클러스터링 기법을 이용한 키워드 유사도 순위화 알고리즘에 따른 사용자 질의 확장 (User Query Expansion Through Keyword Similarity Ranking Algorithm Us ins Cluster ing Methods)

  • 이상훈;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.479-481
    • /
    • 2003
  • 본 논문에서는 여러 가지 클러스터링 기법들을 사용하여 키워드 유사도롤 순위화하여 사용자의 질의를 확장하는 기법을 제안한다. 클러스터링 기법에는 연관(Association) 클러스터링, 메트릭(Metric) 클러스터링, 스칼라(Scalar) 클러스터링 기법을 사용하고, 이들간의 가중치를 적절히 조절하여 검색 시스템을 만든다. 사용자의 질의가 주어졌을 때, 질의 키워드와 연관된 키워드들을 순위화 하여 사용자에게 보여주고, 사용자의 추가입력을 받아서 질의를 확장한다. 사용자가 적당한 질의어로 판단하여 확장된 질의로 검색을 수행할 때까지 이 과정을 반복한다. 실험에서 사용한 문헌집합은 Korea Herald의 2003년 1월과 2월의 경제 관련 기사들을 수집하여 사용하였고, 실험을 거쳐서 질의를 확장한 결과 만족할 만한 결과가 도출되었다.

  • PDF

클러스터 기반 키워드 랭킹 기법 (Cluster-based keyword Ranking Technique)

  • 유한묵;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.529-532
    • /
    • 2016
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 ClusterTextRank 기법을 제안한다. 제안 기법은 k-means 군집화 알고리즘을 이용하여 문서들을 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최소신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 13% 가량 개선됨을 보인다.

다중 키워드 검색에 적합한 동등조인 연산 결과의 동적 관리 기법 (Dynamic Management of Equi-Join Results for Multi-Keyword Searches)

  • 임성채
    • 정보처리학회논문지A
    • /
    • 제17A권5호
    • /
    • pp.229-236
    • /
    • 2010
  • 인터넷이나 기업체 안에서 생성되는 문서의 수가 빠르게 증가하고 있고 이에 따라 효율적인 문서 검색 서비스의 중요성도 함께 커지고 있다. 이런 검색 환경에서 사용자의 검색 질의를 미리 예측할 수 없기 때문에 문서 내의 키워드를 자동 추출하여 색인어로 사용하는 전문검색(full-text search)이 일반적으로 적용된다. 전문검색을 위해 생성된 색인 파일의 크기는 문서 수 증가로 대용량화 되고, 이런 대용량 색인에 대한 다중 키워드 질의 처리에는 과도한 디스크 비용이 초래될 수 있다. 논문에서는 이런 비용 문제를 해결하기 위해 대용량 문서의 전문검색 시스템에서 다중 키워드 질의를 효율적으로 처리할 수 있게 하는 색인 파일 구조 및 관리 기법을 제안한다. 제안된 방법은 다중 키워드 검색에 적합한 것으로 알려진 역파일을 기본 색인 구조로 하며, 질의 처리의 조인 연산과 랭킹 연산에 적합하도록 색인 파일을 계층화한다. 이를 바탕으로 다중 키워드 질의를 구성할 확률이 높은 키워드 쌍에 대한 조인 연산 결과를 주기억장치 공간에 동적으로 저장함으로써 디스크 사용량을 크게 줄일 수 있다. 논문에서는 제안된 기법의 우수성을 보이기 위해 디스크 비용 모델에 기반한 성능 비교도 수행한다.

시각 미디어 온톨로지에 기반한 서비스 제공자 랭킹 (Service Provider Ranking Based on Visual Media Ontology)

  • 민영근;이복주
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.315-322
    • /
    • 2008
  • 인터넷 상에 산재해 있는 사진이나 비디오 등 시각 미디어 데이터를 효과적으로 검색하는 것은 전자 미술 박물관, 전자상거래, 전자 쇼핑몰 등 여러 응용 분야에서 중요한 일이다. 이러한 분야에서는 단순한 키워드 검색이 아닌 내용 기반 또는 의미 기반의 멀티미디어 검색을 필요로 한다. 인터넷 상의 시각 미디어를 효과적으로 검색하기 위해 제안된 선행 연구에서는 시각 미디어의 메타데이터와 온톨로지를 이용하고 또한 웹서비스를 이용하여 의미 기반의 검색을 수행한다. 본 연구에서는 인터넷 상에서 여러 시각 미디어 제공자와 이 제공자들의 정보를 가지고 있는 하나의 중계자가 존재하는 상황에서 시각 미디어를 효율적으로 검색하기 위한 전 단계로 적합한 서비스 제공자를 찾는 방법을 제안한다. 제안된 방법은 사용자의 질의에 적합한 제공자들과 그 순위를 효율적으로 얻기 위하여 온톨로지의 트리 구조를 이용한다. 온톨로지 트리에서 하위 노드의 크기와 자식 노드의 크기에 기반한 이 방법은 기존의 방법에 비해 효과적으로 제공자들간의 순위를 측정한다. 실험 결과 이 방법이 속도는 비슷하게 유지하면서 정확한 결과를 도출함을 보인다.

온톨로지를 이용한 웹문서의 시맨틱 검색 (Semantic search of web documents using ontology)

  • 오성균;김병곤
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권5호
    • /
    • pp.603-612
    • /
    • 2014
  • 사용자들에게 좀 더 정확하고 편리한 검색결과를 제공하기 위하여 정보의 구조적인 특징 등을 사용하는 시맨틱 검색의 개념이 널리 연구되고 있다. 이를 위하여, 최근의 정보검색분야와 데이터구축 분야의 연구에서는 데이터의 구조적인 표현과 검색 메카니즘을 구현하기 위하여 온톨로지를 강조하고 있다. 본 연구에서는 웹 환경에서의 검색 정확도와 만족도를 향상시키기 위하여 온톨로지를 이용한 시맨틱 검색 방법을 제안한다. 온톨로지와 KB(KnowledgeBase)를 이용하여 검색 대상을 키워드간의 관계를 유추한 사실(fact)과 관계키워드들을 지니는 웹문서들로 크게 나누고 이들을 서로 유기적으로 검색을 진행하는 시맨틱 검색 질의 처리기법을 제안하였다. 또한 결과에 대한 사용자의 검색 만족도를 높이기 위하여 결과 문서와 사실에 대한 랭킹 방법을 제안하였다. 실험을 통하여 주어진 식의 값을 달리하여 랭킹을 올바로 구현하는 요소로 키워드의 빈도와 온톨로지상의 클래스 레벨이 영향을 미치는 것을 확인 할 수 있었고, 이를 통하여 적합한 형태의 계수 값을 제시하였다.

풍부한 메타데이터를 가진 동영상 추천 시스템의 성능 평가 (Performance Evaluation of Video Recommendation System with Rich Metadata)

  • 조민화;김다연;이화랑;오하늘;이선영;정인환;이재문;황기태
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권2호
    • /
    • pp.29-35
    • /
    • 2023
  • 본 논문은 영상으로부터 풍부한 메타데이터를 자동으로 생성하고 키워드로 동영상을 검색하는 선행 연구를 개선하여 문장 단위로 동영상을 검색할 수 있게 하였다. 문장 단위의 검색을 위해, 검색 문장에 대해 형태소를 분석하여 문장에서 핵심어를 추출하고, 각 핵심어에 가중치를 부여한 다음, 선행 연구에서 작성된 랭킹 알고리즘을 적용하여 동영상들을 추천한다. 본 논문의 동영상 검색 성능을 평가하기 위해서는 충분한 양의 동영상과 충분한 수의 사용자 경험이 필요하다. 하지만 이것이 부족한 현 상황에서 검색 결과에 대한 사용자의 전반적인 만족도, 추천 점수와 사용자 만족도의 비교 평가, 동영상 카테고리별 사용자 만족도 등을 평가하는 간접적인 방법을 사용하였다. 성능 평가 결과, 본 논문에서 구현한 풍부한 메타데이터 구축 및 동영상 추천 시스템은 사용자에게 높은 검색 만족도를 주는 것을 나타났다.

키워드 분포를 고려한 효과적 특허검색기법 (Searching Patents Effectively in terms of Keyword Distributions)

  • 이우기;송종수;강민구
    • 정보화연구
    • /
    • 제9권3호
    • /
    • pp.323-331
    • /
    • 2012
  • 지식정보화 시대의 본격화와 함께 지식재산권, 그 중에서도 특허의 중요성이 더욱 커져가고 있다. 이에 따라 효율적인 특허정보 검색방법의 필요성이 높아지고 있지만, 기존의 특허검색 엔진은 불리언 모델을 기반으로 단어의 존재 여부만을 파악하는 방식으로 검색결과에 노이즈 데이터가 너무 많이 포함되어 특허 검색에 오랜 시간을 허비하게 만들므로 '전문검색가'들이 수동으로 찾아주고 있는 실정이다. 이에 본 논문에서는 기존의 일반적 문서검색과 특허검색과의 차이점을 밝히고, 기존 특허검색의 한계성을 분석한다. 나아가 특허검색에 특화된 효과적 방법론 제안하여 검색 키워드가 각 특허 문서 내에서 차지하는 중요도와 각 문서 내에서 키워드 사이의 관계성을 파악하고 이에 대한 랭킹을 정하여 키워드와 관계성이 높은 특허가 상위에 랭크하며 노이즈 데이터를 하위에 랭크 함으로써 검색 결과에서 노이즈 데이터의 비율을 대폭 줄이는 방법을 제안한다. 마지막으로 실험을 통하여 Kipris 검색 결과와 비교함으로써 제안한 방법론의 우수성을 입증하였다.

딥러닝을 이용한 강좌 추천시스템 (Course recommendation system using deep learning)

  • 임민아;황승연;신동진;오재곤;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.193-198
    • /
    • 2023
  • 딥러닝을 이용한 학습자 맞춤 강의 추천 프로젝트를 연구한다. 추천시스템은 웹과 앱에서 쉽게 발견할 수 있으며 이 특성을 이용한 예제는 사용자 클릭으로 특성 영상 추천과 SNS에서 평소 사용자가 관심 있던 분야의 아이템을 광고하는 것이 있다. 본 연구에서는 문장 유사도인 Word2Vec를 주로 이용하여 2번의 필터링을 거쳤으며 Surprise 라이브러리를 통해 강좌 추천을 하였다. 이러한 시스템으로 사용자에게 간편하고 편리하게 원하는 분류의 강좌 데이터를 제공한다. Surprise 라이브러리는 Python scikit-learn 기반의 라이브러리이며 추천시스템에 편리하게 사용된다. 데이터를 분석하여 시스템을 빠른 속도로 구현하고 딥러닝을 사용하여 강좌 단계를 거쳐 보다 더 정밀한 결과를 구현해낸다. 사용자가 관심 있는 키워드를 입력하면 해당 키워드와 강좌 제목과의 유사도를 실행하고 추출된 영상 데이터로 또 음성 텍스트와의 유사도를 실행하여 추출된 데이터로 Surprise 라이브러리를 통해 가장 높은 순위의 영상 데이터를 추천한다.