• 제목/요약/키워드: Search Keyword Extraction

검색결과 43건 처리시간 0.029초

비주얼 검색을 위한 위키피디아 기반의 질의어 추출 (Keyword Selection for Visual Search based on Wikipedia)

  • 김종우;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제21권8호
    • /
    • pp.960-968
    • /
    • 2018
  • The mobile visual search service uses a query image to acquire linkage information through pre-constructed DB search. From the standpoint of this purpose, it would be more useful if you could perform a search on a web-based keyword search system instead of a pre-built DB search. In this paper, we propose a representative query extraction algorithm to be used as a keyword on a web-based search system. To do this, we use image classification labels generated by the CNN (Convolutional Neural Network) algorithm based on Deep Learning, which has a remarkable performance in image recognition. In the query extraction algorithm, dictionary meaningful words are extracted using Wikipedia, and hierarchical categories are constructed using WordNet. The performance of the proposed algorithm is evaluated by measuring the system response time.

키워드 추출 및 유사도 평가를 통한 태그 검색 시스템 (Tag Search System Using the Keyword Extraction and Similarity Evaluation)

  • 정재인;유명식
    • 한국통신학회논문지
    • /
    • 제40권12호
    • /
    • pp.2485-2487
    • /
    • 2015
  • 해시태그는 현재 페이스북, 트위터와 같은 SNS와 개인 블로그 등에서 활발하게 사용되고 있다. 하지만 스팸성 목적 또는 게시글 조회수 증가 등의 목적으로 무분별하게 해시태그를 사용하여 태그검색의 효율성이 떨어지고 있다. 이에 따라 본 논문에서는 태그검색의 정확도를 높이고자 기존의 키워드 추출 알고리즘과 단어간 유사도 평가 알고리즘을 이용한 태그 검색 시스템을 제안하였다. 제안하는 시스템의 테스트 결과 태그 검색의 정확도가 향상됨을 알 수 있었다.

키워드 가중치 기반 문단 추출 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;주상웅;이현주;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.504-505
    • /
    • 2017
  • 기존의 형태소 분석기는 문서 내에 사용된 단어들을 분류한다. 이를 기반으로 문장과 문단을 추출하는 시스템이 개발되고 있으나 해당 문서를 압축하여 주요 문단을 추출하는 시스템은 매우 미흡한 실정이다. 본 논문에서 제안하는 알고리즘은 문서 내에 사용된 키워드들의 가중치를 계산하고 키워드를 포함한 문단들을 추출한다. 이는 해당 문서를 모두 읽지 않고 키워드가 포함된 문단들을 읽음으로써 문서를 이해하는 시간을 줄일 수 있다. 또한 검색에 사용된 키워드의 개수에 따라 추출되는 문단의 수가 다름으로 사용자는 기존 시스템에 비해 다양한 패턴의 검색이 가능하다.

  • PDF

SNS를 이용한 잠재적 광고 키워드 추출 시스템 설계 및 구현 (Design and Implementation of Potential Advertisement Keyword Extraction System Using SNS)

  • 서현곤;박희완
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.17-24
    • /
    • 2018
  • 빅데이터 처리 분야에서 중요한 이슈 중 하나는 인터넷의 주요 키워드를 추출하고 이것을 이용하여 필요한 정보를 가공하는 것이다. 현재까지 제안된 대부분의 키워드 추출 방법들은 대형 포털 사이트의 검색기능을 기반으로 이미 게시된 글이나 작성된 문서 또는 고정된 내용에 기반하고 있다. 본 논문에서는 SNS에 게시되는 다양한 이슈, 대화, 관심 분야, 의견 등 동적인 메시지를 기반으로 이슈 키워드 및 연관 키워드를 추출하여 잠재적 쇼핑 연관 키워드 광고 마케팅에 도움을 주는 시스템(KAES: Keyword Advertisement Extraction System based on SNS)을 개발한다. KAES 시스템은 특정 계정 리스트를 작성하여 SNS에서 빈도수가 가장 많은 핵심 키워드 및 연관 키워드를 추출한다.

복합키워드의 고속검색 알고리즘에 관한 연구 (A Study of High Speed Retrieval Algorithm of Long Component Keyword)

  • 이진관;정규철;이태헌;박기홍
    • 한국정보통신학회논문지
    • /
    • 제8권8호
    • /
    • pp.1769-1776
    • /
    • 2004
  • 효율적인 키워드 추출은 정보검색 시스템에서 중요하지만 많은 키워드 중 적당한 키워드를 결정하기 위한 방법들은 여러 가지가 있다. 그중 단일 키워드만을 검색하는 AC알고리즘을 해결하기 위한 DER구조는 복합키워드 검색이 가능하나 많은 검색시간이 걸린다는 문제점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 DER구조의 검색방법을 기반으로 한 독립적인 검색테이블을 확장하여 EDER 구조라는 알고리즘을 구축하였다. 500개의 텍스트 파일을 실험한 결과 키워드의 포스팅 결과가 AC의 DER구조보다 EDER구조가 작았으며, 검색시간 또한 K5에서 DER구조가 0.6초, EDER구조가 0.2초로 더 빠른 검색을 보며주고 있어 제안 방법이 효과적임을 알 수 있었다.

AC 알고리즘을 이용한 정보검색 키워드 추출에 관한 연구 (A study about IR Keyword Abstraction using AC Algorithm)

  • 장혜숙;이진관;박기홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 추계종합학술대회
    • /
    • pp.667-671
    • /
    • 2002
  • 효율적인 키워드 추출이 정보검색 시스템에서 매우 중요한 일임에도 불구하고 원하는 목적의 적당한 키워드를 결정하는 것은 매우 어렵다. 왜냐하면 많은 복합어를 가지고 있기 때문이다. 기존 방법에서는 AC 머신의 경우 단일 키워드를 가지고 복합 키워드를 검색하지 못한다. 이러한 문제를 해결한 DER 구조의 경우에는 많은 검색시간이 걸리는 문제점을 가지고 있다. 따라서 본 논문에서는 이러한 문제점들을 해결하기 위해 이들을 기반으로 한 DERtable (DER 구조의 검색방법을 가지고 테이블로 구성)구조를 제안한다.

  • PDF

인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법 (A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns)

  • 김민규;김남규;정인환
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.123-136
    • /
    • 2014
  • 최근 온라인 및 다양한 스마트 기기의 사용이 확산됨에 따라 온라인을 통한 쇼핑구매가 더욱 활성화 되었다. 때문에 인터넷 쇼핑몰들은 쇼핑에 관심이 있는 잠재 고객들에게 한 번이라도 더 자사의 링크를 노출시키기 위해 키워드에 비용을 지불할 용의가 있으며, 이러한 추세는 검색 광고 시장의 광고비를 증가시키는 원인을 제공하였다. 이 때 키워드의 가치는 대체로 검색어의 빈도수에 기반을 두어 산정된다. 하지만 포털 사이트에서 검색어로 자주 입력되는 모든 단어가 쇼핑과 관련이 있는 것은 아니며, 이들 키워드 중에는 빈도수는 높지만 쇼핑몰 관점에서는 별로 수익과 관련이 없는 키워드도 다수 존재한다. 그렇기 때문에 특정 키워드가 사용자들에게 많이 노출된다고 해서, 이를 통해 구매가 이루어질 것을 기대하여 해당 키워드에 많은 광고비를 지급하는 것은 매우 비효율적인 방식이다. 따라서 포털 사이트의 빈발 검색어 중 쇼핑몰 관점에서 중요한 키워드를 추출하는 작업이 별도로 요구되며, 이 과정을 빠르고 효과적으로 수행하기 위한 자동화 방법론에 대한 수요가 증가하고 있다. 본 연구에서는 이러한 수요에 부응하기 위해 포털 사이트에 입력된 키워드 중 쇼핑의도를 포함하고 있을 가능성이 높을 것으로 추정되는 키워드만을 자동으로 추출하는 방안을 제시하고, 구체적으로는 전체 검색어 중 검색결과 페이지에서 쇼핑과 관련 된 페이지로 이동한 검색어만을 추출하여 순위를 집계하고, 이 순위를 전체 검색 키워드의 순위와 비교하였다. 국내 최대의 검색 포털인 'N'사에서 이루어진 검색 약 390만 건에 대한 실험결과, 제안 방법론에 의해 추천된 쇼핑의도 포함 키워드가 단순 빈도수 기반의 키워드에 비해 정확도, 재현율, F-Score의 모든 측면에서 상대적으로 우수한 성능을 보이는 것으로 나타남을 확인할 수 있었다.

워드 임베딩(Word Embedding)을 활용한 최적의 키워드 추출 및 검색 방법 연구 (A Study on the Optimal Search Keyword Extraction and Retrieval Technique Generation Using Word Embedding)

  • 이정인;안진희;고경택;김영석
    • 한국지반신소재학회논문집
    • /
    • 제22권2호
    • /
    • pp.47-54
    • /
    • 2023
  • 본 논문에서는 자료 조사를 위한 최적의 키워드 추출 및 검색 방법을 제안하였으며, 북한 건설 관련 동향 파악을 예시로 제안 방법을 검증하였다. 대표적인 국내 언론 플랫폼인 빅카인즈(BigKinds)를 활용하여 표본 기사를 선정하고 키워드를 추출하였다. 추출된 키워드는 워드 임베딩(Word Embedding)을 활용하여 벡터화하였으며, 이를 토대로 코사인 유사도(Cosine Similarity)를 통해 추출된 키워드 간의 유사도를 검사하였다. 또한 상위 빈도수 10개에 대한 키워드를 기준으로 유사도 0.5 이상인 키워드들을 군집화하였다. 각 군집들은 빅카인즈 검색 양식에 맞추어 군집 내부 키워드 간에는 'OR', 군집 간에는 'AND'로 형성하였다. 심층 분석 결과, 본래 목적에 맞는 유의미한 기사들이 추출되었음을 확인할 수 있었다. 기존의 분류체계 및 검색 양식을 변형시키지 않은 상태에서 사용자의 세부 목적을 충족시키는 자료 조사·분류가 가능하게 되었다는 점에서 의의를 갖는다.

SELIS OPAC에 있어서 키워드탐색의 이용과 이해 (The Use and Understanding of Keyword Searching in SELIS Online Public Access Catalogs)

  • 구본영
    • 한국문헌정보학회지
    • /
    • 제33권2호
    • /
    • pp.119-139
    • /
    • 1999
  • 이 논문의 목적은 SELIS(SEoul Women's University Library and Information System) OPAC 시스템에서 키워드와 불연산자 탐색이 어떻게 처리되는지에 대한 이용자의 이해를 분석하는데 있다. 연구문제를 통하여 분석한 결과 SELIS OPAC시스템이 처리하는 키워드 추출에 대한 이해도는 전체 298명에서 정답자 67명$(22.48\%){\cdot}$오답자 231명$(77.52\%)$, 키워드탐색에서 불연산자 OR 사용에 대한 이해도는 전체 297명에서 정답자 115명$(22.48\%){\cdot}$오답자 182명$(77.52\%)$, 키워드탐색에서 불연산자 AND 사용에 대한 이해도는 전체 296명에서 정답자 98명$(33.11\%){\cdot}$오답자 198명$(66.89\%)$, 불연산자 사용방법 및 연산자 심볼에 대한 이해도는 전체 285명에서 정답자 109명$(36.49\%){\cdot}$오답자 181명$(63.51\%)$으로 전체적으로 이해도가 저조한 것으로 분석되었다. 또한 SELIS OPAC 시스템에서 키워드 탐색 경험에 따라 키워드 탐색 이해도에 차이가 나는지를 분석한 결과 유의수준 $5\%$에서 상관관계가 없는 것으로 분석되었고, 불연산자 탐색 경험에 따라 불연산자 사용방법에 대한 이해도는 유의수준 $5\%$내에서 상관관계가 있는 것으로 분석되었다.

  • PDF

Keyword Analysis Based Document Compression System

  • Cao, Kerang;Lee, Jongwon;Jung, Hoekyung
    • Journal of information and communication convergence engineering
    • /
    • 제16권1호
    • /
    • pp.48-51
    • /
    • 2018
  • The traditional documents analysis was centered on words based system was implemented using a morpheme analyzer. These traditional systems can classify used words in the document but, cannot help to user's document understanding or analysis. In this problem solved, System needs extract for most valuable paragraphs what can help to user understanding documents. In this paper, we propose system extracts paragraphs of normalized XML document. User insert to system what filename when wants for analyze XML document. Then, system is search for keyword of the document. And system shows results searched keyword. When user choice and inserts keyword for user wants then, extracting for paragraph including keyword. After extracting paragraph, system operating maintenance paragraph sequence and check duplication. If exist duplication then, system deletes paragraph of duplication. And system informs result to user what counting each keyword frequency and weight to user, sorted paragraphs.