• Title/Summary/Keyword: 검색 키워드 추출

Search Result 293, Processing Time 0.024 seconds

A Study on the Optimal Search Keyword Extraction and Retrieval Technique Generation Using Word Embedding (워드 임베딩(Word Embedding)을 활용한 최적의 키워드 추출 및 검색 방법 연구)

  • Jeong-In Lee;Jin-Hee Ahn;Kyung-Taek Koh;YoungSeok Kim
    • Journal of the Korean Geosynthetics Society
    • /
    • v.22 no.2
    • /
    • pp.47-54
    • /
    • 2023
  • In this paper, we propose the technique of optimal search keyword extraction and retrieval for news article classification. The proposed technique was verified as an example of identifying trends related to North Korean construction. A representative Korean media platform, BigKinds, was used to select sample articles and extract keywords. The extracted keywords were vectorized using word embedding and based on this, the similarity between the extracted keywords was examined through cosine similarity. In addition, words with a similarity of 0.5 or higher were clustered based on the top 10 frequencies. Each cluster was formed as 'OR' between keywords inside the cluster and 'AND' between clusters according to the search form of the BigKinds. As a result of the in-depth analysis, it was confirmed that meaningful articles appropriate for the original purpose were extracted. This paper is significant in that it is possible to classify news articles suitable for the user's specific purpose without modifying the existing classification system and search form.

An Efficient Web Image Caption Extraction Method based on Textual and Visual Information (텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법)

  • Hwang Ji-Ik;Park Joo-Hyoun;Nang Jong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

Discovering News Keyword Associations Using Association Rule Mining (연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사)

  • Kim, Han-Joon;Chang, Jae-Young
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.11 no.6
    • /
    • pp.63-71
    • /
    • 2011
  • The current Web portal sites provide significant keywords with high popularity or importance; specifically, user-friendly services such as tag clouds and associated word search are provided. However, in general, since news articles are classified only with their date and categories, it is not easy for users to find other articles related to some articles while reading news articles classified with categories. And the conventional associated keyword service has not satisfied users sufficiently because it depends only upon user queries. This paper proposes a way of searching news articles by utilizing the keywords tightly associated with users' queries. Basically, the proposed method discovers a set of keyword association patterns by using the association rule mining technique that extracts association patterns for keywords by focusing upon sentences containing some keywords. The method enables users to navigate the space of associated keywords hidden in large news articles.

A Scheme for Progressive Service of Retrieved Images based on Object Extraction and Grouping (객체 추출 및 객체별 그룹핑을 이용한 영상검색 결과의 단계적 서비스 방안)

  • 박창민;김성영;김민환
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05c
    • /
    • pp.180-185
    • /
    • 2002
  • 본 논문에서는 키워드를 입력해 검색된 영상들을 유사한 특징을 갖는 소수의 그룹으로 그룹핑하고 각 그룹을 대표하는 대표영상을 추출하여 우선적으로 사용자에게 보여주고 필요에 따라 나머지 영상들을 단계적으로 서비스할 수 있는 방안을 제시한다. 영상 그룹핑을 위한 각 영상의 특징은 영상에 포함된 중심 객체를 사용하여 추출한다. 이를 위해 검색 키워드는 객체와 연관성이 있는 단어로 제한하여 영상을 검색하며 검색된 영상으로부터 중심 객체를 추출할 수 있는 객체 추출 방법을 활용하였다. 각 영상으로부터 추출된 중심 객체에 대한 특징 벡터는 칼라 분포를 이용한다. 영상 그룹핑은 칼라분포로 표현되는 특징공간에서의 밀집도를 조사하여 높은 밀도로 모여있는 영역별로 추출하여 동일한 그룹으로 분류하였다. 대표 영상은 분류된 그룹에서 가장 밀집도가 높은 영상으로 선택된다. 한편, 얼굴이 포함된 영상은 사전에 따로 분류하고 얼굴 크기 및 얼굴 수에 따라 영상을 그룹핑하여 각 그룹에 대한 대표 영상을 선정한다. 본 연구에서 제안한 방법은 사용자에게 모든 검색 결과를 일괄적으로 보여주는 것에 비해 보다 빠른 시간 내에 사용자가 원하는 영상을 편리하면서도 효과적으로 확인할 수 있는 방법을 제공해 줄 수 있을 것으로 기대한다.

  • PDF

Keyword Extraction Using Syntactic Information of Question (질의문의 구문정보를 이용한 키워드 추출)

  • 양수정;서영훈
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2003.11a
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

A Methodology Using Frequency and Precision of Terms for Improving the Searching Performance in Keyword Search (어휘의 사용 빈도와 프리시젼을 이용한 키워드 검색 성능의 향상 방안)

  • Lee Sanghee;Lee Dongjoo;Yang Jongwon;Lee Taehee;Lee Sang-goo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.208-210
    • /
    • 2005
  • 웹에서의 검색을 수행하기 위해 다양한 연구가 수행되었으나, 일반적으로 키워드 검색 방식이 주를 이루고 있다. 이는 검색 대상에 대한 정보가 충분한 경우에는 원하는 검색 결과를 찾아내기 친우나, 그렇지 않은 경우에는 사용자로 하여금 원하는 검색 결과를 추출하기 위친 여러 번의 검색을 추가로 수행하는 수고로움을 요구하곤 한다. 이러한 문제를 해결하기 위하여 어휘 간의 관계에 기반을 둔 확장 검색 방식을 제안한다. 시소러스를 바탕으로 유의어 그룹을 정의하고, 사용자의 검색 키워드 정보를 이용하여 어휘 간의 관계 및 그룹 간의 관계를 정의한다. 정의된 관계를 바탕으로 키워드를 확장하고, 확장된 키워드의 사용 빈도와 프리시젼을 이용하여 사용할 어휘를 선별하여 검색을 수행한다.

  • PDF

A Study of High Speed Retrieval Algorithm of Long Component Keyword (복합키워드의 고속검색 알고리즘에 관한 연구)

  • Lee Jin-Kwan;Jung Kyu-cheol;Lee Tae-hun;Park Ki-hong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.8 no.8
    • /
    • pp.1769-1776
    • /
    • 2004
  • Effective keyword extraction is important in the information search system and there are several ways to select proper keyword in many keywords. Among them, DER Structure for AC Algorithm to search single keyword, can search multiple keywords but it has time complexity problem. In this paper, we developed a algorithm, "EDER structure" by expanding standalone search table based on DER structure search method to improve time complexity. We tested the algorithm using 500 text files and found that EDER structure is more efficient than DER structure for AC for keyword posting result and time complexity that 0.2 second for EDER and 0.6 second for DER structure,structure,

Keyword Extraction in Korean Using Unsupervised Learning Method (비감독 학습 기법에 의한 한국어의 키워드 추출)

  • Shin, Seong-Yoon;Rhee, Yang-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.14 no.6
    • /
    • pp.1403-1408
    • /
    • 2010
  • Korean information retrieval uses noun as index terms or keywords of representing the document. and noun and keyword extraction is to find all nouns presented in the document, In this paper, we proposes the method of keyword extraction using pre-built dictionary. This method reduces the execution time by reducing unnecessary operations. And noun, even large documents without affecting significantly the accuracy, can be extracted. This paper proposed noun extraction method using the appearance characteristics of the noun and keyword extraction method using unsupervised learning techniques.

Latent Keyphrase Extraction Using LDA Model (LDA 모델을 이용한 잠재 키워드 추출)

  • Cho, Taemin;Lee, Jee-Hyong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.2
    • /
    • pp.180-185
    • /
    • 2015
  • As the number of document resources is continuously increasing, automatically extracting keyphrases from a document becomes one of the main issues in recent days. However, most previous works have tried to extract keyphrases from words in documents, so they overlooked latent keyphrases which did not appear in documents. Although latent keyphrases do not appear in documents, they can undertake an important role in text summarization and information retrieval because they implicate meaningful concepts or contents of documents. Also, they cover more than one fourth of the entire keyphrases in the real-world datasets and they can be utilized in short articles such as SNS which rarely have explicit keyphrases. In this paper, we propose a new approach that selects candidate keyphrases from the keyphrases of neighbor documents which are similar to the given document and evaluates the importance of the candidates with the individual words in the candidates. Experiment result shows that latent keyphrases can be extracted at a reasonable level.

LSTM Model Design to Improve the Association of Keywords and Documents for Healthcare Services (의료서비스를 위한 키워드와 문서의 연관성 향상을 위한 LSTM모델 설계)

  • Kim, June-gyeom;Seo, Jin-beom;Cho, Young-bok
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.75-77
    • /
    • 2021
  • A variety of search engines are currently in use. The search engine supports the retrieval of data required by users through three stages: crawling, index generation, and output of search results based on meta-tag information. However, a large number of documents obtained by searching for keywords are often unrelated or scarce. Because of these problems, it takes time and effort to grasp the content from the search results and classify the accuracy. The index of search engines is updated periodically, but the criteria for weighted values and update periods are different from one search engine to another. Therefore, this paper uses the LSTM model, which extracts the relationship between keywords entered by the user and documents instead of the existing search engine, and improves the relationship between keywords and documents by entering keywords that the user wants to find.

  • PDF