• Title/Summary/Keyword: 검색 키워드 추출

Search Result 293, Processing Time 0.035 seconds

An Effective Keyword Extraction Method Based on Web Page Structure Analysis for Video Retrieval in WWW (웹 페이지 구조 분석을 통한 효과적인 동영상 검색용 키워드 추출 방법)

  • Lee, Jong-Won;Choi, Gi-Seok;Jang, Ju-Yeon;Nang, Jong-Ho
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.35 no.3
    • /
    • pp.103-110
    • /
    • 2008
  • This paper proposes an effective keyword extraction method for the Web videos. The proposed method classifies the Web video pages in one of 4 types. As such, we analyzed the structure of the Web pages based on the number of videos and the layout of the Web pages. And then we applied the keyword extraction algorithm fit to each page type. The experiment with 1,087 Web pages that have total 2,462 videos showed that the recall of the proposed extraction method is 18% higher than ImagerRover[2]. So, the proposed method could be used to build a powerful video search system for WWW.

A Relationship Search in News Articles Using a Keyword Association Frequency (키워드 관련도를 이용한 뉴스기사의 연관검색 기법)

  • Kim, Ji-Hye;Jang, Jae-Young;Yune, Hong-June;Kim, Han-Joon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.53-57
    • /
    • 2010
  • 현재 많은 포털 사이트에서는 인기가 있거나 중요도가 높은 키워드에 대해 정보를 제공해주는 태그 클라우드나 연관 검색어 등의 기능이 제공되고 있다. 하지만 대부분의 뉴스기사 페이지들은 날짜와 분야별로 기사들이 나열되어 있으며 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사의 정보에 대해서 한눈에 알아 볼 수 있는 방법은 미흡한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력 내용을 기반으로 연관성 정도를 분석하여 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 시스템을 소개한다. 이 시스템은 사용자가 기사 검색을 하였을 때, 키워드와 가장 밀접한 기사를 검색해 주는 것뿐만 아니라 검색어와 관련된 연관 키워드들을 보여주고 연관된 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.

  • PDF

A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns (인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법)

  • Kim, Mingyu;Kim, Namgyu;Jung, Inhwan
    • Journal of Intelligence and Information Systems
    • /
    • v.20 no.2
    • /
    • pp.123-136
    • /
    • 2014
  • Recently, online shopping has further developed as the use of the Internet and a variety of smart mobile devices becomes more prevalent. The increase in the scale of such shopping has led to the creation of many Internet shopping malls. Consequently, there is a tendency for increasingly fierce competition among online retailers, and as a result, many Internet shopping malls are making significant attempts to attract online users to their sites. One such attempt is keyword marketing, whereby a retail site pays a fee to expose its link to potential customers when they insert a specific keyword on an Internet portal site. The price related to each keyword is generally estimated by the keyword's frequency of appearance. However, it is widely accepted that the price of keywords cannot be based solely on their frequency because many keywords may appear frequently but have little relationship to shopping. This implies that it is unreasonable for an online shopping mall to spend a great deal on some keywords simply because people frequently use them. Therefore, from the perspective of shopping malls, a specialized process is required to extract meaningful keywords. Further, the demand for automating this extraction process is increasing because of the drive to improve online sales performance. In this study, we propose a methodology that can automatically extract only shopping-related keywords from the entire set of search keywords used on portal sites. We define a shopping-related keyword as a keyword that is used directly before shopping behaviors. In other words, only search keywords that direct the search results page to shopping-related pages are extracted from among the entire set of search keywords. A comparison is then made between the extracted keywords' rankings and the rankings of the entire set of search keywords. Two types of data are used in our study's experiment: web browsing history from July 1, 2012 to June 30, 2013, and site information. The experimental dataset was from a web site ranking site, and the biggest portal site in Korea. The original sample dataset contains 150 million transaction logs. First, portal sites are selected, and search keywords in those sites are extracted. Search keywords can be easily extracted by simple parsing. The extracted keywords are ranked according to their frequency. The experiment uses approximately 3.9 million search results from Korea's largest search portal site. As a result, a total of 344,822 search keywords were extracted. Next, by using web browsing history and site information, the shopping-related keywords were taken from the entire set of search keywords. As a result, we obtained 4,709 shopping-related keywords. For performance evaluation, we compared the hit ratios of all the search keywords with the shopping-related keywords. To achieve this, we extracted 80,298 search keywords from several Internet shopping malls and then chose the top 1,000 keywords as a set of true shopping keywords. We measured precision, recall, and F-scores of the entire amount of keywords and the shopping-related keywords. The F-Score was formulated by calculating the harmonic mean of precision and recall. The precision, recall, and F-score of shopping-related keywords derived by the proposed methodology were revealed to be higher than those of the entire number of keywords. This study proposes a scheme that is able to obtain shopping-related keywords in a relatively simple manner. We could easily extract shopping-related keywords simply by examining transactions whose next visit is a shopping mall. The resultant shopping-related keyword set is expected to be a useful asset for many shopping malls that participate in keyword marketing. Moreover, the proposed methodology can be easily applied to the construction of special area-related keywords as well as shopping-related ones.

Design and Application of Multi Concept Keyword Model based on Web-using Information (웹 사용 정보에 기반한 다중 성향 키워드 모델의 설계와 응용)

  • Yoon, Tae-Bok;Lee, Seung-Hoon;Yoon, Kwang-Ho;Lee, Jee-Hyong
    • Journal of Internet Computing and Services
    • /
    • v.10 no.5
    • /
    • pp.95-105
    • /
    • 2009
  • There are various studies to provide useful information for users on huge data of web-sites. Web usage mining among them is a method to extract meaningful patterns based on web users' log data. Most of existing patterns of web usage mining, however, had not considered users' diverse inclination but created general models. Web users' keywords can have various meaning upon their tendency and background knowledge. This study is for generating Multi Concept Keyword Model (MCK-Model) by analyzing web usage information on users' keywords of interest. MCK-Model can supply web page network for various inclination based on users' keywords of interest. Also, MCK-Model can be used to recommend the most proper web pages and it has been confirmed that the suggested method is useful enough.

  • PDF

Essential Technical Patent Extraction Method Associated with Fintech Based on Text Mining (텍스트 마이닝을 통한 핀테크 연관 핵심 기술 특허 추출 방법)

  • Lee, Hwangro;Choi, Eunmi
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1219-1222
    • /
    • 2015
  • 금융과 IT가 융합되는 핀테크(Fintech)가 IT산업과 금융산업에 새로운 패러다임으로 급부상하고 있다. 핀테크 기술에 대한 기술동향을 파악하고 유사한 연관 기술을 도출하는 것은 관련 사업자가 시장 경쟁에서 우위를 차지하기 위해 필요한 전략적 방향을 제시해 준다. 하지만 핀테크와 같이 단 기간 내에 기술에 대한 파급 속도가 빠르게 일어나며 산업전반에서 기술선점의 필요성이 크게 대두되는 경우 특허 데이터베이스만으로 유사기술을 검색을 위한 키워드를 선정하는 것이 어렵다는 단점이 있다. 본 논문에서는 새롭게 이슈화되는 기술 중 그 성장세가 급격하게 변화하여 등록된 특허만으로는 연관 기술 영역을 파악하는 일이 번거로운 상황에서 기사 분석을 통해 연관 기술 키워드를 추출 할 수 있는 방법을 제안하고자 한다. 특히 핀테크에서 중요하게 인식되는 결제, 보안, 사용자환경에 대한 연관 기술 키워드를 기사 내용에 포함되는 단어의 빈도 분석을 통해 추출하고자 하였다. 최종적으로 추출된 기술 키워드를 이용하여 실제 특허 검색 데이터베이스에서 관련 특허를 수집하고 분석하여 핀테크와 관련성이 매우 높은 연관 핵심 기술 특허를 도출하였다.

Trend and related keyword extraction based on real-time Twitter analysis (실시간 트위터 분석을 통한 트렌드 및 연관키워드 추출)

  • Kim, Daeyong;Kim, Daehoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1710-1712
    • /
    • 2012
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS상에서의 단문 글들을 실시간으로 분석하여 최신의 트렌드를 추출해 낼 수 있다면, 사용자에게 유용한 정보를 제공하는 것이 가능하다. 본 논문에서는 다량의 Tweet글들에 대한 실시간 분석을 바탕으로 트렌드를 추출하고 연관된 키워드를 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet내에서 영어의 언어적 특성을 활용하여 최근 이슈화된 트렌드 키워드를 추출해낸다. 또한, Tweet 내에서 각 트렌드 키워드간 관계를 분석하여 연관 키워드를 제공하며, 동시에 Wikipedia와 Google에서의 검색을 통하여 다른 형태의 연관 키워드도 추출한다. 이 모든 과정은 제안된 트렌드 추출 알고리즘을 통해 실시간으로 제공된다. 제안된 기법을 바탕으로 시스템을 구현하고 다양한 실험을 통하여 키워드의 유효성 및 처리 속도 면에서 시스템의 성능을 평가한다.

Content-based Image Retrieval Using Region Color and Keyword (영역 색상과 키워드를 이용한 내용기반 영상검색)

  • 김지영;정성호;황병곤
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 1999.05a
    • /
    • pp.68-74
    • /
    • 1999
  • 본 논문에서는 영상의 내용을 나타내는 키워드를 이용하는 기존의 텍스트 기반 영상 검색과 영역 색상 정보를 이용한 내용 기반 영상 검색을 결합한 시스템을 구현함으로서, 보다 효과적인 영상 검색을 할 수 있도록 하였다. 영상의 크기는 입력된 원 영상을 사용하였으며, 색상 정보 추출에 있어 HSI 공간으로 변환하여 256개의 칼라로 양자화하였다. 보통의 정지 영상의 경우 대부분의 객체가 중앙에 있을 경우를 고려하여, 영상을 중앙 영역과 배경 영역으로 구분하고, 각각의 영역에서 두 개의 히스토그램을 생성한다. 중앙 영역과 배경영역의 히스토그램 인터섹션을 이용한 검색을 실험하였고, 영역색상과 기존의 키워드를 결합한 검색도 또한 실험하였다. 기존의 히스토그램 인터섹션의 경우 Precision/Recall이 0.34/0.60인데 비해 영역 색상 히스토그램을 인터섹션한 경우의 Precision/Recall은 0.69/0.76이고 키워드를 결합한 경우의 Precision/Recall은 0.92/0.80를 얻음으로써, 제안된 방식의 검색이 비교적 효율적임을 보였다.

  • PDF

LiveTwitter: Hot Issue Search system Based on Twitter (LiveTwitter: 트위터 기반 핫이슈 검색 시스템)

  • Sung, Byung-Ki;Oh, Jin-Young;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.179-182
    • /
    • 2010
  • 트위터, 페이스북 등의 소설 네트워크가 이슈가 되는 사건에 의견을 표시하는 수단으로 많이 활용되고 있다. 본 논문에서는 이슈 키워드 추출 및 트위터와 유투브에 기반한 실시간 검색 시스템을 구현한다. 본 시스템에서는 가장 최근 신문 기사들의 제목과 스니핏을 이용하여 이슈가 되는 키워드를 실시간으로 추출하여 사용자들에게 보여주고 트위터와 유투브 OpenAPI를 이용하여 추출된 키워드에 대한 컨텐츠들을 실시간으로 사용자들에게 보여준다, 본 시스템을 통해서 이슈가 되는 사건에 대한 실시간 반응을 찾을 수 있다.

  • PDF

Image Retrieval using Annotation Expansion based on WordNet (WordNet기반 주석확장을 이용한 이미지 검색)

  • Hwang, Kwang-Su;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.165-168
    • /
    • 2007
  • 이미지 데이터를 의미적으로 검색하기 위한 가장 중요한 요소는 이미지의 정보를 표현하고 있는 주석이라고 할 수 있다. 이미지의 주석은 관리자가 사용자 입장에서 검색이 가능한 이미지를 표현할 수 있는 키워드를 선별하여 데이터화한 것이다. 그러다보니 이미지내 의미를 모두 표현하기위해 주석에 수는 증가되고, 증가된 주석은 각각에 이미지에서 차지하고 있는 의미량을 고려하지않고 동일한 크기를 가지게 된다. 이러한 경우 실제적으로 검색하였을 때 의미량에 상관없이 질의어와 주석이 일치한 모든 이미지를 검색하므로 사용자가 검색 결과에서 의미량이 큰 이미지를 다시 재검색하거나 주석입력자와 사용자와 어휘 표현에 차이 때문에 검색에 재검색해야한다. 따라서 본 논문에서는 의미량을 이용하여 효율적인 이미지 검색을 하기 위해 각 키워드 간에 의미적인 관계를 어휘 온톨로지인 WordNet을 이용하여 유사도 측정을 하고, 측정한 데이터를 이용하여 전체 이미지 의미량에서 해당 키워드가 갖는 의미량을 측정한다. 의미량은 이미지 검색시 질의어가 이미지에서 차지하고 있는 비율을 비교하여 가장 높은 의미량을 갖는 이미지를 우선 검색하고 의미량이 가장 큰 키워드를 대표키워드로 추출하여 WordNet상에서 동일한 의미를 갖는 계층에 단어들로 주석을 확장한다.

Keyword Weight based Paragraph Extraction Algorithm (키워드 가중치 기반 문단 추출 알고리즘)

  • Lee, Jongwon;Joo, Sangwoong;Lee, Hyunju;Jung, Hoekyung
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.10a
    • /
    • pp.504-505
    • /
    • 2017
  • Existing morpheme analyzers classify the words used in writing documents. A system for extracting sentences and paragraphs based on a morpheme analyzer is being developed. However, there are very few systems that compress documents and extract important paragraphs. The algorithm proposed in this paper calculates the weights of the keyword written in the document and extracts the paragraphs containing the keyword. Users can reduce the time to understand the document by reading the paragraphs containing the keyword without reading the entire document. In addition, since the number of extracted paragraphs differs according to the number of keyword used in the search, the user can search various patterns compared to the existing system.

  • PDF