• Title/Summary/Keyword: 검색 키워드 추출

Search Result 293, Processing Time 0.03 seconds

Music Recommendation based on Blog Keyword Extraction (블로그 키워드 추출을 통한 음악 추천 기법)

  • Choi, Hong-gu;Jun, Sanghoon;Hwang, Eenjun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.701-704
    • /
    • 2010
  • 본 논문에서는 블로그의 포스트로부터 주요 키워드를 추출하여 노래 가사 데이터와 유사도를 분석, 해당 블로그 포스트에 적합한 음악을 추천하는 기법을 제안한다. 또한, 블로거가 포스트마다 제시한 태그들도 주요한 키워드로서 활용한다. 이를 위해서, 첫째로 TF-IDF 기법을 사용하여 텍스트로 구성된 포스트의 중요 키워드를 추출한다. 둘째로 포스트의 태그와 추출된 키워드를 기반으로 유사한 노래 가사를 LSA 기법으로 검색하여 가장 높은 유사도를 갖는 음악을 선택, 적합한 음악으로써 추천한다. 사용자 만족도 평가 실험을 통해서 제안하는 기법이 실제 추천에 적합한지 검증한다.

User Profile based Personalized Web Agent (사용자 프로파일 기반 개인 웹 에이전트)

  • So, Young-Jun;Park, Young-Tack
    • Journal of KIISE:Software and Applications
    • /
    • v.27 no.3
    • /
    • pp.248-256
    • /
    • 2000
  • This paper presents a personalized web agent that constructs user profile which consists of user preferences on the web and recommends his/her relevant information to the user. The personalized web agent consists of monitor agent, user profile construction agent, and user profile refinement agent. The monitor agent makes a user describe his/her preferences directly and it creates the database of preference document, finally performs several keyword extraction to increase the accuracy of the DB. The user profile construction agent transforms the extracted keywords into user profile that could be confirmed and edited by the user. and the refinement agent refines user profile by recursively learning and processing user feedback. In this paper, we describe the several keyword weighting and inductive learning techniques in detail. Finally, we describe the adaptive web retrieval and push agent that perform adaptive services to the user.

  • PDF

An Efficient Index Term Extraction Method in IR using Lexical Chains (정보검색에서 어휘체인을 이용한 효과적인 색인어 추출 방안)

  • Kang, Bo-Yeong;Lee, Sang-Jo
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.8
    • /
    • pp.584-594
    • /
    • 2002
  • In information retrieval or digital library, one of the most important factors is to find out the exact information which users need. In this paper, we present an efficient index term extraction method which makes it possible to guess the content of documents and get the information more exactly. To find out index terms in a document, we use lexical chains. Before generating lexical chains, we roughly disambiguate the senses of nouns in a document using specific concept, called semantic window. Semantic window is that we look ahead semantic relations of peripheral nouns and disambiguate the senses of nouns. After generating lexical chains with sense-disambiguated nouns, we find out strong chains by some metrics and extract index terms from a few strong chains. We evaluated our system, using results of a key phrase extraction system, KEA. This system works in general domains of documents Including Information Retrieval and Digital Library.

Adaptive Web Search based on User Web Log (사용자 웹 로그를 이용한 적응형 웹 검색)

  • Yoon, Taebok;Lee, Jee-Hyong
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.15 no.11
    • /
    • pp.6856-6862
    • /
    • 2014
  • Web usage mining is a method to extract meaningful patterns based on the web users' log data. Most existing patterns of web usage mining, however, do not consider the users' diverse inclination but create general models. Web users' keywords can have a variety of meanings regarding their tendency and background knowledge. This study evaluated the extraction web-user's pattern after collecting and analyzing the web usage information on the users' keywords of interest. Web-user's pattern can supply a web page network with various inclination information based on the users' keywords of interest. In addition, the Web-user's pattern can be used to recommend the most appropriate web pages and the suggested method of this experiment was confirmed to be useful.

Keyword Spotting on Hangul Document Images Using Character Feature Models (문자 별 특징 모델을 이용한 한글 문서 영상에서 키워드 검색)

  • Park, Sang-Cheol;Kim, Soo-Hyung;Choi, Deok-Jai
    • The KIPS Transactions:PartB
    • /
    • v.12B no.5 s.101
    • /
    • pp.521-526
    • /
    • 2005
  • In this Paper, we propose a keyword spotting system as an alternative to searching system for poor quality Korean document images and compare the Proposed system with an OCR-based document retrieval system. The system is composed of character segmentation, feature extraction for the query keyword, and word-to-word matching. In the character segmentation step, we propose an effective method to remove the connectivity between adjacent characters and a character segmentation method by making the variance of character widths minimum. In the query creation step, feature vector for the query is constructed by a combination of a character model by typeface. In the matching step, word-to-word matching is applied base on a character-to-character matching. We demonstrated that the proposed keyword spotting system is more efficient than the OCR-based one to search a keyword on the Korean document images, especially when the quality of documents is quite poor and point size is small.

XML Document Keyword Weight Analysis based Paragraph Extraction Model (XML 문서 키워드 가중치 분석 기반 문단 추출 모델)

  • Lee, Jongwon;Kang, Inshik;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.11
    • /
    • pp.2133-2138
    • /
    • 2017
  • The analysis of existing XML documents and other documents was centered on words. It can be implemented using a morpheme analyzer, but it can classify many words in the document and cannot grasp the core contents of the document. In order for a user to efficiently understand a document, a paragraph containing a main word must be extracted and presented to the user. The proposed system retrieves keyword in the normalized XML document. Then, the user extracts the paragraphs containing the keyword inputted for searching and displays them to the user. In addition, the frequency and weight of the keyword used in the search are informed to the user, and the order of the extracted paragraphs and the redundancy elimination function are minimized so that the user can understand the document. The proposed system can minimize the time and effort required to understand the document by allowing the user to understand the document without reading the whole document.

Location Mapping Techniques of Textual Spatial Information for Spatial Semantic Web (공간 시멘틱 웹을 위한 텍스트 공간정보의 위치 맵핑 기법)

  • Ha, Tae-Seok;Ha, Su-Wook;Nam, Kwang-Woo
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2010.06a
    • /
    • pp.71-73
    • /
    • 2010
  • 웹에서 다양한 웹 지리 지역 정보를 검색할 수 있는 시스템에 대한 요구가 증가하고 있다. 그러나 현재의 웹 검색 시스템은 사용자가 키워드로 지역 웹 문서를 검색하고 해당 웹 문서를 지도와 비교하여 공간정보를 취득하며, 다른 관련 정보를 얻기 위해서는 검색과 비교를 반복해야 하는 어려움이 있다. 따라서 본 논문에서는 비구조화 된 텍스트 웹 자원으로부터 지리정보 온툴로지(geo-ontology)를 확장할 수 있는 통합된 검색시스템을 제안한다. 이를 위해 문서의 정보에서 위치 정보를 추출하고 공간정보 위치 맵핑 기법을 적용하여 텍스트의 공간정보를 추출한다.

  • PDF

Problems of Indexing Module in IR Systems and Lexicons of Complex Items and Syntactic Structures (검색 엔진의 ‘색인 모듈’의 문제와 합성어 사전 및 구문 정보 사전의 필요성)

  • 남지순;최기선
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1997.08a
    • /
    • pp.5-15
    • /
    • 1997
  • 기존의 대부분의 정보 검색 시스템은 문서에 대한 ‘자동 색인 단계’를 거쳐 질의자의 요구에 적합한 문서들을 추출하도록 되어 있다. 이 과정에서 얼마나 적합한 문서를 빠짐없이 검색하였는가 하는 문제가, 검색 시스템의 효율성들 판단하는 데 가장 중요한 열쇠가 된다. 이 글에서는 ‘명사’ 중심의 키워드 추출이 안고 있는 몇 가지 문제점들에 관해서 논의하였다. 즉, 합성어 키워드 구축의 필요성, 동사 구문 정보에 대한 필요성, 부사구 표현에 대한 기술 필요성, 그리고 발화 상황이 고려되어야 하는 점등이 검토되었고, 이에 관한 해결책으로, 어휘정보 및 어절 정보, 나아가 구문 정보들을 담고 있는, 보다 체계적인 한국어 사전 시스템이 구축되어야 함을 강조하였다.

  • PDF

Full-automatic high-level concept extraction for image using domain ontologies (온톨로지를 이용한 이미지의 고수준 의미 정보 자동 추출 기법)

  • Park Kyung-Wook;Lee Dong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.88-90
    • /
    • 2005
  • 최근 인터넷의 급속한 성장은 이미지와 같은 멀티미디어 정보의 급격한 증가를 가져왔다. 따라서 사용자로 하여금 원하는 이미지를 검색하는데 있어서 좀 더 효율적이고 정확한 검색 방법의 필요성이 대두되어 왔다. 일반적으로 이미지 검색 방법에는 키워드 기반 방식과 내용 기반 방식이 존재한다. 그러나 위 두 방법은 지금의 대용량 이미지 데이터베이스 검색에 있어서 여러 문제점들을 가지고 있다. 특히, 키워드 기반 방식을 보완하기 위해서 제안되어진 내용 기반 방식의 경우, 사람이 인식할 수 있는 의미 정보가 아닌 시각 정보만을 이용하기 때문에 시맨틱 갭(semantic gap) 문제가 발생하게 된다. 본 논문에서는 이미지 객체의 시각 정보들에 대한 중간 의미값으로 구성된 시각 정보 온톨로지와 동물에 대한 분류 정보를 표현하고 있는 동물 온톨로지를 구축하고, 이를 이용하여 이미지로부터 .고수준의 의미 정보를 완전 자동으로 추출하는 효율적인 방법을 제안한다.

  • PDF

Automatic Keyword Extraction System for Korean Documents Information Retrieval (국내(國內) 문헌정보(文獻情報) 검색(檢索)을 위한 키워드 자동추출(自動抽出) 시스템 개발(開發))

  • Yae, Yong-Hee
    • Journal of Information Management
    • /
    • v.23 no.1
    • /
    • pp.39-62
    • /
    • 1992
  • In this paper about 60 auxiliary words and 320 stopwords are selected from analysis of sample data, four types of stop word are classified left, right and - auxiliary word truncation & normal. And a keyword extraction system is suggested which undertakes efficient truncation of auxiliary word from words, conversion of Chinese word to Korean and exclusion of stopword. The selected keyeords in this system show 92.2% of accordance ratio compared with manually selected keywords by expert. And then compound words consist of $4{\sim}6$ character generate twice of additional new words and 58.8% words of those are useful as keyword.

  • PDF