• Title/Summary/Keyword: 키워드 선택

Search Result 169, Processing Time 0.028 seconds

Sentence Cohesion & Subject driving Keywords Extraction for Document Classification (문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출)

  • Ahn Heui-Kook;Roh Hi-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

CCA-Secure Conditional Proxy Re-encryption to Support Multi-keyword (다중키워드를 지원하며 선택암호문 공격에 강건한 선택적 프록시 재암호화 기법)

  • Eun, Hasoo;Lee, Hoonjung;Oh, Heekuck;Kim, Sangjin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.650-653
    • /
    • 2012
  • 프록시 재암호화란 프록시를 통해 자신의 복호권한을 다른 사용자에게 위임하는 기법을 말한다. 초기의 프록시 재암호화 기법은 모든 문서에 대한 복호권한을 한번에 위임해야 한다는 한계가 있었다. 이를 해결하기 위해 선택적 프록시 재암호화 기법이 제안되었다. 이 기법은 특정 상태(혹은 키워드)를 갖는 문서에 대해서만 복호권한을 위임하도록 지정할 수 있기 때문에, 기존의 기법보다 유연하게 적용이 가능하다는 장점이 있다. Weng 등이 제안한 선택적 프록시 재암호화 기법은 CCA에는 강건하지만, 다중 키워드로의 확장을 정의하지 못하였다. 본 논문에서는 Weng의 선택적 프록시 재암호화 기법을 확장하여 CCA에 강건하며 다중키워드를 지원하는 프록시 재암호화 기법을 제안한다.

Neural Based Approach to Keyword Extraction from Documents (문서의 키워드 추출에 대한 신경망 접근)

  • 조태호;서정현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.317-319
    • /
    • 2000
  • 문서는 자연어로 구성된 비정형화된 데이터이다. 이를 처리하기 위하여 문서를 정형화된 데이터로 표현하여 저장할 필요가 있는데, 이를 문서 대용물(Document Surrogate)라 한다. 문서 대용물은 대표적으로 인덱싱 과정에 의해 추출된 단어 리스트를 나타낸다. 문서 내의 모든 단어가 내용을 반영하지 않는다. 문서의 내용을 반영하는 중요한 단어만을 선택할 필요가 있다. 이러한 단어를 키워드라 하며, 기존에는 단어의 빈도와 역문서 빈도(Inverse Document Frequency)에 근거한 공식에 의해 키워드를 선택하였다. 실제로 문서내 빈도와 역문서 빈도뿐만 아니라 제목에 포함 여부, 단어의 위치 등도 고려하여야 한다. 이러한 인자를 추가할 경우 이를 수식으로 표현하기에는 복잡하다. 이 논문에서는 이를 단어의 특징으로 추출하여 특징벡터를 형성하고 이를 학습하여 키워드를 선택하는 신경망 모델인 역전파의 접근을 제안한다. 역전파를 이용하여 키워드를 판별한 결과 수식에 의한 경우보다 그 성능이 향상되었음을 보여주고 있다.

  • PDF

Information Retrieval Using Images (영상을 이용한 정보검색)

  • 최윤경;이은애;하석운
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.37-39
    • /
    • 2002
  • 정보 검색 시스템은 인터넷에 존재하는 수많은 정보 중에서 사용자가 필요한 특정 정보만을 포함하는 문서를 검색할 수 있다. 현재 정보 검색 시스템은 텍스트를 입력하는 방식을 이용한다. 검색어를 이용하게 되면 몇 개의 키워드를 통하여 원하는 정보를 신속하게 찾을 수 있지만 언어를 기반으로 하기 때문에 각 나라의 언어와 키워드를 알아야 사용할 수 있다는 단점이 있다. 이런 문제점을 해결하기 위해 본 시스템은 언어와 키워드를 알지 못하더라도 정보 검색이 가능하도록 누구나 쉽게 의미를 알 수 있는 영상을 질의로 하는 시스템을 제안한다. 본 시스템은 데이터베이스 내에 200개의 비교 대상 영상들을 5개의 대분류로 나눈 후 각각 3개의 소분류로 나누어 영상의 특징 및 키워드를 추출하여 영상특징키워드 데이터베이스(IFKDB, Image Feature Keyword DataBase)에 저장하였다. 사용자 인터페이스를 통해 새로운 영상을 만들거나 흑은 기존에 만들어진 영상을 선택하여 질의로 사용하면 질의 영상의 특징 중 에지를 추출하여 IFKDB와 비교하여 유사도가 높은 영상의 키워드 중 적정 개수를 선택하여 정보 검색의 키워드로 사용할 수 있게 하였다. 사용자가 그린 단순한 영상으로 검색이 가능하고 사용자가 원하는 영상과 비슷한 영상을 찾을 수 있으며 영상으로 정보 검색이 가능하므로 검색의 편의성을 제공한다.

  • PDF

Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec (Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법)

  • Lee, Donghun;Kim, Kwanho
    • The Journal of Society for e-Business Studies
    • /
    • v.23 no.2
    • /
    • pp.83-96
    • /
    • 2018
  • Extracting keywords representing documents is very important because it can be used for automated services such as document search, classification, recommendation system as well as quickly transmitting document information. However, when extracting keywords based on the frequency of words appearing in a web site documents and graph algorithms based on the co-occurrence of words, the problem of containing various words that are not related to the topic potentially in the web page structure, There is a difficulty in extracting the semantic keyword due to the limit of the performance of the Korean tokenizer. In this paper, we propose a method to select candidate keywords based on semantic similarity, and solve the problem that semantic keyword can not be extracted and the accuracy of Korean tokenizer analysis is poor. Finally, we use the technique of extracting final semantic keywords through filtering process to remove inconsistent keywords. Experimental results through real web pages of small business show that the performance of the proposed method is improved by 34.52% over the statistical similarity based keyword selection technique. Therefore, it is confirmed that the performance of extracting keywords from documents is improved by considering semantic similarity between words and removing inconsistent keywords.

Covid 19 news data analysis (코로나 19 뉴스데이터 분석 및 시각화)

  • Hur, Tai-seong;Hwang, In Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.241-242
    • /
    • 2021
  • 본 논문에서는 2020년 1월부터 2020년 8월까지 8개월간의 유통되었던 코로나 19와 관련된 뉴스 데이터를 이용하여 기간 및 지역별 단어의 빈도수를 구하고, 그 결과를 활용해 코로나 19와의 상관관계를 분석하고, 시각화하였다. 뉴스데이터는 한국언론진흥재단에서 운영하는 뉴스 빅데이터 시스템인 '빅카인즈'에서 수집된 데이터를 이용하였다. 본 논문에서 웹서비스를 활용해 시각화하였으며 지역과 기간을 선택하면 분석한 결과를 불러와 전체 지역대비 선택한 지역의 뉴스 빈도수, 선택한 지역의 주요 키워드, 주요 키워드의 지역별 일자별 변화 등을 보여주고 있다. 이러한 시각화를 통해 이전에 발생되었던 사건에 대해 주요 키워드와 코로나 19의 상관관계를 쉽게 파악을 할 수 있다.

  • PDF

Associate Keywords Mining Techniques for Related Site Recommendation in Contextual Advertisement (문맥광고에서 관련 사이트 추천을 위한 연관 키워드 마이닝기법)

  • Kim Sung-Min;Lee Sung-Jin;Lee Soo-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2006.05a
    • /
    • pp.337-340
    • /
    • 2006
  • 문맥광고는 인터넷 사용자들이 뉴스나 커뮤니티 사이트에서 콘텐츠를 조회할 때, 해당 콘텐츠와 일치하거나 관련성이 높은 제품 또는 서비스 정보를 제공하는 새로운 방식의 광고기법이다. 그러나 현재 제공되고 있는 서비스의 대부분은 콘텐츠와의 관계가 다소 떨어지거나, 수동적으로 광고주가 선택한 키워드 또는 카테고리 선택에 의해 서비스가 제공되고 있다. 따라서 문맥광고의 효율성을 높이기 위해서는 사용자가 조회한 콘텐츠내의 문맥정보를 분석하여 콘텐츠와의 관련성이 높은 서비스를 제공하는 방법에 대한 연구가 필요하다. 본 논문에서는 사용자가 조회한 콘텐츠의 내용과 보다 관련 있는 서비스 제공을 위해 콘텐츠의 내용을 대표할 수 있는 중요 키워드를 선정하고, 콘텐츠 내에서 추출된 키워드간의 연관성을 분석하여 콘텐츠와 관련된 서비스를 제공하는 방법에 대해 제안한다.

  • PDF

Personalized Contextual Advertisement Using a Dynamic User Model (동적 사용자 모델을 이용한 개인화된 문맥광고)

  • Kang, Young-Kil;Kim, Seong-Min;Lee, Soo-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.189-193
    • /
    • 2006
  • 문맥광고 또는 컨텍스트 기반 광고란 사용자들이 선택한 웹 콘텐츠 내용을 기반으로 하여 연관성 있는 광고를 자동으로 선택하여 사용자에게 제공하는 광고기법이다. 즉, 웹 사이트를 방문하는 고객을 타겟으로 하여 그들이 찾고자 하는 것과 관련된 광고를 내보냄으로써 효과적인 광고가 이루어지도록 하는 것이다. 그러나 기존의 문맥광고는 사용자가 관심을 가지는 키워드가 아닌 광고주가 선택한 키워드를 중심으로 광고 내용을 선택하기 때문에 사용자의 실제적인 관심이 반영되지 않아 광고의 효과가 떨어지는 문제점을 가지고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자가 웹 콘텐츠를 선택할 때 마다 사용자의 선호도를 동적으로 학습하고, 학습된 선호도를 문맥광고에 활용하는 개인화된 문맥광고를 제안한다. 실험을 위해서 제안한 방법으로 광고를 생성해서 보여주는 웹 브라우저를 구현하여 기존의 문맥광고와 개인화된 문맥광고에 대한 사용자의 평가를 비교하였다. 실험 결과 본 논문에서 제안한 개인화된 문맥광고가 ‘콘텐츠의 내용과의 연관성’, ‘사용자의 클릭여부’ 등의 항목에서 기존의 문맥광고에 비해 우수하다는 결과를 얻을 수 있었다.

  • PDF

An Efficient Web Image Caption Extraction Method based on Textual and Visual Information (텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법)

  • Hwang Ji-Ik;Park Joo-Hyoun;Nang Jong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06b
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

An Image Retrieval System with Multiple Access Modes (키워드탐색과 비주얼 브라우징 기법을 이용한 이미지 개발 시스템)

  • 이지연
    • Journal of the Korean Society for information Management
    • /
    • v.18 no.4
    • /
    • pp.183-200
    • /
    • 2001
  • The traditional way of access to image information is through descriptive keyword searching. However, many studies in image indexing and retrieval have reached a consensus on the difficulties and limitations of text-base image description. This research investigates the feasibility of using visual browsing that is being used comparatively much less than keyword searching. The effectiveness of Keyword access versus visual access were examined through experiments in which participants searched for pictures of specified emotions using different access modes: keywords only, visual browsing only, and the combination of both. It was found that keyword searching was appropriate for clean searches while visual browsing was the effective way to browse many pictures quickly, thus finding more relevant pictures. Findings and results can guide of images retrieval systems, especially the retrieval system of subjective and interpretive information.

  • PDF