• 제목/요약/키워드: 키워드 선택

검색결과 169건 처리시간 0.025초

문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출 (Sentence Cohesion & Subject driving Keywords Extraction for Document Classification)

  • 안희국;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

다중키워드를 지원하며 선택암호문 공격에 강건한 선택적 프록시 재암호화 기법 (CCA-Secure Conditional Proxy Re-encryption to Support Multi-keyword)

  • 은하수;이훈정;오희국;김상진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.650-653
    • /
    • 2012
  • 프록시 재암호화란 프록시를 통해 자신의 복호권한을 다른 사용자에게 위임하는 기법을 말한다. 초기의 프록시 재암호화 기법은 모든 문서에 대한 복호권한을 한번에 위임해야 한다는 한계가 있었다. 이를 해결하기 위해 선택적 프록시 재암호화 기법이 제안되었다. 이 기법은 특정 상태(혹은 키워드)를 갖는 문서에 대해서만 복호권한을 위임하도록 지정할 수 있기 때문에, 기존의 기법보다 유연하게 적용이 가능하다는 장점이 있다. Weng 등이 제안한 선택적 프록시 재암호화 기법은 CCA에는 강건하지만, 다중 키워드로의 확장을 정의하지 못하였다. 본 논문에서는 Weng의 선택적 프록시 재암호화 기법을 확장하여 CCA에 강건하며 다중키워드를 지원하는 프록시 재암호화 기법을 제안한다.

문서의 키워드 추출에 대한 신경망 접근 (Neural Based Approach to Keyword Extraction from Documents)

  • 조태호;서정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.317-319
    • /
    • 2000
  • 문서는 자연어로 구성된 비정형화된 데이터이다. 이를 처리하기 위하여 문서를 정형화된 데이터로 표현하여 저장할 필요가 있는데, 이를 문서 대용물(Document Surrogate)라 한다. 문서 대용물은 대표적으로 인덱싱 과정에 의해 추출된 단어 리스트를 나타낸다. 문서 내의 모든 단어가 내용을 반영하지 않는다. 문서의 내용을 반영하는 중요한 단어만을 선택할 필요가 있다. 이러한 단어를 키워드라 하며, 기존에는 단어의 빈도와 역문서 빈도(Inverse Document Frequency)에 근거한 공식에 의해 키워드를 선택하였다. 실제로 문서내 빈도와 역문서 빈도뿐만 아니라 제목에 포함 여부, 단어의 위치 등도 고려하여야 한다. 이러한 인자를 추가할 경우 이를 수식으로 표현하기에는 복잡하다. 이 논문에서는 이를 단어의 특징으로 추출하여 특징벡터를 형성하고 이를 학습하여 키워드를 선택하는 신경망 모델인 역전파의 접근을 제안한다. 역전파를 이용하여 키워드를 판별한 결과 수식에 의한 경우보다 그 성능이 향상되었음을 보여주고 있다.

  • PDF

영상을 이용한 정보검색 (Information Retrieval Using Images)

  • 최윤경;이은애;하석운
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.37-39
    • /
    • 2002
  • 정보 검색 시스템은 인터넷에 존재하는 수많은 정보 중에서 사용자가 필요한 특정 정보만을 포함하는 문서를 검색할 수 있다. 현재 정보 검색 시스템은 텍스트를 입력하는 방식을 이용한다. 검색어를 이용하게 되면 몇 개의 키워드를 통하여 원하는 정보를 신속하게 찾을 수 있지만 언어를 기반으로 하기 때문에 각 나라의 언어와 키워드를 알아야 사용할 수 있다는 단점이 있다. 이런 문제점을 해결하기 위해 본 시스템은 언어와 키워드를 알지 못하더라도 정보 검색이 가능하도록 누구나 쉽게 의미를 알 수 있는 영상을 질의로 하는 시스템을 제안한다. 본 시스템은 데이터베이스 내에 200개의 비교 대상 영상들을 5개의 대분류로 나눈 후 각각 3개의 소분류로 나누어 영상의 특징 및 키워드를 추출하여 영상특징키워드 데이터베이스(IFKDB, Image Feature Keyword DataBase)에 저장하였다. 사용자 인터페이스를 통해 새로운 영상을 만들거나 흑은 기존에 만들어진 영상을 선택하여 질의로 사용하면 질의 영상의 특징 중 에지를 추출하여 IFKDB와 비교하여 유사도가 높은 영상의 키워드 중 적정 개수를 선택하여 정보 검색의 키워드로 사용할 수 있게 하였다. 사용자가 그린 단순한 영상으로 검색이 가능하고 사용자가 원하는 영상과 비슷한 영상을 찾을 수 있으며 영상으로 정보 검색이 가능하므로 검색의 편의성을 제공한다.

  • PDF

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

코로나 19 뉴스데이터 분석 및 시각화 (Covid 19 news data analysis)

  • 허태성;황인용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.241-242
    • /
    • 2021
  • 본 논문에서는 2020년 1월부터 2020년 8월까지 8개월간의 유통되었던 코로나 19와 관련된 뉴스 데이터를 이용하여 기간 및 지역별 단어의 빈도수를 구하고, 그 결과를 활용해 코로나 19와의 상관관계를 분석하고, 시각화하였다. 뉴스데이터는 한국언론진흥재단에서 운영하는 뉴스 빅데이터 시스템인 '빅카인즈'에서 수집된 데이터를 이용하였다. 본 논문에서 웹서비스를 활용해 시각화하였으며 지역과 기간을 선택하면 분석한 결과를 불러와 전체 지역대비 선택한 지역의 뉴스 빈도수, 선택한 지역의 주요 키워드, 주요 키워드의 지역별 일자별 변화 등을 보여주고 있다. 이러한 시각화를 통해 이전에 발생되었던 사건에 대해 주요 키워드와 코로나 19의 상관관계를 쉽게 파악을 할 수 있다.

  • PDF

문맥광고에서 관련 사이트 추천을 위한 연관 키워드 마이닝기법 (Associate Keywords Mining Techniques for Related Site Recommendation in Contextual Advertisement)

  • 김성민;이성진;이수원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.337-340
    • /
    • 2006
  • 문맥광고는 인터넷 사용자들이 뉴스나 커뮤니티 사이트에서 콘텐츠를 조회할 때, 해당 콘텐츠와 일치하거나 관련성이 높은 제품 또는 서비스 정보를 제공하는 새로운 방식의 광고기법이다. 그러나 현재 제공되고 있는 서비스의 대부분은 콘텐츠와의 관계가 다소 떨어지거나, 수동적으로 광고주가 선택한 키워드 또는 카테고리 선택에 의해 서비스가 제공되고 있다. 따라서 문맥광고의 효율성을 높이기 위해서는 사용자가 조회한 콘텐츠내의 문맥정보를 분석하여 콘텐츠와의 관련성이 높은 서비스를 제공하는 방법에 대한 연구가 필요하다. 본 논문에서는 사용자가 조회한 콘텐츠의 내용과 보다 관련 있는 서비스 제공을 위해 콘텐츠의 내용을 대표할 수 있는 중요 키워드를 선정하고, 콘텐츠 내에서 추출된 키워드간의 연관성을 분석하여 콘텐츠와 관련된 서비스를 제공하는 방법에 대해 제안한다.

  • PDF

동적 사용자 모델을 이용한 개인화된 문맥광고 (Personalized Contextual Advertisement Using a Dynamic User Model)

  • 강영길;김성민;이수원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.189-193
    • /
    • 2006
  • 문맥광고 또는 컨텍스트 기반 광고란 사용자들이 선택한 웹 콘텐츠 내용을 기반으로 하여 연관성 있는 광고를 자동으로 선택하여 사용자에게 제공하는 광고기법이다. 즉, 웹 사이트를 방문하는 고객을 타겟으로 하여 그들이 찾고자 하는 것과 관련된 광고를 내보냄으로써 효과적인 광고가 이루어지도록 하는 것이다. 그러나 기존의 문맥광고는 사용자가 관심을 가지는 키워드가 아닌 광고주가 선택한 키워드를 중심으로 광고 내용을 선택하기 때문에 사용자의 실제적인 관심이 반영되지 않아 광고의 효과가 떨어지는 문제점을 가지고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자가 웹 콘텐츠를 선택할 때 마다 사용자의 선호도를 동적으로 학습하고, 학습된 선호도를 문맥광고에 활용하는 개인화된 문맥광고를 제안한다. 실험을 위해서 제안한 방법으로 광고를 생성해서 보여주는 웹 브라우저를 구현하여 기존의 문맥광고와 개인화된 문맥광고에 대한 사용자의 평가를 비교하였다. 실험 결과 본 논문에서 제안한 개인화된 문맥광고가 ‘콘텐츠의 내용과의 연관성’, ‘사용자의 클릭여부’ 등의 항목에서 기존의 문맥광고에 비해 우수하다는 결과를 얻을 수 있었다.

  • PDF

텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법 (An Efficient Web Image Caption Extraction Method based on Textual and Visual Information)

  • 황지익;박주현;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

키워드탐색과 비주얼 브라우징 기법을 이용한 이미지 개발 시스템 (An Image Retrieval System with Multiple Access Modes)

  • 이지연
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.183-200
    • /
    • 2001
  • 기존의 전통적인 이미지 데이터로의 접근방식은 각 이미지를 기술하는 색인어 및 키워드들에 의하여 이루어졌다. 이러한 키워드에 의한 전통적인 방식은 색인의 객관성 및 이용자들의 적절한 탐색어 선택에 따르는 부담을 수반하는 것이어서 이미지 검색의 문제점으로 제시되어 왔다. 이 연구는 객관성 있는 이미지 기술의 어려움과 키워드 탐색의 한계성을 인식하고 색인어와 매칭되는 탐색어 선택에 따르는 이용자의 부담을 덜 수 있는 방법의 하나로 비주얼 브라우징 기법을 제시하였다. 키워드 탐색 방법과 비주얼 브라우징 방법, 그리고 이 두 가지를 혼합 사용하는 방법을 비교하는 실험을 통하여 각 방법의 효율성을 측정하고 장점 및 단점을 살펴보았다. 실험 결과 키워드 탐색 방식은 탐색의 효율적인 측면을 고려할 때에 적합한 것으로 나타났으며 비주얼 브라우징 방식은 탐색 결과의 포괄적인 측면을 기대할 때에 이용될 수 있는 것으로 드러났다. 이러한 결과는 한 방식이 다른 방식보다 절대 우위의 효율성을 가진다기보다는 이용자가 요구하는 정보의 양과 정확성에 따라 각 방식의 효율성이 달라진다는 것을 제시하고 있다. 이 연구는 비주얼 브라우징 방식을 통하여 현재의 키워드 중심의 이미지 탐색 방식의 문제점을 완화시키고 이용자 중심의 탐색 방식과 이미지 검색 시스템의 디자인을 위한 방향을 제시하고 있다.

  • PDF