• 제목/요약/키워드: 자동 키워드 추출

검색결과 108건 처리시간 0.022초

온톨로지를 이용한 이미지의 고수준 의미 정보 자동 추출 기법 (Full-automatic high-level concept extraction for image using domain ontologies)

  • 박경욱;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.88-90
    • /
    • 2005
  • 최근 인터넷의 급속한 성장은 이미지와 같은 멀티미디어 정보의 급격한 증가를 가져왔다. 따라서 사용자로 하여금 원하는 이미지를 검색하는데 있어서 좀 더 효율적이고 정확한 검색 방법의 필요성이 대두되어 왔다. 일반적으로 이미지 검색 방법에는 키워드 기반 방식과 내용 기반 방식이 존재한다. 그러나 위 두 방법은 지금의 대용량 이미지 데이터베이스 검색에 있어서 여러 문제점들을 가지고 있다. 특히, 키워드 기반 방식을 보완하기 위해서 제안되어진 내용 기반 방식의 경우, 사람이 인식할 수 있는 의미 정보가 아닌 시각 정보만을 이용하기 때문에 시맨틱 갭(semantic gap) 문제가 발생하게 된다. 본 논문에서는 이미지 객체의 시각 정보들에 대한 중간 의미값으로 구성된 시각 정보 온톨로지와 동물에 대한 분류 정보를 표현하고 있는 동물 온톨로지를 구축하고, 이를 이용하여 이미지로부터 .고수준의 의미 정보를 완전 자동으로 추출하는 효율적인 방법을 제안한다.

  • PDF

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.

성격유형별 선호도서 추천을 위한 서평 키워드 활용의 유효성 연구 (A Study on the Effectiveness of Using Keywords in Book Reviews for Customized Book Recommendation for Each Personality Type)

  • 차연희;최성필
    • 한국문헌정보학회지
    • /
    • 제55권3호
    • /
    • pp.343-372
    • /
    • 2021
  • 이 연구는 성격유형별로 선호하는 도서를 추천할 수 있는 키워드를 선별하고, 선별된 키워드가 실제 성격유형별 도서의 구분 및 추천에 활용 가능한지 여부를 밝히는데 목적이 있다. 유효성을 검증하기 위해 초등학생 5~6학년과 중학생 1학년 수준에 맞는 도서를 선정하여, 전문가 집단에 의뢰하여 성격유형별 선호도서로 분류하였다. 분류 결과, 전문가 집단 5인 이상 의견이 일치하는 도서가 절반에 해당하며 높은 일치도를 나타냈다. 또, 선정된 도서의 서평 데이터를 모아 어휘자동추출시스템으로 추출한 키워드로 도서를 성격유형별로 분류한 결과와 전문가 집단이 최종 판정한 결과를 비교하면, 소수의 도서를 제외하고 거의 유사한 결과를 보였다. 이로써 서평 키워드를 활용하여 성격유형별 선호도서로 구분하고, 성격유형별 도서추천에 유효성이 있음을 검증하였다.

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

소셜 북마킹 서비스의 태그를 이용한 개인화 콘텐츠 (Personalized Contents using the Tags of the Social Bookmarking Service)

  • 한주현;정문열
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.267-272
    • /
    • 2009
  • 웹 2.0 이라 불리는 현 웹의 패러다임은 개방, 공유, 참여로 압축하여 말할 수 있다. 이 속에서는 사용자의 참여와 공유로 콘텐츠가 생산 또는 재생산된다. 이러한 콘텐츠는 사용자의 관심을 반영하기 때문에 사용자가 어떠한 콘텐츠를 만들어 냈는지, 수집했는지 등을 분석하면 사용자의 관심 범주를 추출할 수 있다. 본 논문에서는 사용자가 소셜 북마킹 서비스를 이용하며 생성한 태그를 바탕으로 사용자의 관심 범주를 추출하여 이를 통해 개인화 콘텐츠 제공 서비스를 제안한다. 우선, 웹 서비스에서 제공하는 피드를 이용하여 사용자가 생성한 태그 중 가장 많이 쓰인 10개의 태그와 그것들과 관련 있는 태그들만 모아서 관심 범주을 추출하기 위한 태그 집합을 구성한다. 구성된 태그 집합을 바탕으로 피어슨 상관 계수를 통해 태그 간 동시 사용률을 조사한다. 이후 사용자 흥미에 부합하는 콘텐츠를 검색하기 위해 조사된 동시 사용률을 바탕으로 검색 키워드 그룹을 추출한다. 이렇게 만들어진 키워드 그룹들은 사용자의 평소 관심사와 관련된 콘텐츠를 검색하는데 사용되며, 이를 통해 사용자의 관심 있는 내용의 콘텐츠를 사용자의 특별한 검색 절차 없이 제공받는다. 이러한 방식을 통해 사용자가 원하는 정보를 입력하는 절차 없이도 웹에 축적된 사용자의 정보를 사용하여 자동으로 개인화된 콘텐츠를 제공할 수 있을 것으로 기대 된다.

  • PDF

연관규칙을 이용한 뉴스기사의 계층적 자동분류기법 (Hierarchical Automatic Classification of News Articles based on Association Rules)

  • 주길홍;신은영;이주일;이원석
    • 한국멀티미디어학회논문지
    • /
    • 제14권6호
    • /
    • pp.730-741
    • /
    • 2011
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며 사용자의 다양한 요구가 생겨나게 되었다. 이로 인해 대용량의 문서를 효과적으로 분류하기 위한 다양한 방법의 연구가 필요하게 되었다. 기존의 문서 범주화는 분서의 분류를 위해 연관된 문서의 키워드를 중심으로 하는 방법을 사용하였다. 그러나 본 논문에서는 연관규칙을 이용하여 범주 내의 문서들 간에 연관성 있는 키워드들의 집합을 추출하고 각 범주 별로 의미적으로 대표성을 가진 키워드들로 분류 규칙을 생성한다. 또한 효율적인 키워드 생성을 위한 데이터 전처리 방안을 제시하고, 새로운 문서 범주를 예측한다. 프로파일의 분류성능을 높이기 위한 분류함수를 설계하고 실험을 통하여 성능을 측정한다. 마지막으로 평면적인 범주 구조에서 확장하여 계층적인 분류체계 구조에서도 적용할 수 있는 자동분류 방안을 제시한다.

단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법 (An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness)

  • 차준석;김정인;김판구
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.22-29
    • /
    • 2017
  • 최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.

인터넷 검색기록 분석을 통한 쇼핑의도 포함 키워드 자동 추출 기법 (A Methodology for Extracting Shopping-Related Keywords by Analyzing Internet Navigation Patterns)

  • 김민규;김남규;정인환
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.123-136
    • /
    • 2014
  • 최근 온라인 및 다양한 스마트 기기의 사용이 확산됨에 따라 온라인을 통한 쇼핑구매가 더욱 활성화 되었다. 때문에 인터넷 쇼핑몰들은 쇼핑에 관심이 있는 잠재 고객들에게 한 번이라도 더 자사의 링크를 노출시키기 위해 키워드에 비용을 지불할 용의가 있으며, 이러한 추세는 검색 광고 시장의 광고비를 증가시키는 원인을 제공하였다. 이 때 키워드의 가치는 대체로 검색어의 빈도수에 기반을 두어 산정된다. 하지만 포털 사이트에서 검색어로 자주 입력되는 모든 단어가 쇼핑과 관련이 있는 것은 아니며, 이들 키워드 중에는 빈도수는 높지만 쇼핑몰 관점에서는 별로 수익과 관련이 없는 키워드도 다수 존재한다. 그렇기 때문에 특정 키워드가 사용자들에게 많이 노출된다고 해서, 이를 통해 구매가 이루어질 것을 기대하여 해당 키워드에 많은 광고비를 지급하는 것은 매우 비효율적인 방식이다. 따라서 포털 사이트의 빈발 검색어 중 쇼핑몰 관점에서 중요한 키워드를 추출하는 작업이 별도로 요구되며, 이 과정을 빠르고 효과적으로 수행하기 위한 자동화 방법론에 대한 수요가 증가하고 있다. 본 연구에서는 이러한 수요에 부응하기 위해 포털 사이트에 입력된 키워드 중 쇼핑의도를 포함하고 있을 가능성이 높을 것으로 추정되는 키워드만을 자동으로 추출하는 방안을 제시하고, 구체적으로는 전체 검색어 중 검색결과 페이지에서 쇼핑과 관련 된 페이지로 이동한 검색어만을 추출하여 순위를 집계하고, 이 순위를 전체 검색 키워드의 순위와 비교하였다. 국내 최대의 검색 포털인 'N'사에서 이루어진 검색 약 390만 건에 대한 실험결과, 제안 방법론에 의해 추천된 쇼핑의도 포함 키워드가 단순 빈도수 기반의 키워드에 비해 정확도, 재현율, F-Score의 모든 측면에서 상대적으로 우수한 성능을 보이는 것으로 나타남을 확인할 수 있었다.

웹 페이지 구조 분석을 통한 효과적인 동영상 검색용 키워드 추출 방법 (An Effective Keyword Extraction Method Based on Web Page Structure Analysis for Video Retrieval in WWW)

  • 이종원;최기석;장주연;낭종호
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권3호
    • /
    • pp.103-110
    • /
    • 2008
  • 본 논문에서는 웹 동영상 페이지의 구조를 바탕으로 하여, 웹 동영상의 관리 및 검색을 위한 주석용 키워드를 자동 추출하는 방법을 제안한다. 제안 방법은 웹 동영상 페이지의 구조를 포함된 동영상의 개수와 주변 텍스트 구성의 복잡도를 기준으로 4가지 타입으로 구분하고, 타입 별로 키워드를 추출하는 방법을 달리한다. 1,087개의 웹 동영상 페이지(2,462개의 동영상)를 바탕으로 실험한 결과에 의하면 본 논문에서 제안하는 방법은 기존 웹 이미지 검색 시스템을 위한 추출 방법보다 재현율 면에서 18%의 성능 향상을 보였다. 따라서 논문에서 제안하는 방법은 일반적인 웹 동영상 검색 시스템을 위한 키워드 추출에 널리 적용 될 수 있다.

문법형태소 네트워크를 이용한 자동색인 시스템의 설계 (Design of Automatic Indexing System Using Korean Morpheme Network)

  • 안성현;장재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF