• 제목/요약/키워드: 자동 키워드 추출

검색결과 108건 처리시간 0.024초

이동 평균 기반 동적 시간 와핑 기법을 이용한 시계열 키워드 데이터의 분류 성능 개선 방안 (Enhancing Classification Performance of Temporal Keyword Data by Using Moving Average-based Dynamic Time Warping Method)

  • 정도헌
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.83-105
    • /
    • 2019
  • 본 연구는 시계열 특성을 갖는 데이터의 패턴 유사도 비교를 통해 유사 추세를 보이는 키워드를 자동 분류하기 위한 효과적인 방법을 제안하는 것을 목표로 한다. 이를 위해 대량의 웹 뉴스 기사를 수집하고 키워드를 추출한 후 120개 구간을 갖는 시계열 데이터를 생성하였다. 제안한 모델의 성능 평가를 위한 테스트 셋을 구축하기 위해, 440개의 주요 키워드를 8종의 추세 유형에 따라 수작업으로 범주를 부여하였다. 본 연구에서는 시계열 분석에 널리 활용되는 동적 시간 와핑(DTW) 기법을 기반으로, 추세의 경향성을 잘 보여주는 이동평균(MA) 기법을 DTW에 추가 적용한 응용 모델인 MA-DTW를 제안하였다, 자동 분류 성능 평가를 위해 k-최근접 이웃(kNN) 알고리즘을 적용한 결과, ED와 DTW가 각각 마이크로 평균 F1 기준 48.2%와 66.6%의 최고 점수를 보인 데 비해, 제안 모델은 최고 74.3%의 식별 성능을 보여주었다. 종합 성능 평가를 통해 측정된 모든 지표에서, 제안 모델이 기존의 ED와 DTW에 비해 우수한 성능을 보임을 확인하였다.

멀티 모달 음악 무드 분류 기법 (Multi-Modal Scheme for Music Mood Classification)

  • 최홍구;전상훈;황인준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.259-262
    • /
    • 2011
  • 최근 들어 소리의 세기나 하모니, 템포, 리듬 등의 다양한 음악 신호 특성을 기반으로 한 음악 무드 분류에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 음악 무드 분류의 정확도를 높이기 위하여 음악 신호 특성과 더불어 노래 가사와 소셜 네트워크 상에서의 사용자 평가 등을 함께 고려하는 멀티 모달 음악 무드 분류 기법을 제안한다. 이를 위해, 우선 음악 신호 특성에 대해 퍼지 추론 기반의 음악 무드 추출 기법을 적용하여 다수의 가능한 음악 무드를 추출한다. 다음으로 음악 가사에 대해 TF-IDF 기법을 적용하여 대표 감정 키워드를 추출하고 학습시킨 가사 무드 분류기를 사용하여 가사 음악 무드를 추출한다. 마지막으로 소셜 네트워크 상에서의 사용자 태그 등 사용자 피드백을 통한 음악 무드를 추출한다. 특정 음악에 대해 이러한 다양한 경로를 통한 음악 무드를 교차 분석하여 최종적으로 음악 무드를 결정한다. 음악 분류를 기반한 자동 음악 추천을 수행하는 사용자 만족도 평가 실험을 통해서 제안하는 기법의 효율성을 검증한다.

무안경식 3D 디스플레이를 위한 자동 스테레오 정합 (Automatic Stereo Matching for Auto-stereoscopic 3D display)

  • 최호열;박지호;김용환
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.140-141
    • /
    • 2012
  • 최근 영상분야의 키워드는 초고품질화, 초실감화, 스마트화로 대표될 수 있다. 그 중에서도 무안경식 3D는 초실감화를 이루기 위한 핵심응용분야 중 하나이다. 하지만 무안경식 3D 단말기가 성공적으로 보급되기 위해서는 연구되어야 할 분야가 여전히 존재한다. 그 중에서도 본 논문에서는 고화질의 무안경식 3D 스마트 콘텐츠 제작에 필요한 자동 스테레오 정합 기법을 제안하였다. 이전까지 연구된 변이지도 추출을 위한 알고리즘은 전역적 최적화 방법을 사용할 시 영상의 해상도와 깊이 정도에 따른 연산량의 증가로 많은 수행시간이 요구되었다. 또한 좌/우 영상의 intensity 정보만으로는 정확한 변이지도 추출이 어렵다는 한계점이 존재하였다. 이러한 이유로 본 논문에서는 스트림 영상에서 프레임 간의 정보를 이용하여 신뢰지도와 경계정보를 생성하였으며 belief propagation 스테레오 정합 방법을 이용하여 고화질의 정확한 변이지도를 추출하였다. 또한, 알고리즘의 연산량에 대한 문제를 해결하기 위한 고속화 방안으로, 최근 많은 연구가 이루어지고 있는 GPU(graphics processing units) 를 이용한 병렬처리를 연구하였다. 마지막으로 연구결과의 신뢰성을 향상하기 위하여 다양한 데이터를 이용한 실험을 통해 고화질의 영상정보를 고속으로 추출할 수 있음을 확인하였다.

  • PDF

한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX (A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX)

  • 김남철;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

온톨로지 기반의 웹 문서 자동 주제 식별 (Automatic Topic Identification Based on the Ontology for Web Documents)

  • 최인대;남인길;부기동
    • 한국산업정보학회논문지
    • /
    • 제9권3호
    • /
    • pp.38-45
    • /
    • 2004
  • 본 연구의 목적은 온톨로지 계층구조에 정의된 키워드들 간의 연관성을 참조함으로써 주어진 텍스트의 주제를 식별할 수 있는 방법을 개발하는 것이다. 텍스트의 중요한 문장들로부터 추출된 키워드들은 계층구조에 존재하는 개념들에 사상된다. 모든 단어가 사상되면, 대응되는 개념들은 한 개의 단일 개념으로 일반화 되며, 그 단일 개념이 텍스트의 주제가 된다. 본 연구는 온톨로지와 단어 빈도를 사용해서 신뢰성과 정확도를 향상시키기 위한 지식 베이스와 통계적 접근을 병행한 하이브리드 방식의 접근 방식으로서 성능을 향상시켰다. 실험 결과 제안한 방법이 기존의 지식 베이스만을 사용한 방법보다 성능이 우수함을 보였다.

  • PDF

난이도 자동제어가 구현된 객관식 문항 생성 시스템 (A Sentence Generation System for Multiple Choice Test with Automatic Control of Difficulty Degree)

  • 김용범;김유섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.1404-1407
    • /
    • 2007
  • 본 논문에서는 객관식 문항을 난이도에 따라 자동으로 생성하는 방법을 고안하여, 학습자 수준에 적합하도록 다양하고 동적인 형태로 문항 제시를 할 수 있는 시스템을 제안하였다. 이를 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드에 대하여 워드넷의 계층적 특성에 따라 의미가 유사한 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 워드넷에서의 어휘간 유사도 측정 방법을 사용함으로써 생성된 문항의 난이도를 사용자가 원하는 수준으로 조정할 수 있도록 하였다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도를 찾을 수 없는 수준 9 까지 다양하게 제시할 수 있으며, 이를 조절함으로써 문항의 전체 난이도를 조절할 수 있다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 워드넷에서 차지하는 비중까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 보다 다양한 내용과 난이도를 가진 문제 또는 문항을 보다 쉽게 출제하게 함으로써 출제에 소요되는 비용을 줄일 수 있었다.

단어 빈도 가중치를 이용한 자동 문서 분류 (Automatic Document Classification Based on Word Frequency Weight)

  • 노현아;김민수;김수형;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.581-584
    • /
    • 2002
  • 본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

  • PDF

검색결과의 브라우징을 위한 계층적 클러스터링 (A Hierarchical Clustering for Browsing Retrieval Results)

  • 윤보현;김현기;노대식;강현규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.342-344
    • /
    • 2000
  • 대부분 웹 검색엔진들의 검색결과로 수십 혹은 수백만건의 문서가 제시되어 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 검색 결과의 브라우징을 위한 검색 결과 문서에 대한 자동 클러스터링 방법을 제안한다. 문서간 유사도를 계산하기 위해 공통 키워드 빈도를 이용하고, 클러스터링 방법은 계층적 클러스터링을 사용하고, 각 클러스터에 대한 디스트립터를 추출하기 위해 빈도를 이용한다. 실험 결과, 완전 연결 방법이 가장 나은 정확도를 보였지만 계산시간이 많이 소요되어 동적 환경에 부적합하다는 것을 보였다. 아울러 집단 평균 연결이 정확도나 계산 시간 측면에서 우수함을 알수 있었다.

  • PDF

GLCM을 이용한 다중 베르누이 확률 변수 기반 자동 영상 동적 키워드 추출 방법 (Automatically Dynamic Image Annotation Method Based on Multiple Bernoulli Relevance Models Using GLCM Feature)

  • 박태준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.335-336
    • /
    • 2009
  • In this paper, I propose an automatic approach to annotating images dynamically based on MBRM(Multiple Bernoulli Relevance Models) using GLCM(Grey Level Co-occurrence Matrix). MBRM is more appropriate to annotate images compare with multinomial distribution. The model is used in limited test set, MSRC-v2 (Microsoft Research Cambridge Image Database). The results show that this model is significantly outperforms previously reported results on the task of image annotation and retrieval.

자연어처리를 이용한 교육행정의 질의응답시스템 (Quest ion and Answer ing System of Educational Administration Using Natural Language Processing)

  • 이미나;윤성대
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.805-807
    • /
    • 2005
  • 정보통신 기술의 발달로 일반기업체 뿐만 아니라 공공기관 등 행정업무가 필요한 곳에서는 대부분 웹사이트를 통해 사용자에게 원하는 정보를 제공해 주고 있다. 그러므로 대부분의 상업용 사이트들은 사용자에게 보다 편리하게 정보를 제공해 주기 위하여 다양한 정보검색의 접근 방법을 사용하고 있다. 그러나 현재 교육행정의 업무처리 분야에서 정보제공은 웹사이트의 단순 키워드검색을 통하여 사용자가 직접 정보를 찾는 방식으로 이루어지고 있다. 본 논문에서는 자연어처리를 사용한 교육행정의 질의응답시스템을 제안한다. 사용자 질의의 의도를 분석하여 기본사전과 매칭한 후에 추출된 사용자 질의정보를 통해 자동으로 정답 데이터뷰를 생성하여 사용자 의도에 알맞는 정확한 정답을 제공하도록 하였다. 또한 동적인 FAQ 관리기능인 히스토리를 통해서 한번 질의한 정답을 신속히 제공하도록 하였다. 제안한 시스템의 효용성을 검증하기 위해 교육행정정보를 제공하는 간단한 질의응답시스템을 구현하여 적용해본 결과 일반 키워드 검색에서보다 정확하게 정답을 제공해 주는 것을 확인할 수 있었다.

  • PDF