• 제목/요약/키워드: Duplication Check

검색결과 12건 처리시간 0.015초

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

시계열 군집분석을 통한 디지털 음원의 순위 변화 패턴 분류 (Derivation of Digital Music's Ranking Change Through Time Series Clustering)

  • 유인진;박도형
    • 지능정보연구
    • /
    • 제26권3호
    • /
    • pp.171-191
    • /
    • 2020
  • 본 연구는 현대 사회에서 가장 가치 있는 문화자산이자 한류의 흐름에서 특히 중요한 위치를 차지하는 디지털 음악에 초점을 두었다. 디지털 음악에 대하여 공신력 있는 음원 차트인 '가온 차트'에 진입한 음원들의 73주간 순위 변화를 수집하였으며 유사한 특징을 가지는 패턴들로 분류하였다. 이후 각 순위 변화 패턴으로부터 주목할 만한 특징에 대한 설명적 분석을 수행하였다. 구체적으로 음원에 대한 신뢰도 이슈가 발생하기 이전 기간의 국내 발매된 디지털 음원들로 한정하여 시점을 일치시킨 후 시계열 군집분석을 통해 패턴을 도출하고자 하였다. 데이터 수집과 전처리를 통하여 742건의 중복되지 않는 음원들을 확보하였고, 시계열 순위 변화에 대한 시계열 군집분석 결과 16개의 패턴들이 도출되었다. 이후 도출된 패턴들을 기반으로 '스테디셀러'와 '원 히트 원더'의 두 가지 유형의 대표적인 패턴을 확인하였다. 나아가 두 패턴에 대하여 차트 내에서 음원의 생존 기간과 음원 순위에 관점에서 다섯 가지의 세분화된 패턴으로 분류하였다. 각 패턴들이 가지는 중요한 특징들은 다음과 같다. 원 히트 원더형 패턴에서 아티스트의 슈퍼스타 효과와 편승효과가 강하게 나타났으며, 소비자들의 디지털 음원 선택에 강한 영향을 미친다는 것을 확인하였다. 나아가 스테디셀러형 패턴을 통해서 매우 오랜시간 소비자들의 선택을 받는 음원들을 확인하였고, 소비자의 니즈를 관통하며 가장 많은 선택을 받는 음원들이 오히려 원 히트 원더형 패턴이 아니라 스테디셀러: 중기 패턴에 포진하고 있음을 확인하였다. 특히 주목할 만한 점은 스테디셀러형 패턴을 통해 기존의 패턴과는 상반되는 '차트 역주행' 현상을 확인했다는 것이다. 본 연구는 디지털 음원을 중심으로 상대적으로 소외되었던 분야인 시간의 흐름에 따른 음원의 순위 변화에 초점을 두었고, 음원의 흥행과 순위를 예측하는 것이 아니라 순위 변화의 패턴을 세분화함으로써 음원 연구에 대한 새로운 접근을 시도하였다는 점에서 의의가 있다.