• 제목/요약/키워드: Text mining analysis

검색결과 1,198건 처리시간 0.028초

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

셀슈머(Sell-sumer)로 진화한 인플루언서의 새로운 유형과 소셜미디어에서의 세일즈 전략 (Sell-sumer: The New Typology of Influencers and Sales Strategy in Social Media)

  • 신하진;김수림;홍만의;황봄님;양희동
    • 지식경영연구
    • /
    • 제22권4호
    • /
    • pp.217-235
    • /
    • 2021
  • 전 세계 인구의 49%가 소셜미디어 플랫폼을 사용하면서 소셜미디어 내에서의 소통과 콘텐츠 공유가 그 어느때보다 활발해지고 있다. 이러한 환경 속에서 1인미디어 시장이 빠른 속도로 성장하고 여론을 형성하면서 셀슈머(Sell-summer)라는 새로운 트렌드가 등장했다. 본 연구는 인플루언서의 상업적/비상업적 키워드의 주제 집중도와 상업적 포스팅의 비율이 매출에 미치는 영향 분석하여 제품 카테고리별 인플루언서의 새로운 유형을 정의하였다. 이는 소셜미디어 내에서 활동하는 인플루언서가 셀슈머로 변모하며 구사하는 새로운 세일즈 전략에 도움이 될 것으로 희망한다. 본 연구의 방법은 파이썬 환경에서 인플루언서의 상업적/비상업적 포스팅으로 분류하고, 이를 KoNLPy를 이용하여 텍스트 마이닝 한 후 FastText 기반 단어 간의 유사도를 계산하였다. 그 결과, 인플루언서의 상업적 포스팅의 키워드 주제 집중도가 높을수록(narrow) 매출이 높아진다는 것을 확인하였다. 또한, 군집분석을 통해 제품 카테고리별 인플루언서 유형을 4가지로 분류하고 매출에 따른 집단 간의 차이가 유의함을 확인하였다. 즉, 본 연구의 시사점은 소셜미디어에서 활동하는 인플루언서들과 이를 마케팅 도구로 활용하고자 하는 마케터들에게 소셜미디어 세일즈 전략의 실증적인 해법을 제시할 수 있을 것이다.

설명가능한 그래프 신경망을 활용한 리뷰 콘텐츠 기반의 유용성 예측모형 (The Prediction of the Helpfulness of Online Review Based on Review Content Using an Explainable Graph Neural Network)

  • 김은미;야오즈옌;홍태호
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.309-323
    • /
    • 2023
  • 온라인 리뷰의 역할이 중요해짐에 따라 유용한 리뷰를 선별하기 위해 많은 연구들이 이루어져 왔다. 유용한 리뷰는 고객들이 유용하다고 인지하는 리뷰이며, 평점, 리뷰길이, 리뷰내용 등에 영향을 받는 것으로 많은 연구에서 검증되었다. 유용한 리뷰는 소비자들의 투표에 의한 '좋아요' 수에 의해 결정되며 유용성 투표가 많을수록 소비자의 구매의사결정에 중요한 영향을 미치는 것으로 간주된다. 그러나 최근에 작성되어 많은 고객들에게 노출되지 않은 리뷰는 상대적으로 '좋아요' 수가 적을 수 있으며, 투표에 응하지 않아 '좋아요' 수가 없을 수도 있다. 따라서 유용한 리뷰를 판단하기 위해 '좋아요' 수에 의존하기 보다는 리뷰 내용을 기반으로 유용한 리뷰를 분류하고자 한다. 리뷰의 텍스트는 리뷰 유용성에 가장 큰 영향을 미치는 요인으로, 토픽 모델링, 감정분석 등 텍스트 마이닝 기법을 적용하여 리뷰 텍스트에 포함된 콘텐츠와 감정의 영향을 다양하게 분석하고 있다. 본 연구에서는 글로벌 영화정보 사이트인 IMDb의 영화리뷰를 활용하여 리뷰 콘텐츠 기반의 리뷰 유용성 예측모형을 제안한다. 설명가능한 그래프 신경망인 GNN(Graph Neural Network)을 적용하여 리뷰 유용성 예측모형을 구축하고, 설명가능한 인공지능을 통해 예측모형의 한계인 모형의 해석에 대한 문제를 해결한다. 설명가능한 그래프 신경망은 리뷰들 간의 연결관계도 확인할 수 있어 유용한 리뷰 또는 유용하지 않은 리뷰에 대해 보다 신뢰할 수 있는 정보를 제공할 수 있을 것이라 기대한다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.

소셜 미디어 데이터 분석을 활용한 빅데이터에 대한 인식 변화 비교 분석 (A Comparative Analysis of Cognitive Change about Big Data Using Social Media Data Analysis)

  • 윤유동;조재춘;허윤아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권7호
    • /
    • pp.371-378
    • /
    • 2017
  • 최근 모바일의 확산과 웹 서비스의 도입으로 온라인 상에 데이터가 급격히 증가하게 되어 다양한 분야에서 활용되고 있다. 특히, 빅데이터 분야에서 소셜 미디어의 등장은 축적되는 비정형 데이터의 양이 급격하게 증가하는 계기가 되었다. 이러한 비정형 데이터로부터 의미 있는 정보를 추출하기 위해 다양한 분야에서 빅데이터 기술에 대한 관심이 증가하고 있다. 빅데이터는 선진국을 중심으로 다양한 분야에서 핵심 자원으로서 중요성이 부각되고 있다. 그러나 빅데이터의 긍정적인 미래 전망과 함께 데이터의 침해 및 개인정보 보호에 대한 우려가 지속적으로 언급되고 있다. 이와 같이 긍정적인 시각과 부정적인 시각이 공존하는 빅데이터에 대해 사람들의 의견을 분석하는 연구는 현재 매우 부족한 상황이다. 이에 본 연구에서는 텍스트 마이닝을 활용하여 소셜 미디어에서 수집한 비정형 데이터를 기반으로 빅데이터에 대한 사람들의 인식 변화를 비교하였다. 텍스트 마이닝 결과, 국내 빅데이터에 대한 연도별 키워드와 함께 시간의 흐름에 따라 감소하는 긍정적인 의견과 증가하는 부정적인 의견이 관찰되었다. 그리고 이러한 분석 결과를 기반으로 국내 빅데이터에 대한 흐름을 예측할 수 있었다.

편향된 의견 문서 검출을 위한 이상치 탐지 기법 (Outlier Detection Techniques for Biased Opinion Discovery)

  • 연종흠;심준호;이상구
    • 한국전자거래학회지
    • /
    • 제18권4호
    • /
    • pp.315-326
    • /
    • 2013
  • 소셜 미디어에서는 상품평, 영화평 등의 다양한 종류의 의견이 표현되고 있으며, 사용자들이 물품 구매 등에 있어 이러한 의견을 참고로 하여 결정을 내리는 것은 일반적이 되었다. 하지만 의견 정보의 활용도가 높아질수록 이를 부적절하게 왜곡하는 사례 또한 증가하고 있다. 예를 들어, 홍보를 목적으로 과도하게 긍정적인 의견이 포함된 리뷰를 작성하거나, 반대로 일반적인 평가에서 벗어나 과도하게 부정적인 의견을 게시하는 경우 등이다. 편향된 의견은 소셜 미디어의 신뢰성과 연결 되기 때문에 이를 검출하는 것은 점차 중요한 문제로 대두되고 있다. 기존의 오피니언 마이닝 혹은 감성 분석은 문서를 분석하여 그 문서가 가지고 있는 의견의 성향을 판단하는 기법이다. 하지만 기존의 연구는 의견을 단순히 긍정/부정으로만 분류하는 방향으로 연구가 이루어져 왔으며, 특히 사전에 의견 성향에 따라 분류된 충분한 양의 학습 데이터가 필요하다는 단점이 있다. 본 논문에서는 학습데이터가 없는 경우에, 전체 문서의 의견 성향 분포에서 벗어난 의견 문서를 검출하는 기법을 제안한다. 여기에는 각도기반 이상치 탐지와, 개인화된 페이지랭크 방법을 활용한다. 또한 영화 리뷰 문서를 대상으로 실험을 수행하여 제안한 방법들의 성능을 분석하였다.

빅데이터 기법을 통한 기업 문화마케팅을 위한 문화소비자의 가치 요소 연구 (A Study on the Value Factors of Culture Consumers for Corporate Culture Marketing through Big Data Techniques)

  • 오세종
    • 문화기술의 융합
    • /
    • 제6권1호
    • /
    • pp.31-36
    • /
    • 2020
  • 기업 문화마케팅은 기업의 문화적 이미지를 제고하거나 문화를 통해 기업의 이미지를 전달하는 마케팅 수단이다. 문화소비자 가치 분석은 개인의 소비 행동에 담긴 삶의 가치 및 추구를 확인하고, 문화소비자의 선택 행동을 설명하는데 중요한 예측 데이터이며, 의사결정의 기준이 된다. 연구 방법은 빅데이터의 텍스트 마이닝과 오피니언 마이닝 기법으로 연관어, 긍정어, 부정어, 중립어를 추출했다. 분석 대상은 국내 소비자 대상인 현대카드 '슈퍼콘서트'와 해외 소비자 대상인 CJ ENM 'KCON'에서 콘서트를 참여하는 문화소비자들이다. 기업 문화마케팅의 문화소비자 가치 요소에서 '가치 일치성'은 기본 조건이며, '공감대 소통(감수성 표현)', '참여성 공유(VIP 소속감)', '사회적 변화 이슈', '서비스의 차별화', '가격 할인 혜택', '장소의 품격'으로 도출되었다. 앞으로 예술경영 기획, 문화 투자, 문화 유통, 복합문화공간 운영, 기업문화, CSR, Kpop 마케팅, 체험마케팅 등의 소비자 참여 분야에서 기업의 이익 추구와 브랜드 가치 제고를 할 수 있는 '문화기술마케터' 양성과 실무적인 적용 방법이 필요하겠다.

텍스트 마이닝을 활용한 융합인재교육정책 동향 분석 -2009년~2020년 교육부보도, 언론보도, 학술지 초록 비교분석- (Analysis of Trends in Education Policy of STEAM Using Text Mining: Comparative Analysis of Ministry of Education's Documents, Articles, and Abstract of Researches from 2009 to 2020)

  • 유정민;김성원
    • 한국과학교육학회지
    • /
    • 제41권6호
    • /
    • pp.455-470
    • /
    • 2021
  • 본 연구는 2009년부터 2020년까지 융합인재교육과 관련된 교육부 보도자료, 언론보도, 학술지 초록을 수집 및 비교 분석하여 키워드 및 주제의 변화 흐름을 정책단계별로 살피고 향후 융합인재교육의 발전 방향과 그 교육적 시사점을 도출하고자 하였다. 교육부 보도자료는 교육부 홈페이지의 뉴스홍보란, 언론보도는 한국언론재단의 빅카인즈, 학술지 초록은 학술연구정보서비스(RISS)에서 수집되었다. 수집된 자료 중 교육부 보도자료는 42건, 언론보도는 1,534건, 학술지 초록은 880건이 연구대상으로 선정하였다. 파이썬 프로그램을 통해 융합인재교육정책단계별로 키워드 빈도분석, 키워드 네트워크분석, 토픽모델링을 수행하였다. 분석 결과, 융합인재교육정책단계에 따라 매체별로 융합인재교육과 관련된 키워드의 빈도와 네트워크에 차이가 나타났다. 매체별로 주로 사용하거나 중요하게 사용되는 키워드와 토픽에 차이가 나타나 융합인재교육정책에 대한 관심의 차이가 존재한다는 것을 확인하였다. 끝으로 교육부 보도자료의 토픽 대부분은 언론보도에서 도출된 토픽과 대응되는 것으로 나타났다. 이 연구의 결과를 통해 도출된 융합인재교육정책에 대한 시사점은 다음과 같다. 정책의제설정 시기부터 지금까지 다양한 주제와 연계하고 대상을 확대하여 변화하고 있는 융합인재교육은 인문학을 포함한 다양한 주제를 연계하는 방안에 대해 고려할 필요가 있다. 또한 매체별로 융합인재교육정책에 관한 관심의 차이가 존재하므로 이에 대한 이해를 통해 정책의 협력적인 발전 방향이 모색될 필요가 있다. 그리고 융합인재교육의 목표인 미래인재 양성을 위한 핵심역량 강화와 융합 소양에 대한 교육부의 지원과 언론의 융합인재교육에 대한 대중의 이해도를 높이기 위한 노력이 요구된다. 끝으로 융합인재교육정책의 평가 및 변동 과정에서 나타날 주제들에 대해 지속해서 분석할 필요가 있다.