• 제목/요약/키워드: Text mining analysis

검색결과 1,187건 처리시간 0.029초

사용자 관심 이슈 분석을 통한 추천시스템 성능 향상 방안 (Improving Performance of Recommendation Systems Using Topic Modeling)

  • 최성이;현윤진;김남규
    • 지능정보연구
    • /
    • 제21권3호
    • /
    • pp.101-116
    • /
    • 2015
  • 많은 기관들이 데이터에 기반을 둔 의사결정을 수행해 왔으며, 특히 수치자료를 비롯한 정형 데이터가 이러한 목적으로 널리 활용되어 왔다. 하지만 최근에는 스마트기기와 소셜미디어의 발달로 인해 다양한 형태를 가진 방대한 양의 정보가 생성, 공유, 저장되면서, 전통적인 정형 데이터 기반 의사결정으로부터 비정형 빅데이터 기반 의사결정으로 관심의 전환이 이루어지고 있다. 데이터 기반 의사결정의 대표적 분야인 추천시스템 분야에서도 성능 향상을 위해 비정형 데이터를 활용해야 한다는 필요성이 최근 꾸준히 제기되고 있다. 특히 사용자의 성향이나 선호도는 고객의 니즈와 직결되기 때문에, 비정형 데이터 분석을 통해 사용자의 성향을 파악하고 이를 통해 상품 추천 및 구매 예측의 정확도를 향상시키기 위한 노력이 매우 시급하게 이루어질 필요가 있다. 따라서 본 연구에서는 사용자의 성향을 측정하여 재구매 예측 정확도, 특히 카테고리별 재구매 예측 정확도를 높임으로써, 궁극적으로 추천시스템의 성능을 향상시킬 수 있는 방안을 제시한다. 구체적으로는 사용자의 일상적인 인터넷 사용 기록을 분석하여 고객이 조회하는 뉴스 기사의 이슈를 식별하고 다양한 이슈에 대한 고객의 관심을 계량화한 후, 이를 활용하여 고객의 카테고리별 재구매 여부를 예측하는 모델을 제안하고자 한다. 실제 웹 트랜잭션으로부터 도출된 인터넷 뉴스 조회 기록 및 쇼핑몰 구매 기록을 대상으로 실험을 수행한 결과, 고객의 과거 구매이력만을 활용한 카테고리 재구매 예측 모형에 비해 본 연구에서 제안한 모형, 즉 고객의 과거 구매이력과 관심 이슈를 모두 활용한 예측 모형의 정확도가 다소 우수한 것으로 나타났다.

온라인 언급이 기업 성과에 미치는 영향 분석 : 뉴스 감성분석을 통한 기업별 주가 예측 (Influence analysis of Internet buzz to corporate performance : Individual stock price prediction using sentiment analysis of online news)

  • 정지선;김동성;김종우
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.37-51
    • /
    • 2015
  • 인터넷 기술의 발전과 인터넷 상 데이터의 급속한 증가로 인해 데이터의 활용 목적에 적합한 분석방안 연구들이 활발히 진행되고 있다. 최근에는 텍스트 마이닝 기법의 활용에 대한 연구들이 이루어지고 있으며, 특히 문서 내 텍스트를 기반으로 문장이나 어휘의 긍정, 부정과 같은 극성 분포에 따라 의견을 스코어링(scoring)하는 감성분석과 관련된 연구들도 다수 이루어지고 있다. 이러한 연구의 연장선상에서, 본 연구는 인터넷 상의 특정 기업에 대한 뉴스 데이터를 수집하여 이들의 감성분석을 실시함으로써 주가의 등락에 대한 예측을 시도하였다. 개별 기업의 뉴스 정보는 해당 기업의 주가에 영향을 미치는 요인으로, 적절한 데이터 분석을 통해 주가 변동 예측에 유용하게 활용될 수 있을 것으로 기대된다. 따라서 본 연구에서는 개별 기업의 온라인 뉴스 데이터에 대한 감성분석을 바탕으로 개별 기업의 주가 변화 예측을 꾀하였다. 이를 위해, KOSPI200의 상위 종목들을 분석 대상으로 선정하여 국내 대표적 검색 포털 서비스인 네이버에서 약 2년간 발생된 개별 기업의 뉴스 데이터를 수집 분석하였다. 기업별 경영 활동 영역에 따라 기업 온라인 뉴스에 나타나는 어휘의 상이함을 고려하여 각 개별 기업의 어휘사전을 구축하여 분석에 활용함으로써 감성분석의 성능 향상을 도모하였다. 분석결과, 기업별 일간 주가 등락여부에 대한 예측 정확도는 상이했으며 평균적으로 약 56%의 예측률을 보였다. 산업 구분에 따른 주가 예측 정확도를 통하여 '에너지/화학', '생활소비재', '경기소비재'의 산업군이 상대적으로 높은 주가 예측 정확도를 보임을 확인하였으며, '정보기술'과 '조선/운송' 산업군은 주가 예측 정확도가 낮은 것으로 확인되었다. 본 논문은 온라인 뉴스 정보를 활용한 기업의 어휘사전 구축을 통해 개별 기업의 주가 등락 예측에 대한 분석을 수행하였으며, 향후 감성사전 구축 시 불필요한 어휘가 추가되는 문제점을 보완한 연구 수행을 통하여 주가 예측 정확도를 높이는 방안을 모색할 수 있을 것이다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.

한.일 고등학교 세계지리 교과서 내용 비교 분석 -국제이해교육의 관련 내용을 중심으로- (Comparative Analysis of Korean and Japanese Textbooks on World Geography: Focused on the Contents of Global Education)

  • 양원택
    • 한국지역지리학회지
    • /
    • 제2권2호
    • /
    • pp.75-92
    • /
    • 1996
  • 본 연구는 국제이해교육에 대한 이론적 바탕을 제공하고, 또 현재 한 일 고등학교에서 쓰이고 있는 세계지리 교과서의 국제이해 관련 내용을 2개의 중심주제, 6개의 소주제, 20개의 중심개념의 교과서 분석틀로 나누어 비중도 분석을 실시하여, 학생들이 사용하고 있는 세계지리 교과서가 국제 이해교육을 위해 효율적으로 구성되어 있고 그 내용이 적절한지 개괄적으로 살펴봄으로서 앞으로 한 일 고등학교 세계지리 교과서의 구성 및 내용체계가 어떠한 방향으로 나아가야 할 것인가를 제시하고자 한 연구이다. 한국의 6차 교육과정에 의한 세계지리 교과서와 일본의 6차 개정에 의한 세계지리 교과서를 비교 분석한 결과에 의하면, 중심주제인 상호의존의 영역에서는 양국이 거의 비슷한 비중을 보였으며, 상존(常存)문제의 영역인 인권, 인구, 자원문제에 있어서는 상당한 비중 차이를 보였는데 이는 한국과 일본의 교육과점의 차이로 볼 수 있다. 즉 한국의 경우 단원별로 계통지리적 방법과 지지적(地誌的) 방법을 별도로 채택만 반면 일본의 경우는 계통지리적 방법과 지지적(地誌的) 방법과의 상호보완 관계로 채택함으로서 취급된 지역에 대해서는 다면적으로 고찰시키도록 하고 있다. 따라서 한국 세계지리 교과서는 다양한 지역을 이해시키기 위한 구성 및 내용체계를 보이는 반면 일본 세계지리 교과서는 소수의 지역이지만 계통적 주제별로 자세하게 그 지역을 이해시키기 위한 구성 및 내용체계를 보이고 있음을 알 수 있다. 결론적으로, 국제이해교육을 위한 향후 양국의 지리 교과서는 본 연구자가 제시한 바 있는 국제이해교육의 기본적 틀에 맞추어 구성해 가는 것과 내용면에 있어서도 한국의 경우는 단편 지식위주의 서술에서 탈피해야 할 것이며, 일본의 경우는 6차 개정에서 많은 진전을 엿볼 수 있지만 자국위주 및 자국우월주의적 서술로부터의 탈피가 필요하다고 생각한다.

  • PDF

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 방법론 (Mapping Categories of Heterogeneous Sources Using Text Analytics)

  • 김다솜;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.193-215
    • /
    • 2016
  • 최근 다양한 소셜 네트워크 서비스의 증가로 인해 사용자들은 각자의 목적 및 취향에 따라 여러 매체를 동시에 이용하는 경향을 보이고 있다. 또한 특정 주제에 대한 정보를 수집할 때에도 소셜 네트워크 서비스, 인터넷 뉴스, 블로그 등 여러 매체를 동시에 활용하는 것이 일반적이다. 하지만 다양한 매체를 통해 유통되는 문서들은 서로 유사한 주제, 심지어는 동일한 내용을 다루더라도 각 매체 별 정책 및 기준에 따라 각기 다른 카테고리로 관리되고 있으며, 이는 이종 매체를 아우르는 범위에서 특정 카테고리에 대한 탐색을 수행하고자 하는 시도에 걸림돌로 작용하고 있다. 이러한 제약을 극복하기 위해, 본 연구에서는 기존 매체 고유의 카테고리 체계는 그대로 유지하면서 이종 매체 간 카테고리 매핑을 수행하는 방법을 제시한다. 즉, 개별 문서를 다양한 매체의 관점에서 재분류하고 이러한 결과를 문서에 2차원 레이블로 저장함으로써, 이종 매체에 속한 다양한 문서들을 마치한 매체에 속한 것과 같이 동일한 카테고리 기준으로 탐색할 수 있는 논리적 장치를 제안한다. 본 논문에서는 국내 인터넷 뉴스 포털 사이트 두 곳의 뉴스 기사 6,000건에 대해 제안 방법론을 적용한 실험을 통해 각 기사에 매체와 카테고리 정보로 구성된 2차원 레이블을 부여하였으며, 매체 간, 지도 학습과 준지도 학습 간, 동질 학습 데이터와 이질학습 데이터 간의 정확도 비교 실험을 수행하였다. 특히 매우 흥미롭게도, 일부 카테고리에서 이질 학습 데이터를 사용한 준지도 학습의 분류 정확도가 지도 학습 및 동질 학습 데이터를 사용한 준지도 학습의 분류 정확도보다 높게 나타나는 현상을 발견하였다.

중학교 가정(기술·가정)교과 식생활 영역의 핵심 교육내용 분석 - 제1차 교육과정부터 2009개정 교육과정의 교과서 내용을 중심으로 - (Content Analysis of Food and Nutrition unit in Middle School Textbooks of Home Economics - Focus on the National Curriculums from 1st to 2009 revised)

  • 장윤미;김유경
    • 한국가정과교육학회지
    • /
    • 제30권4호
    • /
    • pp.93-112
    • /
    • 2018
  • 제1차부터 2009개정 교육과정까지 교육과정의 변천에 따른 식생활 영역의 변화를 살펴보기 위하여 핵심 교육 내용, 내용 특성, 식생활 영역의 비중을 분석하였다. 텍스트 마이닝 기법을 이용한 워드 크라우드 분석을 통하여 가정교과서 40권에 기술된 식생활 영역의 내용으로부터 핵심단어를 추출하였고, 식생활 영역의 비중은 전체 가정교과서에서 식생활 영역에 해당하는 면수의 비율로 계산하였다. 전 교육과정에 걸쳐 가장 많이 등장하는 주요 핵심단어는 '식품'·'음식'·'식사'였다. 제1, 2차 교육과정에서는 식재료와 조미료, 식품에 함유된 '비타민', '단백질' 등의 영양소가 주요 핵심단어로 추출되었고, 제3차 교육과정부터 '영양'·'섭취'·'필요' 제6차 교육 과정에서 '분량', 제7차 교육과정부터 '식단'·'청소년' 등이 핵심단어로 등장했다. 식생활 영역이 가정교과에서 차지하는 비중은 평균 24.3%였으며, 제6차(29.7%) 및 제7차(31.8%) 교육과정에서 가장 높았고 2009개정 교육과정에서는 15.2%로 크게 감소했다. 아울러 식생활 영역의 구성을 살펴보면 제2차와 3차 교육과정에서 10개를 상회하던 식생활영역의 중영역의 수가 2009개정 교육과정에서는 중영역이 없어지고 소영역 2개로 축소되었다. 1차부터 2009개정 교육과정까지 식생활영역의 교육내용은 점진적으로 구체화되고 시대적 요구와 변화를 반영하고 있었다. 다만 2009개정 교육과정에서 식생활 영역의 비중이 대폭 축소되면서 교과서에 관련내용에 대한 정보와 설명이 부족하여 식생활 교육에 대한 질적 저하가 우려된다.

소셜미디어 분석을 통한 삭카린나트륨 소비자 인식 조사 (Consumers Perceptions on Sodium Saccharin in Social Media)

  • 이수연;이원성;문일철;권훈정
    • 한국식품위생안전성학회지
    • /
    • 제30권4호
    • /
    • pp.329-342
    • /
    • 2015
  • 본 연구에서는 소셜미디어 콘텐츠를 소프트웨어 시스템을 이용하거나 정성적으로 분석함으로써 삭카린나트륨에 대한 소비자 인식도를 조사하고자 하였다. 첫 번째로, 1년(2013.7~2014.6)의 기간 동안 네이버와 카페에서 작성된 글들을 수집하였으며, 수집된 글들은 무료 텍스트 분석 소프트웨어인 TONK를 사용하여 분석되었다. 블로그와 카페에서 작성된 글들은 주로 삭카린나트륨을 사용하지 않은 제품에 대한 것으로 파악되었으며, 기타 높은 단맛과 낮은 열량을 보이는 삭카린나트륨의 특성, 식품첨가물 제거법에 대한 내용이 있는 것으로 파악되었다. 두 번째로, 네이버 트렌드 검색 서비스를 이용하여 삭카린나트륨에 대한 검색량 증가 구간에 발생한 언론보도 사건을 조사하였다. PC 검색량의 경우 총 11개 증가 구간 중 6개의 구간에서, 모바일 검색량의 총 12개 증가 구간 중 8개의 구간에서 뉴스에서 삭카린나트륨 사용허용 품목 확대에 대해 보도한 것으로 나타났다. 세 번째로 식품의약품안전처의 삭카린나트륨 사용 허용품목 확대 발표를 보도한 연합뉴스의 댓글을 분석하였다. 공감수 100개 이상인 댓글의 내용을 분석 결과 정부 불신을 비판하는 댓글들이 가장 많았으며, 그 외 관련 제품의 가격 비판 댓글과 기업 불신을 드러내는 댓글들이 파악되었다. 시판 제품들의 표시사항 분석 결과, 삭카린나트륨을 첨가하지 않은 제품들은 삭카린나트륨 무첨가라는 표시를 강조하고 있는 것으로 조사되었다. 본 연구 결과 소비자들은 삭카린나트륨의 사용 확대에 관심이 있으며, 사용 확대 보도시에 검색량이 증가하였다. 따라서, 매체들은 삭카린나트륨 사용 확대에 관하여 보도를 할 때에 과학적인 근거에 바탕하여 확대배경이나 적정 섭취량 등을 함께 알리는 것이 소비자의 올바른 인식에 도움을 줄 것이다.

토픽 모델링을 이용한 핀테크 기술 동향 분석 (A Study on the Research Trends in Fintech using Topic Modeling)

  • 김태경;최회련;이홍철
    • 한국산학기술학회논문지
    • /
    • 제17권11호
    • /
    • pp.670-681
    • /
    • 2016
  • 최근 인터넷과 모바일 환경을 기반으로 금융과 IT가 융합된 핀테크(Fintech) 산업이 급속히 성장하고 있으며 간편성, 편리성 등으로 무장한 핀테크 서비스는 모든 금융서비스의 온라인 모바일 화를 주도하고 있다. 그러나 핀테크 산업의 급격한 성장에도 불구하고, 핀테크 기술에 대한 세부기술 분류와 주요 시장국의 기술개발 동향을 분석하고 기술기획을 지원하기 위한 연구는 매우 미흡한 실정이다. 이에 본 연구는 핀테크 기술의 비정형 데이터 형태의 특허 데이터를 이용하여 토픽모델링 기법을 통해, 핀테크 세부 기술을 추출하고 정의한다. 도출된 핀테크 세부 기술에 대해 Hot&Cold topic 을 파악하여 핀테크 기술의 트렌드를 파악한다. 또한 핀테크 산업의 주요 기술에 대한 주요 시장국인 미국, 한국, 중국의 기술개발 동향을 각각 분석한다. 마지막으로 핀테크 세부 기술 간 네트워크 분석을 통해 기술 간의 연계 관계를 살펴본다. 본 연구를 통해 파악된 핀테크 산업 기술 동향은 핀테크 산업분야의 정책 수립과 핀테크 관련 기업의 기술 전략 수립에 효과적으로 활용될 수 있을 것으로 기대된다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.