• 제목/요약/키워드: social media mining

검색결과 239건 처리시간 0.023초

용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구 (Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers)

  • 정해강;김남규
    • 경영과정보연구
    • /
    • 제37권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.

Development of big data based Skin Care Information System SCIS for skin condition diagnosis and management

  • Kim, Hyung-Hoon;Cho, Jeong-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.137-147
    • /
    • 2022
  • 피부상태의 진단과 관리는 뷰티산업종사자와 화장품산업종사자에게 그 역할을 수행함에 있어서 매우 기초적이며 중요한 기능이다. 정확한 피부상태 진단과 관리를 위해서는 고객의 피부상태와 요구사항을 잘 파악하는 것이 필요하다. 본 논문에서는 피부상태 진단 및 관리를 위해 소셜미디어의 빅데이터를 사용하여 피부상태 진단 및 관리를 지원하는 빅데이터기반 피부관리정보시스템 SCIS를 개발하였다. 개발된 시스템을 사용하여 텍스트 정보 중심의 피부상태 진단과 관리를 위한 핵심 정보를 분석하고 추출할 수 있다. 본 논문에서 개발된 피부관리정보시스템 SCIS는 빅데이터 수집단계, 텍스트전처리단계, 이미지전처리단계, 텍스트단어분석단계로 구성되어 있다. SCIS는 피부진단 및 관리에 필요한 빅데이터를 수집하고, 텍스트 정보를 대상으로 핵심단어의 단순빈도분석, 상대빈도분석, 동시출현분석, 상관성분석을 통해 핵심단어 및 주제를 추출하였다. 또한 추출된 핵심단어 및 정보를 분석하고 산포도, NetworkX, t-SNE 및 클러스터링 등의 다양한 시각화 처리를 함으로써 피부상태 진단 및 관리에 있어 이를 효율적으로 사용할 수 있도록 하였다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

오피니언 마이닝과 네트워크 분석을 활용한 상품 커뮤니티 분석: 영화 흥행성과 예측 사례 (Product Community Analysis Using Opinion Mining and Network Analysis: Movie Performance Prediction Case)

  • 진위;김정수;김종우
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.49-65
    • /
    • 2014
  • 구전(WOM: Word of Mouth)는 주변 사람들에게 상품에 대한 경험을 입에서 입으로 전달하는 현상을 말하며 소셜 미디어의 발전으로 온라인 구전(eWOM: Electronic Word of Mouth) 형태로 발전하였다. 구전 효과의 중요성으로 인해서 대부분의 기업들의 자사의 상품이나 서비스에 대한 온라인 구전에 촉각을 세우고 있으며, 특히 영화와 같은 경험재의 경우에는 그 영향력이 더욱 크다. 본 연구에서는 영화 커뮤니티에 대한 사회 네트워크 분석을 통해서 영화 흥행성과 지표인 매출에 미치는 영향요인을 규명하고자 한다. 영화 흥행성과 연구들에서 주요하게 다루어진 영화에 대한 구전의 크기(volume)와 방향성(valence)과 같은 구전 요인들을 추가하여, 구전 네트워크의 중심성 척도를 영향 요인에 고려하였다. 구전의 크기, 방향성, 그리고 3가지 중심성 척도(연결 중심성, 매개 중심성, 근접 중심성)의 최종 영화 매출에 영향 관계를 가설로 설정하였다. 제시한 연구 모형을 검증하기 위하여 대표적인 온라인 영화 커뮤니티 사이트인 IMDb(Internet Movie Database)에서 영화 구전 데이터를 수집하였고, Box-Office-Mojo사이트에서 영화 매출 데이터를 수집하였다. 2012년 9월부터 1년 동안, 주간 Top-10에 포함된 적이 있는 영화들을 대상으로 하였으며, 총 103개의 영화가 선정되어 이 영화들에 대한 메타 데이터와 커뮤니티 데이터가 수집되었다. 영화 커뮤니티 네트워크는 평가자들간의 댓글 관계를 기초로 구축하였다. 본 연구에서 사용한 3가지 중심성 척도는 사회 네트워크 분석 도구인 NodeXL을 사용하여 계산되었으며, 각 영화별 커뮤니티 참여자들의 중심성 척도의 평균값을 활용하였다. 가설 검증의 사전 분석을 위한 상관관계 분석에서는 3가지 중심성 척도간에 상관 관계가 높은 것으로 파악되어서, 각각에 대하여 별도로 회귀분석을 수행하였다. 분석 결과, 기존 연구와 일관성 있게 구전의 크기와 방향성은 영화 성과지표인 최종 매출에 긍정적인 영향을 미치는 것으로 파악되었다. 또한 구전 네트워크 내의 참여자 매개중심성 평균은 영화의 최종 매출에 영향을 미치는 것으로 파악되었다. 하지만 연결중심성과 근접중심성은 최종 매출에 영향을 주지 못하는 것으로 나타났다.

직원을 위한 내부마케팅이 기업의 시가 총액 변동률에 미치는 영향 분석: 잡플래닛 기업 리뷰를 중심으로 (An Analysis of the Internal Marketing Impact on the Market Capitalization Fluctuation Rate based on the Online Company Reviews from Jobplanet)

  • 최기철;이상용
    • 경영정보학연구
    • /
    • 제20권2호
    • /
    • pp.39-62
    • /
    • 2018
  • 컴퓨터 연산능력의 향상과 데이터를 수집하고 가공해 분석이 가능하도록 데이터를 정형화 시키는 기술이 발달함에 따라, 소셜미디어 및 인터넷 공간에서 생산되는 다양한 텍스트 데이터를 수집하고 그것을 분석하는 시도가 늘고 있다. 본 연구는 이와 같은 기술의 발전과 새롭게 시도되고 있는 분석법을 활용해 텍스트 데이터를 분석하여 과거에 설문조사 방법을 통해 확인했던 "내부마케팅"의 효과를 기존과는 다른 방식으로 확인해 보고자 하였다. 이와 같은 분석을 위해, 전/현직자들이 해당 기업의 구직자들에게 기업의 리뷰를 제공하는 플랫폼 잡플래닛(www.jobplanet.co.kr)의 리뷰 데이터를 웹크롤러를 생성하여 약 4만 건을 수집하였다. 또한 수집된 비정형 데이터를 정형화하기 위한 형태소 분석을 진행하여 명사만을 추출한 후, 미리 생성해 놓은 단어주머니에 들어있는 단어와 같을 경우 그 숫자를 세어 분류화를 진행하였다. 분류화된 내부마케팅 영역별 단어 수의 변화를 독립변수로, 시가총액 변동률을 종속변수로 활용하여, 내부마케팅과 시가총액간의 관계를 확인하고자 하였다. 그 결과, 대부분의 기존 연구와는 다르게 내부마케팅의 효과는 제한적인 영역에서만 기업의 성과에 긍정적인 영향을 미치며 대부분의 환경에서는 음의 영향을 미치는 것으로 나타났다. 산업군으로 나누었을 때, 제조업에서는 여성지원과 교육 훈련 부문에서 기업성과에 긍정의 영향을 미치는 것으로 나타났으나, 유통업에서는 직원 복지, 일-가정 양립 그리고 바이오/제약 업종에서는 직원 복지, 일-가정 양립, 사내 커뮤니케이션 그리고 보상 부문에서 모두 기업성과에 음의 영향을 미치는 것으로 나타났다. 또한 기업의 규모가 크고 역사가 오래된 기업에서는 직원 복지가 기업성과에 악영향을 미치는 것으로 나타났으나, 교육 훈련 부문에서는 종속변수에 긍정적 영향을 미치는 것을 확인할 수 있었으며, 기업의 규모가 작고 역사가 짧은 기업에서는 직원 복지, 사내 커뮤니케이션 그리고 일-가정 양립에서 종속변수와 음의 관계를, 여성지원 에서는 종속변수와 양의 관계를 갖는 것으로 나타났다. 본 연구는 이러한 결과들을 분석하여 이론적 의미뿐만 아니라, 실무적 함의를 제시하고자 하였다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.