• 제목/요약/키워드: 워드임베딩 모델

검색결과 46건 처리시간 0.024초

텍스트 마이닝과 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 개발 (Development of a Fake News Detection Model Using Text Mining and Deep Learning Algorithms)

  • 임동훈;김건우;최근호
    • 경영정보학연구
    • /
    • 제23권4호
    • /
    • pp.127-146
    • /
    • 2021
  • 가짜 뉴스는 정보화 시대라는 현대사회의 특성에 의해 진위 여부의 검증과는 상관없이 빠른 속도로 확대, 재생산되어 퍼진다. 전체 뉴스의 1%를 가짜라고 가정했을 경우 우리사회에 미치는 경제적 비용이 30조 원에 달한다고 하니 가짜 뉴스는 사회적, 경제적으로 매우 중요한 문제라고 할 수 있다. 이에 본 연구는 뉴스의 진위 여부를 신속하고 정확하게 확인하고자 자동화된 가짜 뉴스 탐지 모델을 개발하는데 목적을 두고 있다. 이를 위해 본 연구에서는 크롤링(crawling)을 통해 진위 여부가 밝혀진 뉴스 기사를 수집하였고, 워드 임베딩(Word2Vec, Fasttext)과 딥러닝 기법(LSTM, BiLSTM)을 이용하여 가짜 뉴스 예측 모델을 개발하였다. 실험 결과, Word2Vec과 BiLSTM의 조합이 가장 높은 84%의 정확도를 보였다.

조세심판 문서 검색 효율 향상 모델에 관한 연구 (A Study on the Improvement Model of Document Retrieval Efficiency of Tax Judgment)

  • 이후영;박구락;김동현
    • 한국융합학회논문지
    • /
    • 제10권6호
    • /
    • pp.41-47
    • /
    • 2019
  • 조세 심판에 대한 선결정례는 법원 판례의 경우 유사 심판례를 검색하여 파악하는 것이 매우 중요한 상황이다. 그러나 기존 심판문에 대한 검색은 사용자가 입력하는 키워드를 통하여 검색하는 방법을 사용하고 있으나, 정확한 키워드의 입력이 필요하며, 키워드를 모르는 경우 필요한 문서를 검색하는 것은 불가능하다. 또한 검색된 문서 중에는 내용이 다른 경우도 발생한다. 이에 본 논문에서는 정확한 심판례의 검색을 위하여 문서를 3차원 공간에 벡터화하고, 코사인 유사도를 계산하여, 거리상 가까운 문서를 검색하는 방법의 효율성을 향상시키기 위하여 심판례에서 사용되고 있는 단어들의 유사도를 분석한 후, 최빈값을 추출하여 본문의 텍스트에 삽입하는 방법으로 검색하고자 하는 문서의 코사인 유사도를 향상시키는 방안을 제안한다. 제안 모델을 통하여 조세와 관련된 심판례를 검색하고자 하는 사용자에게 신속하고, 정확한 검색을 제공할 수 있을 것으로 기대된다.

워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법 (Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding)

  • 최도진;오영호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권8호
    • /
    • pp.33-43
    • /
    • 2022
  • 지식 그래프 및 단백질 상호 작용과 같은 실제 데이터에서 개체들과 개체들의 관계 및 구조를 나타내기 위해 레이블 그래프를 사용한다. IT의 급속한 발전과 데이터의 폭발적인 증가로 사용자에게 관심 있는 정보를 제공하기 위한 서브 그래프 매칭 기술이 필요하다. 본 논문은 레이블의 의미적 유사성과 그래프 구조 차이를 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 레이블 의미적 유사도를 고려하기 위하여 FastText을 활용한 학습 모델을 이용한다. 레이블 간 의미적 유사도를 미리 계산한 LSG(Label Similarity Graph)를 통해 처리 속도의 효율을 높인다. LSG를 통해 레이블이 정확하게 일치해야 확장이 가능한 기존 연구의 한계를 해결한다. 2-hop까지 탐색을 수행함으로써 질의 그래프에 대한 구조적 유사성을 지원한다. 매칭된 서브 그래프는 유사도 값 기반으로 Top-k 결과를 제공한다. 제안하는 기법의 우수성을 보이기 위하여 다양한 성능평가를 수행한다.

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여 (Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach)

  • 이지현;정상형;김준호;민은주;여운영;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.97-117
    • /
    • 2020
  • 상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안 (Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data)

  • 박선영;이진무;김유일;서진이
    • 기술혁신연구
    • /
    • 제26권4호
    • /
    • pp.199-232
    • /
    • 2018
  • 빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

검색 키워드를 활용한 하이브리드 협업필터링 기반 상품 추천 시스템 (A Hybrid Collaborative Filtering-based Product Recommender System using Search Keywords)

  • 이윤주;원하람;심재승;안현철
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.151-166
    • /
    • 2020
  • 추천시스템(recommender system)은 고객의 선호도를 예측하여 상품과 서비스를 제공하는 기법으로, 현재 다양한 온라인 서비스에 활용되고 있다. 이와 관련된 많은 선행 연구들은 협업필터링(collaborative filtering)에 기반한 추천시스템을 제안하였는데, 대부분의 경우 고객의 구매 내역 또는 평점 데이터만 사용하여 진행되었다. 오늘날 소비자들은 제품을 구매하는 과정에서 온라인 검색 행동을 하여 관심있는 제품을 찾는다. 그렇기 때문에 검색 키워드 데이터는 고객의 선호도를 파악하는데 매우 유용한 정보일 수 있다. 그러나 지금까지 추천시스템 연구에서 사용되는 경우는 거의 없었다. 이에 본 연구는 고객의 검색 행동에 주목하여 온라인 쇼핑몰 고객의 검색 키워드 데이터와 구매 데이터를 고려한 하이브리드 협업 필터링을 제안하였다. 본 연구는 제안된 모델의 적용 가능성을 검증하기 위해 실제 온라인 쇼핑몰 데이터를 사용하여 성능을 검증하였다. 연구 결과, 추천 상품의 개수가 많아질수록 고객의 검색 키워드를 기반으로 구축된 협업필터링의 추천 성능이 향상되는 반면 일반적인 협업필터링의 성능은 추천된 상품의 개수가 많아질수록 점차 감소함을 발견하였다. 따라서 본 연구는 검색 키워드 데이터를 활용한 하이브리드 협업필터링이 고객의 선호도를 반영한 추천할 수 있으며, 구매이력 데이터의 정보부족을 해결할 수 있음을 확인하였다. 이는 기존의 정량 데이터만을 활용한 추천 시스템이 아닌, 비정형 데이터인 텍스트를 사용함으로써 새로운 하이브리드 협업필터링 구축 방법을 제안했다는 점에서 의의가 있다.