• 제목/요약/키워드: Doc2vec

검색결과 42건 처리시간 0.025초

품사별 출현 빈도를 활용한 코로나19 관련 한국어 가짜뉴스 탐지 (COVID-19-related Korean Fake News Detection Using Occurrence Frequencies of Parts of Speech)

  • 김지혁;안현철
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.267-283
    • /
    • 2023
  • 2019년 12월부터 현재까지 지속되고 있는 코로나19 팬데믹으로 인해 대중들은 감염병 대응을 위한 정보를 필요로 하게 되었다. 하지만 소셜미디어에서 유포되는 코로나19 관련 가짜뉴스로 인해 대중들의 건강이 심각하게 위협받고 있다. 특히 코로나19와 관련된 가짜뉴스가 유사한 내용으로 대량 유포될 경우 사실인지 거짓인지 진위를 가리기 위한 검증에 소요되는 시간이 길어지게 되어 우리 사회의 전반에 심각한 위협이 될 수 있다. 이에 학계에서는 신속하게 코로나19 관련 가짜뉴스를 탐지할 수 있는 지능형 모델에 대한 연구를 활발하게 수행해 오고 있으나, 대부분의 기존 연구에 사용된 데이터는 영문으로 구성되어 있어 한국어 가짜뉴스 탐지에 대한 연구는 매우 드문 실정이다. 이에 본 연구에서는 소셜 미디어 상에서 유포되는 한국어로 작성된 코로나19 관련 가짜뉴스 데이터를 직접 수집하고, 이를 기반으로 한 지능형 가짜뉴스 탐지 모델을 제안한다. 본 연구의 제안모델은 언어학적 특성 중 하나인 품사별 빈도 정보를 추가적으로 활용하여, 기존 연구에서 주로 사용되어 온 문서 임베딩 기법인 Doc2Vec 기반 가짜뉴스 탐지 모델의 예측 성능을 제고하고자 하였다. 실증분석 결과, 제안 모델이 비교 모델에 비해 Recall 및 F1 점수가 높아져 코로나19 관련 한국어 가짜뉴스를 보다 정확하게 판별함을 확인하였다.

관련 동영상 정보를 활용한 YouTube 가짜뉴스 탐지 기법 (Fake News Detection on YouTube Using Related Video Information)

  • 김준호;신용준;안현철
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.19-36
    • /
    • 2023
  • 정보통신기술의 발전으로 인해 누구나 쉽게 정보를 생산, 유포할 수 있게 되면서, 이를 악용하여 의도적으로 유포하는 거짓 정보인 가짜뉴스가 새로운 문제로 대두되기 시작하였다. 초기에 텍스트 방식으로 주로 전파되던 가짜뉴스는 점차 진화하여 이제는 멀티미디어 형식으로 퍼지고 있다. 유튜브는 2005년에 설립된 이후 세계 최고의 동영상 플랫폼으로 성장하면서 전 세계 사람들이 대부분 이용하고 있다. 하지만 유튜브는 가짜뉴스가 퍼지는 주요 창구가 되며 사회적인 문제를 일으키고 있다. 유튜브의 가짜뉴스를 탐지하기 위하여 다양한 학자들이 연구를 진행해 왔다. 가짜뉴스 탐지 연구에는 콘텐츠 기반의 접근과 배경정보 기반의 접근이 존재하는데 기존 가짜뉴스 연구와 유튜브의 가짜뉴스 탐지 연구를 살펴보면 콘텐츠 기반의 접근이 다수를 차지하고 있다. 본 연구에서는 콘텐츠 기반의 가짜뉴스 탐지가 아닌 배경정보 기반의 가짜뉴스 탐지기법을 제안하는데, 그 중에서도 유튜브에서 제공하는 관련 동영상 정보를 활용하여 가짜뉴스를 탐지하는 방법을 제안하고자 한다. 구체적으로 관련 동영상에서 얻은 정보와 원본 동영상에서 얻은 정보를 임베딩 기술인 Doc2vec을 이용하여 벡터화 한 후, 딥러닝 네트워크인 합성곱 신경망(CNN)을 통하여 가짜뉴스를 판별하고자 하였다. 실증분석 결과 제안 기법은 기존의 콘텐츠 기반으로 유튜브 가짜뉴스를 탐지하는 접근에 비해 보다 우수한 예측 성능을 보임을 확인하였다. 이러한 본 연구의 제안 기법은 파급력이 높은 유튜브 상에서 유포되는 가짜뉴스의 전파를 사전에 예방함으로써, 우리사회를 보다 안전하고 신뢰할 수 있도록 만드는데 기여할 수 있을 것으로 기대한다.

확장된 사용자 유사도를 이용한 CF-기반 건강기능식품 추천 시스템 (A CF-based Health Functional Recommender System using Extended User Similarity Measure)

  • 홍세인;정의주;김재경
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.1-17
    • /
    • 2023
  • 정보통신기술의 발전과 디지털 기기의 대중화로 인해, 온라인 시장의 규모가 커지고 있다. 그 결과 고객들은 상품을 선택하는데 많은 시간과 비용이 소요되는 정보 과부하(Information Overload) 문제에 직면하고 있다. 따라서 고객이 선호할만한 상품을 추천해 주는 추천 시스템은 필수적인 도구가 되었으며 협업 필터링(Collaborative Filtering) 기법은 가장 널리 쓰이는 추천 방법이다. 전통적인 추천 시스템은 평점과 같은 정량적인 데이터만을 사용하기 때문에 추천의 정확도는 높지 않다. 이와 같은 문제를 해결하기 위해 요즘에는 사용자 리뷰와 같은 정성적 데이터를 반영하는 연구가 활발히 진행되고 있다. 협업 필터링의 일반적인 절차는 사용자-상품 행렬 생성, 이웃 집단 탐색, 추천 목록 생성 3단계로 구성되며 코사인 같은 사용자 유사도를 사용하여 목표 고객의 이웃을 탐색하며, 추천 상품 목록을 생성한다. 본 연구에서는 이웃 집단 탐색 및 추천 목록 생성 단계에서 사용하는 사용자 간의 유사도를 기존의 사용자 평점을 이용한 유사도에 고객의 리뷰 데이터를 사용하는 확장된 사용자 유사도를 제시한다. 리뷰를 정량화 하기 위해 본 연구에서는 텍스트 마이닝을 활용한다. 즉, 리뷰 데이터에 TF-IDF, Word2Vec, 그리고 Doc2Vec 기법을 사용하여 두 사용자 간의 리뷰 유사도를 구한 후 사용자 평점을 사용한 유사도와 리뷰 유사도를 결합한 확장된 유사도를 생성하는 것이다. 이를 검증하기 위해 전자상거래 사이트인 Amazon의 'Health and Personal Care'의 사용자 평점과 리뷰 데이터를 사용하였다. 실험 결과, 사용자 간 유사도를 산출할 때 기존의 평점에 기반한 유사도만을 사용하는 것보다, 사용자 리뷰의 유사도를 추가로 반영한 확장된 유사도를 사용하면 추천의 정확도가 높아진다는 것을 확인했다. 또한, 여러 텍스트 마이닝 기법 중에서 TF-IDF 기법을 사용한 확장된 유사도를 이웃 집단 탐색 및 추천 목록 생성단계에서 사용할 때의 성능이 가장 좋게 나타났다.

다양한 차원 축소 기법을 적용한 문서 군집화 성능 비교 (Comparison of Document Clustering Performance Using Various Dimension Reduction Methods)

  • 조희련
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.437-438
    • /
    • 2018
  • 문서 군집화 성능을 높이기 위한 한 방법으로 차원 축소를 적용한 문서 벡터로 군집화를 실시하는 방법이 있다. 본 발표에서는 특이값 분해(SVD), 커널 주성분 분석(Kernel PCA), Doc2Vec 등의 차원 축소 기법을, K-평균 군집화(K-means clustering), 계층적 병합 군집화(hierarchical agglomerative clustering), 스펙트럼 군집화(spectral clustering)에 적용하고, 그 성능을 비교해 본다.

다양한 데이터 전처리 기법과 데이터 오버샘플링을 적용한 GRU 모델 기반 이상 탐지 성능 비교 (Comparison of Anomaly Detection Performance Based on GRU Model Applying Various Data Preprocessing Techniques and Data Oversampling)

  • 유승태;김강석
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.201-211
    • /
    • 2022
  • 최근 사이버보안 패러다임의 변화에 따라, 인공지능 구현 기술인 기계학습과 딥러닝 기법을 적용한 이상탐지 방법의 연구가 증가하고 있다. 본 연구에서는 공개 데이터셋인 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 GRU(Gated Recurrent Unit) 신경망 기반 침입 탐지 모델의 이상(anomaly) 탐지 성능을 향상시킬 수 있는 데이터 전처리 기술에 관한 비교 연구를 수행하였다. 또한 정상 데이터와 공격 데이터 비율에 따른 클래스 불균형 문제를 해결하기 위해 DCGAN(Deep Convolutional Generative Adversarial Networks)을 적용한 오버샘플링 기법 등을 사용하여 오버샘플링 비율에 따른 탐지 성능을 비교 및 분석하였다. 실험 결과, 시스템 콜(system call) 특성과 프로세스 실행패스 특성에 Doc2Vec 알고리즘을 사용하여 전처리한 방법이 좋은 성능을 보였고, 오버샘플링별 성능의 경우 DCGAN을 사용하였을 때, 향상된 탐지 성능을 보였다.

스마트 홈 어플리케이션의 고객반응리뷰분석을 통한 기업별 서비스개선전략에 대한 연구 : 스마트 홈 사용성 가치의 기능적요소와 디자인적 요소 분류를 바탕으로 (A Study on the Service Improvement Strategies by Enterprise through the Analysis of Customer Response Reviews in Smart Home Applications : Based on the Classification of Functional Elements and Design Elements of smart Home Usability Values)

  • 허지연;김민지;차경진
    • 한국IT서비스학회지
    • /
    • 제19권4호
    • /
    • pp.85-107
    • /
    • 2020
  • The Internet of Things market, a technology that connects the Internet to various things, is growing day by day. Besides, various smart home services using IoT and AI (Artificial Intelligence) are being launched in homes. Related to this, existing smart home-related studies focus primarily on ICT technology, not on what service improvements should be made in customer positions. In this study, we will use smart home application customer review data to classify functional and design elements of smart home usability value and examine the ways customers think of service improvement. For this, LG Electronics and Samsung Electronics" Smart Home application, the main provider of Smart Home in Korea, customer reviews were crawled to conduct a comparative analysis between them. In this study, the review of IoT home-applications was analyzed to find service improvement insights from customer perspective, and related analysis of text mining, social network analysis and Doc2vec was used to efficiently analyze data equivalent to about 16,000 user reviews. Through this research, we hope that related companies effectively seek ways to improve smart home services that reflect customer needs and are expected to help them establish competitive strategies by identifying weaknesses and strengths among competitors.

Legal search method using S-BERT

  • Park, Gil-sik;Kim, Jun-tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권11호
    • /
    • pp.57-66
    • /
    • 2022
  • 본 논문에서는 Sentence-BERT 모델을 활용한 법률 문서 검색 방법을 제안한다. 법률 검색 서비스를 이용하고자 하는 일반인들은 법률 용어 및 구조에 대한 이해가 부족함에 따라 관련 판례 검색 등에 있어 어려움을 겪고 있다. 기존의 키워드 및 텍스트마이닝 기반 법률 검색 방법은 판결문의 문맥에 대한 정보가 없으며, 동음이의어 및 다의어에 대해 구분하기 어려워 성능을 높이는 데 한계가 있었다. 그로 인해 법률 문서 검색 결과에 대한 정확도가 낮아 신뢰하기가 어려웠다. 이를 위해, 대법원 판례 및 법률구조공단 상담사례 데이터에서 일반인의 법률 검색 문장에 대한 성능을 개선하고자 한다. Sentence-BERT 모델은 판례 및 상담 데이터에 대한 문맥 정보가 임베딩 되므로, 문장의 의미 손실이 적어 TF-IDF 및 Doc2Vec 검색 방법과 비교했을 때보다 검색 정확도가 개선된 것을 확인할 수 있었다.

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

복합 문서의 의미적 분해를 통한 다중 벡터 문서 임베딩 방법론 (Multi-Vector Document Embedding Using Semantic Decomposition of Complex Documents)

  • 박종인;김남규
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.19-41
    • /
    • 2019
  • 텍스트 데이터에 대한 다양한 분석을 위해 최근 비정형 텍스트 데이터를 구조화하는 방안에 대한 연구가 활발하게 이루어지고 있다. doc2Vec으로 대표되는 기존 문서 임베딩 방법은 문서가 포함한 모든 단어를 사용하여 벡터를 만들기 때문에, 문서 벡터가 핵심 단어뿐 아니라 주변 단어의 영향도 함께 받는다는 한계가 있다. 또한 기존 문서 임베딩 방법은 하나의 문서가 하나의 벡터로 표현되기 때문에, 다양한 주제를 복합적으로 갖는 복합 문서를 정확하게 사상하기 어렵다는 한계를 갖는다. 본 논문에서는 기존의 문서 임베딩이 갖는 이러한 두 가지 한계를 극복하기 위해 다중 벡터 문서 임베딩 방법론을 새롭게 제안한다. 구체적으로 제안 방법론은 전체 단어가 아닌 핵심 단어만 이용하여 문서를 벡터화하고, 문서가 포함하는 다양한 주제를 분해하여 하나의 문서를 여러 벡터의 집합으로 표현한다. KISS에서 수집한 총 3,147개의 논문에 대한 실험을 통해 복합 문서를 단일 벡터로 표현하는 경우의 벡터 왜곡 현상을 확인하였으며, 복합 문서를 의미적으로 분해하여 다중 벡터로 나타내는 제안 방법론에 의해 이러한 왜곡 현상을 보정하고 각 문서를 더욱 정확하게 임베딩할 수 있음을 확인하였다.

ShipMate: 딥러닝을 이용한 해상물류 전문상담 챗봇 (ShipMate: Marine Logistics Specialist Consultation Chatbot using Deep Learning)

  • 유현수 ;남서연 ;백주영 ;안소영 ;황세진 ;이규영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.1092-1093
    • /
    • 2023
  • 본 논문에서는 한국무역협회(KITA)의 오픈상담 자료들을 바탕으로, 딥러닝 기술을 이용하여 구현한 해상물류 대화형 챗봇 ShipMate를 제안한다. 챗봇 ShipMate는 KoGPT2를 활용한 답변과 Doc2Vec 기반의 유사 상담사례 추천이 가능하고, 무역상담을 시간제약 없이 진행할 수 있기 때문에, 기존 해상물류 서비스의 접근성을 한층 더 높일 수 있으며 이를 실험을 통해 입증하였다.