• Title/Summary/Keyword: 리뷰데이터

Search Result 311, Processing Time 0.024 seconds

Jam-packing Korean sentence classification method robust for spacing errors (띄어쓰기 오류에 강건한 문장 압축 기반 한국어 문장 분류)

  • Park, Keunyoung;Kim, Kyungduk;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.600-604
    • /
    • 2018
  • 한국어 문장 분류는 주어진 문장의 내용에 따라 사전에 정의된 유한한 범주로 할당하는 과업이다. 그런데 분류 대상 문장이 띄어쓰기 오류를 포함하고 있을 경우 이는 분류 모델의 성능을 악화시킬 수 있다. 이에 한국어 텍스트 혹은 음성 발화 기반의 문장을 대상으로 분류 작업을 수행할 경우 띄어쓰기 오류로 인해 발생할 수 있는 분류 모델의 성능 저하 문제를 해결해 보고자 문장 압축 기반 학습 방식을 사용하였다. 학습된 모델의 성능을 한국어 영화 리뷰 데이터셋을 대상으로 실험한 결과 본 논문이 제안하는 문장 압축 기반 학습 방식이 baseline 모델에 비해 띄어쓰기 오류에 강건한 분류 성능을 보이는 것을 확인하였다.

  • PDF

Determinants of Online Review Adoption : Focusing on Online Review Quality and Consensus (온라인 리뷰 수용에 영향을 미치는 요인 : 온라인 리뷰 품질과 동의성을 중심으로)

  • Hur, Sung-Hey;Ryoo, Sung-Yul;Jeon, Soo-Hyun
    • Journal of Information Technology Applications and Management
    • /
    • v.16 no.4
    • /
    • pp.41-58
    • /
    • 2009
  • This research investigated how people are influenced to adopt online review. We applied the Elaboration Likelihood Model (ELM) and the Technology Acceptance Model (TAM) to this study. Our research model highlights the assessment of online review usefulness as a mediator from online review quality to online review adoption. This research predicted online review consensus has a role to bulid up online reviw usefulness. This study also includes vividness and perceived similarity as determinants of online review quality. Survey data reflect user's perceptions of actual online review they read. Results support most of research hypotheses except hypothesis related to moderating effect of user involvement. This research offers a model for understanding online review user's acceptance. Additional theoretical and practical implications are also discussed in the paper.

  • PDF

A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary (반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템)

  • Myung, Jaeseok;Lee, Dongjoo;Lee, Sang-Goo
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.68-75
    • /
    • 2007
  • 웹 2.0 시대에 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치있는 데이터이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하는 상품평 분석 시스템을 설계하고 구현하였다. 각 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동으로 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘에 대한 처리 방법에 대해서도 논의한다. 실험은 2개 상품 분류의 63개 실제 리뷰를 대상으로 수행하였으며 결과로 평균 88.94%의 정확률, 47.92%의 재현율을 나타냈다.

  • PDF

Development of Detection of Adverse Drug Reactions based on Named Entity Recognition and Keyword Network Analysis (개체명 인식과 키워드 네트워크 분석을 활용한 약물 이상 반응 탐지 시스템 개발)

  • Chae-Yeon Lee;Hyon Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.670-672
    • /
    • 2023
  • 본 논문에서는 소셜 미디어 약물 리뷰 데이터로부터 약물 이상 반응을 탐지하는 모델인 FC-BERT 를 기반으로 소셜 네트워크 분석을 활용하여 웹 애플리케이션을 구현하였다. FC-BERT 모델을 거쳐 나온 개체명 인식 결과 중에 같은 의미를 가진 서로 다른 약물 이상 반응 표현들을 MedDRA 부작용 사전을 참고하여 하나의 MedDRA 용어로 표준화하여 매핑했다. 해당 결과에 소셜 네트워크 분석 기법을 적용하여 생성한 상위 15 개의 ADR 동시 출현 그래프를 상위 30 개의 워드 클라우드와 함께 시각화하여 보여주는 웹 애플리케이션을 개발했다. 동시 출현 그래프는 가장 많은 리뷰에서 동시에 나타나는 ADR 쌍을 보여준다. 본 논문에서 제안한 웹 애플리케이션은 사람마다 다르게 나타나는 다양한 약물 이상 반응을 사용자에게 좀 더 접근성이 좋게 제공할 수 있을 것으로 보인다.

A Study on Smartwatch review data of SNS and sentiment analytical using opinion mining (스마트워치 SNS 리뷰 데이터와 오피니언 마이닝을 통한 감성 분석 처리에 대한 연구)

  • Shin, Donghyun;Choi, YongLak
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.10a
    • /
    • pp.1047-1050
    • /
    • 2015
  • Wearable device, along with IoT(Internet of Things), is considered the core of upcoming generation's convergence technology. Companies are intensely competing one another for prior occupation in the smartwatch market. Consumers that use smartwatch express their preferences by sharing their opinions through SNS(Social Networking Service). Through this study, emotions dictionary is built, which consists of attributes and emotional words related to smartwatch. Based on the emotions dictionary, SNS data has been categorized according to the attributes through opinion data model. Afterwards, overall polarity and attribute polarity of collected data are distinguished through natural language parsing, followed by an analysis of smartwatch reviews. This study will contribute to determination of which attributes of smartwatch to be improved, to arise consumer's interest for individual smartwatch.

  • PDF

Exploratory research based on big data for Improving the revisit rate of foreign tourists and invigorating consumption (외국인 관광객 재방문율 향상과 소비 활성화를 위한 빅데이터 기반의 탐색적 연구)

  • An, Sung-Hyun;Park, Seong-Taek
    • Journal of Industrial Convergence
    • /
    • v.18 no.6
    • /
    • pp.19-25
    • /
    • 2020
  • Big data analytics are indispensable today in various industries and public sectors. Therefore, in this study, we will utilize big data analysis to search for improvement plans for domestic tourism services using the LDA analysis method. In particular, we have tried an exploratory approach that can improve tourist satisfaction, which can improve revisit and service, especially in Seoul, which has the largest number of foreign tourists. In this study, we collected and analyzed statistical data of Seoul City and Korea Tourism Organization and Internet information such as SNS via R. And we utilized text mining methods including LDA. As a result of the analysis, one of the purposes of visiting South Korea by foreigners was gastronomic tourism. We will try to derive measures to improve the quality of services centered on gastronomic tourism.

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.8
    • /
    • pp.55-63
    • /
    • 2021
  • Since social big data often includes new words or proper nouns, statistical morphological analysis methods have been widely used to process them properly which are based on the frequency of occurrence of each word. However, these methods do not properly recognize compound nouns, and thus have a problem in that the accuracy of keyword extraction is lowered. This paper presents a method to extract compound nouns in keyword analysis of social big data. The proposed method creates a candidate group of compound nouns by combining the words obtained through the morphological analysis step, and extracts compound nouns by examining their frequency of appearance in a given review. Two algorithms have been proposed according to the method of constructing the candidate group, and the performance of each algorithm is expressed and compared with formulas. The comparison result is verified through experiments on real data collected online, where the results also show that the proposed method is suitable for real-time processing.

Data Association and Its Applications to Intelligent Systems: A Review (데이터 연관 문제와 지능시스템에서의 응용: 리뷰)

  • Oh, Song-Hwai
    • Journal of the Institute of Electronics Engineers of Korea SC
    • /
    • v.49 no.3
    • /
    • pp.1-11
    • /
    • 2012
  • Data association plays an important role in intelligent systems. This paper presents the Bayesian formulation of data association and its applications to intelligent systems. We first describe the Bayesian formulation of data association developed for solving multi-target tracking problems in a cluttered environment. Then we review applications of data association in intelligent systems, including surveillance using wireless sensor networks, identity management for air traffic control, camera network localization, and multi-sensor fusion.

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

  • Lee, Junbum
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

Controlled Korean Style Transfer using BERT (BERT을 이용한 한국어 문장의 스타일 변화)

  • Lee, Joosung;Oh, Yeontaek;Byun, hyunjin;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.395-399
    • /
    • 2019
  • 생성 모델은 최근 단순히 기존 데이터를 증강 시키는 것이 아니라 원하는 속성을 가지도록 스타일을 변화시키는 연구가 활발히 진행되고 있다. 스타일 변화 연구에서 필요한 병렬 데이터 세트는 구축하는데 많은 비용이 들기 때문에 비병렬 데이터를 이용하는 연구가 주를 이루고 있다. 이러한 방법론으로 이미지 분야에서 대표적으로 cycleGAN[1]이 있으며 최근 자연어 처리 분야에서도 많은 연구가 진행되고 있다. 많은 논문들이 사용하는 데이터도메인은 긍정 문장과 부정 문장 사이를 변화시키는 것이다. 본 연구에서는 한국어 영화리뷰 데이터 세트인 NSMC[2]를 이용한 감성 변화를 하는 문장생성에 대한 연구로 자연어 처리에서 좋은 성능을 보여주는 BERT[8]를 생성모델에 이용하였다.

  • PDF