• Title/Summary/Keyword: 온라인 마이닝

Search Result 243, Processing Time 0.022 seconds

The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3 (기계학습과 GPT3를 시용한 조작된 리뷰의 탐지)

  • Chernyaeva, Olga;Hong, Taeho
    • Journal of Intelligence and Information Systems
    • /
    • v.28 no.4
    • /
    • pp.347-364
    • /
    • 2022
  • Fraudulent companies or sellers strategically manipulate reviews to influence customers' purchase decisions; therefore, the reliability of reviews has become crucial for customer decision-making. Since customers increasingly rely on online reviews to search for more detailed information about products or services before purchasing, many researchers focus on detecting manipulated reviews. However, the main problem in detecting manipulated reviews is the difficulties with obtaining data with manipulated reviews to utilize machine learning techniques with sufficient data. Also, the number of manipulated reviews is insufficient compared with the number of non-manipulated reviews, so the class imbalance problem occurs. The class with fewer examples is under-represented and can hamper a model's accuracy, so machine learning methods suffer from the class imbalance problem and solving the class imbalance problem is important to build an accurate model for detecting manipulated reviews. Thus, we propose an OpenAI-based reviews generation model to solve the manipulated reviews imbalance problem, thereby enhancing the accuracy of manipulated reviews detection. In this research, we applied the novel autoregressive language model - GPT-3 to generate reviews based on manipulated reviews. Moreover, we found that applying GPT-3 model for oversampling manipulated reviews can recover a satisfactory portion of performance losses and shows better performance in classification (logit, decision tree, neural networks) than traditional oversampling models such as random oversampling and SMOTE.

Analysis of Keywords and Language Networks of Pedagogical Problems in the Secondary-School Teacher's Employment Exam : Focusing on the 2019~2022 School Year Exam

  • Kwon, Choong-Hoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.7
    • /
    • pp.115-124
    • /
    • 2022
  • The purpose of this study is to analyze and present keywords, trends, and language networks of keywords for each year of the pedagogical exam of the secondary teacher's employment exam for the 2019~2022 school year. The main research methods were text mining technique and language network analysis method, and analysis programs were KrKwic, Wordcloud Maker, Ucinet6, NetDraw, etc. The research results are as follows; First, keywords such as teacher, student, curriculum, class, and evaluation appeared in the top rankings, and keywords (online, wiki, discussion ceremony, information, etc.) that reflect the recent online class progress in the current COVID-19 situation also tended to appear. The keywords with high frequency of occurrence in the four-year integrated text were student(44), teacher(39), class(27), school(18), curriculum(16), online(10), and discussion method(8). Second, the overall language network of the keywords with high frequency of 4 years showed a significant level of density(0.566), total number of links(492), and average degree of links(16.4). The degree centrality was found in the order of teacher(199.0), class(197.0), student(185.0), and school(150.0). Betweenness centrality was found in the order of teacher(30.859), class(18.956), student(16.054), and school (15.745). It is expected that the results of this study will serve as data to be considered for preparatory teachers, institutions and related persons, and teachers and administrators of secondary school teacher training institutions.

Finding Frequent Itemsets Over Data Streams in Confined Memory Space (한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법)

  • Kim, Min-Jung;Shin, Se-Jung;Lee, Won-Suk
    • The KIPS Transactions:PartD
    • /
    • v.15D no.6
    • /
    • pp.741-754
    • /
    • 2008
  • Due to the characteristics of a data stream, it is very important to confine the memory usage of a data mining process regardless of the amount of information generated in the data stream. For this purpose, this paper proposes the Prime pattern tree(PPT) for finding frequent itemsets over data streams with using the confined memory space. Unlike a prefix tree, a node of a PPT can maintain the information necessary to estimate the current supports of several itemsets together. The length of items in a prime pattern can be reduced the total number of nodes and controlled by split_delta $S_{\delta}$. The size and the accuracy of the PPT is determined by $S_{\delta}$. The accuracy is better as the value of $S_{\delta}$ is smaller since the value of $S_{\delta}$ is large, many itemsets are estimated their frequencies. So it is important to consider trade-off between the size of a PPT and the accuracy of the mining result. Based on this characteristic, the size and the accuracy of the PPT can be flexibly controlled by merging or splitting nodes in a mining process. For finding all frequent itemsets over the data stream, this paper proposes a PPT to replace the role of a prefix tree in the estDec method which was proposed as a previous work. It is efficient to optimize the memory usage for finding frequent itemsets over a data stream in confined memory space. Finally, the performance of the proposed method is analyzed by a series of experiments to identify its various characteristics.

A Design of Recommendation System based on Context-Awareness (컨텍스트 인식 기반 상품 추천 시스템의 설계)

  • 이송희;이근호;김정범;김태윤
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.52-54
    • /
    • 2002
  • 추천 시스템은 방문 고객 개개인의 취향이나 구매이력 등을 분석하여 고객이 필요로 하는 상품 또는 컨텐츠 정보의 서비스를 제공한다. 기존의 추천 시스템은 온라인에 초점을 맞추어 설계되었는데 본 논문에서는 무선 인터넷 서비스를 기반으로 무선 단말기(e.g. PDA, Cell Phone 등)를 통해 오프라인에서도 추천정보를 제공하는 시스템을 제안한다. 사용자에게 제공이 되는 추천 정보는 상품이나, 컨텐츠 또는 이벤트 정보이며 제안된 시스템에서는 데이터 마이닝 기법을 통해 데이터를 분류, 측정 및 예측하고 지식 기반방법과 collaborative filtering 방법을 혼합하여 양쪽의 장점만을 취하여 기존의 한정된 상품에 대한 정보와 침상에서만 제공이 되는 서비스를 오프라인까지 통합한 추천 시스템을 제안한다.

  • PDF

Sentiment lexicon modeling for consumer analysis (소비자 분석을 위한 감성사전 모델링)

  • Lee, Jae-Woong;Yun, Hyun-Noh;Moon, Nammee
    • Annual Conference of KIPS
    • /
    • 2017.04a
    • /
    • pp.850-853
    • /
    • 2017
  • 본 논문은, 크롤링을 통해 얻은 비정형 데이터를 'Python'의 'KoNLPy' 라이브러리를 사용해 형태소 분석한 후 텍스트 마이닝을 통한 감성사전 구축을 목표로 하고 있으며, 형태소들의 빈도수를 기반으로 가중치로 두어 선별된 단어들을 이용해 긍정과 부정으로 나누어 카테고리화 한다. 이후, 선별한 카테고리에 단어의 극성을 판단하여 감성사전을 모델링한다. 실험을 위하여, 온라인 쇼핑몰 리뷰를 크롤링하여 비정형 데이터를 수집하고, 수집한 데이터를 분석, 가공 과정을 거쳐 정형화된 단어를 추출한다. 그 후에, 리뷰에 자주 사용되는 단어를 바탕으로 카테고리를 구성하였다. 구성된 카테고리 별로 단어의 극성을 판단하여 소비자 성향을 분석한 결과, 단순히 긍정과 부정을 표현하는 범용 감성사전보다 더 세분화된 감성 사전을 구축 할 수 있었다.

Matching Agent using Automatic Weight-Control (가중치 자동 조절을 이용한 매칭 에이전트)

  • 김동조;박영택
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.439-445
    • /
    • 2000
  • 다차원의 속성들을 포함한 대용량의 데이터베이스 또는 점보 저장소의 데이터로부터 지식을 추출하고 이를 활용하기 위해서는 데이터 마이닝의 인공지능 기법 중 기계학습을 활용할 수 있다. 본 논문은 질의어를 바탕으로 각 작성들에 가중치를 적용하여 사용자가 원하는 데이터 집합을 분류하고, 사용자 피드백을 통하여 속성 가중치를 동적으로 변화시킴으로써 검색결과를 향상시키는 방법을 제안한다. 본 논문에서는 데이터 집합을 분류해내기 위해서 각 속성간의 거리에 가중치를 적용하는 k-nearest neighbor 분류법을 사용하였고, 속성 가중치를 동적으로 변화시키는 규칙을 추출하기 위한 방법으로는 결정 트리 생성에 의한 규칙(decision rule) 생성 방법을 적용하였다. 검색결과 향상을 \ulcorner이기 위한 실험으로써 온라인 커플매칭(online couple-matching) 시스템의 핵심부문을 구현하고 이를 적용하였다.

  • PDF

Analyzing Reputation of Candidates in the Election Using Opinion Mining (오피니언 마이닝을 이용한 선거 후보자 평가 분석)

  • Hong, Jun-Hyuk;Yoon, Jae-Yeol;Lim, Ji-Yeon;Kim, Iee-Jun;Kim, Ung-Mo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.192-194
    • /
    • 2012
  • 선거는 한 국가의 발전에 큰 영향을 미치는 중요한 행사이다. 국민들의 선거에 대한 관심은 해가 갈수록 증가하고 있고, 선거철마다 많은 여론이 형성되고 있다. 유권자들은 자신이 원하는 후보를 선정하기 위해 많은 후보자 정보를 살펴보아야한다. 올바른 판단을 위해서는 수많은 정치인과 정당에 대한 사전 분석이 필요할 것이다. 이는 시사나 정치에 대한 지속적인 관심이 요구되기 때문에 쉬운 일이 아니다. 그래서 후보자에 관한 기사나 공인된 온라인 토론에서의 정보를 검색하고 점수화하여, 투표자들이 후보를 결정하는데 도움을 줄 수 있는 방법을 제안한다.

Regarding the illegal transaction of overseas direct purchase Monitoring service design and analysis (해외직구 물품 불법 거래에 관한 모니터링 서비스 설계와 해석)

  • Shin, Yong-Hun;Kim, Jeong-Ho;Jo, Jin-Pyo
    • Annual Conference of KIPS
    • /
    • 2021.11a
    • /
    • pp.508-511
    • /
    • 2021
  • 관세법에서는 해외직구물품이 일정금액(미화 150불, 단 미국은 미화 200불)이하 또는 자기사용 물품으로 인정되는 경우에 제세를 면제토록 규정하고 있으며 관련규정을 어길시 관세법상 무신고 밀수입죄에 해당된다. 본 논문은 해외직구 리셀러(되팔이)가 증가하고 해당 사항이 사회적 이슈로 대두되기에 해외직구 물품 불법거래에 관한 모니터링시스템을 설계하고 해석하였다. 온라인 중고 사이트(e-commerce)에서 거래되고 있는 거래 내용을 크롤링을 통하여 데이터를 수집·전처리를 통해 구조화하고 데이터 정제, 텍스트 범주화, 텍스트 마이닝 등 관계 예측을 해석하였다.

Suggestion of development for domestic game market through big data analysis of global game trend (글로벌 게임 트렌드의 빅데이터 분석을 통한 국내 게임 시장의 발전 방향성 제시)

  • Song, Junhyup;Lim, Minwoo;Kim, Hansoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.161-164
    • /
    • 2022
  • 게임 산업은 기술의 발전과 비대면 서비스 수요 증가로 해마다 발전하고 있다. 본 연구는 사용자들의 수요를 조사하기 위하여 대중성이 가장 높은 온라인 게임 플랫폼에서 이용 시간이 많은 게임 정보를 확인하였다. HTML 파싱(parsing) 라이브러리를 통해 해당 게임들의 리뷰를 크롤링하여 엑셀 파일로 데이터베이스화하였고, 자연어 처리 라이브러리를 활용하여 데이터를 정제하였다. 총 5개 장르에 대하여 분석한 결과 각 장르에 해당하는 대표적인 키워드를 확인할 수 있었다. 취득한 키워드는 범용 시각화 패키지를 활용하여 워드 클라우드 형태로 한눈에 알아볼 수 있도록 시각화하였다.

  • PDF

Sentiment Analyses of the Impacts of Online Experience Subjectivity on Customer Satisfaction (감성분석을 이용한 온라인 체험 내 비정형데이터의 주관도가 고객만족에 미치는 영향 분석)

  • Yeeun Seo;Sang-Yong Tom Lee
    • Information Systems Review
    • /
    • v.25 no.1
    • /
    • pp.233-255
    • /
    • 2023
  • The development of information technology(IT) has brought so-called "online experience" to satisfy our daily needs. The market for online experiences grew more during the COVID-19 pandemic. Therefore, this study attempted to analyze how the features of online experience services affect customer satisfaction by crawling structured and unstructured data from the online experience web site newly launched by Airbnb after COVID-19. As a result of the analysis, it was found that the structured data generated by service users on a C2C online sharing platform had a positive effect on the satisfaction of other users. In addition, unstructured text data such as experience introductions and host introductions generated by service providers turned out to have different subjectivity scores depending on the purpose of its text. It was confirmed that the subjective host introduction and the objective experience introduction affect customer satisfaction positively. The results of this study are to provide various implications to stakeholders of the online sharing economy platform and researchers interested in online experience knowledge management.