• 제목/요약/키워드: 텍스트분류

검색결과 680건 처리시간 0.033초

기계학습과 GPT3를 시용한 조작된 리뷰의 탐지 (The Detection of Online Manipulated Reviews Using Machine Learning and GPT-3)

  • 체르냐예바 올가;홍태호
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.347-364
    • /
    • 2022
  • 고객의 구매 의사결정에 영향을 주는 온라인 리뷰의 부적절한 조작을 통해 이익을 얻고자 하는 기업 또는 온라인 판매자들 때문에, 리뷰의 신뢰성은 온라인 거래에서 매우 중요한 이슈가 되었다. 온라인 쇼핑몰 등에서 온라인 리뷰에 대한 소비자들의 의존도가 높아짐에 따라 많은 연구들이 조작된 리뷰를 탐지하는 방법에 개발하고자 하였다. 기존의 연구들은 온라인 리뷰를 기반으로 정상 리뷰와 조작된 리뷰를 대상으로 기계학습으로 이용함으로써 조작된 리뷰를 탐지하는 모형을 제시하였다. 기계학습은 데이터를 이용하여 이진분류 문제에서 탁월한 성능을 보여왔으나, 학습에 충분한 데이터를 확보할 수 있는 환경에서만 이러한 성능을 기대할 수 있었다. 조작된 리뷰는 학습용으로 사용할 수 있는 데이터가 충분하지 못하며, 이는 기계학습이 충분한 학습을 할 수 없다는 치명적 약점으로 내포하게 된다. 본 연구에서는 기계학습이 불균형 데이터 셋으로 인한 학습의 저하를 방지할 수 있는 방안으로 부족한 조작된 리뷰를 인공지능을 이용하여 생성하고 이를 기반으로 균형된 데이터 셋에서 기계학습을 학습하여 조작된 리뷰를 탐지하는 방안을 제시하였다. 파인 튜닝된 GPT-3는 초거대 인공지능으로 온라인 플랫폼의 리뷰를 생성하여 데이터 불균형 문제를 해결하는 오버샘플링 접근방법으로 사용되었다. GPT-3로 생성한 온라인 리뷰는 기존 리뷰를 기반으로 인공지능이 작성한 리뷰로써, 본 연구에서 사용된 로짓, 의사결정나무, 인공신경망의 성능을 개선시키는 것을 SMOTE와 단순 오버샘플링과 비교하여 실증분석을 통해서 확인하였다.

앙상블 학습 기반 국내 도서의 해외 판매 굿셀러 예측 및 굿셀러 리뷰 키워드 분석 (Ensemble Learning-Based Prediction of Good Sellers in Overseas Sales of Domestic Books and Keyword Analysis of Reviews of the Good Sellers)

  • 김도영;김나연;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.173-178
    • /
    • 2023
  • 한국 문학이 세계적으로 관심을 받게 됨에 따라 해외 출판시장에서의 수요가 지속적으로 증가하고 있다. 따라서 해외 출판시 도서 판매량의 예측과 과거 해외 독자들의 선호도가 높았던 도서들의 특징을 분석하는 것이 중요하다. 본 논문에서는 최근 5년간 해외 출간된 도서 중에서 굿셀러로 분류되는 누적 5천 부 이상 판매 여부 예측 모델을 제안하고 굿셀러의 요인이 되는 변수들을 분석하였다. 이를 위해, XGBoost, Gradient Boosting, Adaboost, LightGBM, Random Forest의 다섯 개 앙상블 학습 모델과 Support Vector Machine, Logistic Regression, Deep Learning을 적용한 결과, 불균형 데이터 문제 해결에 앙상블 알고리즘이 큰 효과를 보였음을 확인했으며, 그 중에서도 LightGMB 모델이 99.86%의 AUC 값을 얻어 가장 좋은 예측 성능을 보임을 검증하였다. 예측을 위해 사용된 변수 중 가장 중요한 변수는 작가의 해외 출간 횟수로 나타났으며, 평점 평균, 상위 출판 시장 규모를 가진 국가에서 출판 여부와 평점 참여자 수 등이 중요한 변수로 나타났다. 또한, 굿셀러 도서에 대한 독자들의 반응을 분석하기 위해서, 굿셀러 도서 중에서도 가장 많이 판매된 4권의 작품 리뷰에 대해 텍스트 마이닝을 실시하였다. 분석 결과 스토리, 등장인물, 작가 순으로 관심을 둔 리뷰가 많았음을 알 수 있었으며, 평점이 낮은 리뷰로부터 번역 키워드가 도출된 것으로 보아, 번역에 대한 지원을 확대하는 것이 필요할 것으로 보인다.

모바일 결제 서비스에 대한 미래신호 예측 - 중국시장을 대상으로 - (Exploring Future Signals for Mobile Payment Services - A Case of Chinese Market -)

  • 현빈;백승익
    • 서비스연구
    • /
    • 제13권1호
    • /
    • pp.96-107
    • /
    • 2023
  • 본 연구에서는 모바일 결제 서비스 이용률이 세계에서 가장 높은 중국 이용자들을 대상으로 어떤 이슈에 관심이 있는지를 미래신호 예측 방법론을 이용하여 예측하여 보았다. 이를 위하여 중국의 SNS 사이트로부터 모바일 결제와 연관된 텍스트 데이터를 수집한 후, 문장에서 추출한 키워드들을 키워드 등장 지도 (KEM: Keyword Emergence Map)와 키워드 이슈 지도 (KIM: Keyword Issue Map)를 이용하여 강신호, 약신호, 잠재신호, 그리고 강하지만 증가율이 낮은 신호로 분류하였다. 한 걸음 더 나아가서 본 연구에서는 4가지 종류의 신호를 구체적으로 이해하기 위해서 각 신호와 연관된 텍스트를 추가적으로 정성적인 분석을 실시하였다. 그 결과, 현재 뿐만 아니라 본 연구 기간 동안 키워드 출현 빈도가 빠르게 성장하고 있는 강신호에는 버스, 지하철, 가계부와 같이 중국인들의 일상생활과 관련된 키워드가 많이 포함되어 있음을 발견하였고, 현재에는 자주 등장하지만 강신호와는 달리 증가율이 낮은 신호에는 홍바오 (현금결제), 은행카드와 같이 현금 결제를 대체할 수 있는 다양한 서비스가 언급되었음을 발견하였다. 다른 신호에 비하여 출현 빈도가 저조한 약신호와 잠재신호에는 서비스 규정 변화나 이벤트와 연관된 키워드들이 포함되었다. 본 연구 결과를 통하여 모바일 결제 서비스는 중국 이용자들에게 편리함을 제공하는 것을 넘어서 그들의 일상생활을 크게 변화시켰음을 알 수 있었다. 그리고 신용카드 결제가 보편화되지 않은 중국에서 모바일 결제 서비스는 현금결제를 완전히 대체할 수 있는 서비스로 성장할 가능성이 높음을 알 수 있었다.

공사일지의 텍스트 마이닝을 통한 우천 공기지연 리스크 정량화 (Quantification of Schedule Delay Risk of Rain via Text Mining of a Construction Log)

  • 박종호;조민건;엄세호;박선규
    • 대한토목학회논문집
    • /
    • 제43권1호
    • /
    • pp.109-117
    • /
    • 2023
  • 건설공사에서의 공기지연은 공사금액 증가, 발주처 클레임, 무리한 공기단축에 따른 건설공사의 질 하락 등 건설프로젝트에 악영향을 끼치는 주요 리스크 요인이다. 기존 연구에서는 공기지연 리스크의 중요도 및 우선순위를 파악하고 중요도에 따라 공정을 관리하였으나, 공기지연 리스크의 심도는 데이터 수집의 한계 등으로 정량화 연구가 미흡하다. 따라서 본 연구에서는 BERT (Bidirectional Encoder Representations from Transformers) 언어 모델을 활용하여 비정형데이터로 저장된 공사일지의 작업내용을 분석 가능한 WBS (Work Breakdown Structure) 기반의 정형데이터로 변환하고 리스크 분류 및 도출 체계, 공정계획에 사용가능한 리스크 발생확률, 리스크 확률분포(심도)의 정량화 방안을 제시하였다. 제안된 프로세스를 고속도로공사 8개 공구에 적용하여, 39개 세부 공중 중 8개의 세부 공종에서 75건의 우천 공기지연 리스크를 도출하였다. K-S 검정을 통해 4개 공종에서 유의미한 확률분포를 도출하였으며 위험도를 비교하였다. 향후 본 연구에서 제시된 프로세스는 시공단계에서 발생하는 다양한 공기지연 요인의 도출 및 심도 정량화에 적용될 수 있을 것으로 기대된다.

한국농수산대학 재학생의 학교생활 감성 분석 및 영농의지에 관한 연구 (A Study on the Sensibility Analysis of School Life and the Will to Farming of Students at Korea National College of Agricultural and Fisheries)

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제21권2호
    • /
    • pp.103-114
    • /
    • 2019
  • 본 연구에서는 한농대에 재학 중인 3학년 학생을 대상으로 대학생활 선호도 및 졸업 후 영농의지를 파악하기 위하여 설문조사를 실시하였다. 연구 분석에는 구조화되지 않은 데이터의 분석 기법으로 오피니언 마이닝과 텍스트 마이닝 기법을 이용하였으며, 텍스트 마이닝의 결과는 워드 클라우드로 시각화하여 정보를 추출하였다. 또한 감성분석 결과를 이용하여 졸업 후 농사일을 하려는 학생들의 영농의지에 대한 통계적 분석을 하였다. 대학생활 호감도 조사는 대학 이미지, 자기 역량, 기숙사, 교육시스템, 미래 비전 등 5개 분야에 전체 10개 항목에 대하여 이루어졌다. 감성 분석을 위한 긍·부정 사전은 수집된 응답지에서 긍정과 부정의 감정을 분류하여 긍정어 사전과 부정어 사전을 각각 만들어 분석에 이용하였다. 분석 결과 10개 평가항목 가운데 대학 지원 당시의 '대학 이미지', 10년 후의 '자기 모습' 항목은 70% 이상, '자기 역량'과 '현재의 한농대' 항목은 60% 이상의 긍정적 감정을 나타냈다. 반면 '대학 기숙사' '교육과정' '장기현장실습' '한국 농업의 미래' 항목에 대해서는 긍정적 감성보다 부정적 감성이 높게 나타났다. 성별, 영농기반, 입학 동기에 따른 영농의지 차이의 교차 분석에서는 성별, 입학 동기에 따른 영농의지는 통계적으로 유의미한 결과가 나타났으나, 영농기반에서는 유의미하지 않은 결과가 나타났다. 또한 영농의지에 대한 이항 로지스틱 회귀분석에서는 통계적으로 유의미한 변수는 '입학 동기'로 파악되었으며, 본인의 의지로 입학한 학생일수록 영농의지가 형성될 확률이 높게 나타났다.

토픽 모델링 기반 한국 노인의 행복과 불행 이슈 분석 (A Topic Modeling Approach to the Analysis of Seniors' Happiness and Unhappiness in Korea)

  • 문동지;연다인;김희웅
    • 경영정보학연구
    • /
    • 제20권2호
    • /
    • pp.139-161
    • /
    • 2018
  • 한국이 빠르게 고령화 사회에서 고령사회로 진입함에 따라 성공적인 노화, 노후 생활이 개인뿐만 아니라 사회적으로도 관심을 받고 있다. 이에 본 연구는 노인의 행복과 불행 관련된 신문 기사를 통해 전체적인 이해와 더불어 제안을 하기 위한 목적으로 연구를 진행했다. 노인의 행복과 불행에 관련된 기존 연구는 연구대상의 특성상 인터뷰 혹은 인터뷰를 동반한 설문조사의 방법론을 사용해 영향요인을 재확인하거나, 단일효과를 검증하는데 머물렀다. 또한 노인의 행복과 불행에 영향을 미치는 중요한 요인 파악과 더불어 정부, 기업, 가정 및 기타 사회 복지기관으로 분류하여 실증적인 행복 증진, 불행 경감 방안을 제시한 연구가 이루어지지 않았다. 따라서 본 연구는 Alderfer의 ERG 이론을 기반으로 검색어를 선정해 18년간(수집 기간: 2001. 08~2018. 02) 온라인 신문기사를 총 211,309건(행복: 200,246건, 불행: 11,063건)을 수집하여 연구를 진행했다. 분석결과 행복 관련 토픽은 연금, 사회 인프라, 건강, 공동체, 복지, 문화생활, 성공적인 노후, 봉사, 종교, 귀농으로 도출되었고, 불행 관련 토픽은 노인 우울, 복지 부족, 종교 의지, 질병, 은퇴 후 소득, 문화, 봉사, 역사적 사건, 예술, 가족 단절로 나타났다. 추가로 토픽 네트워크 분석을 통하여 각 토픽의 키워드 사이의 네트워크를 시각화했다. 따라서 본 연구는 결과를 통한 실현 가능한 제안을 했다는 점을 시사한다.

데이터 분석을 통한 UX 방법론 연구 고객 세그먼트 분류를 통한 페르소나 도출을 중심으로 (UX Methodology Study by Data Analysis Focusing on deriving persona through customer segment classification)

  • 이슬이;박도형
    • 지능정보연구
    • /
    • 제27권1호
    • /
    • pp.151-176
    • /
    • 2021
  • 정보기술 산업이 발전됨에 따라 다양한 종류의 데이터가 생겨나고 있고 이를 가공하여 산업에 활용하는 것이 필수인 시대가 되었다. 온 오프라인 상에서 수집된 다양한 디지털 데이터를 분석하여 활용하는것은 산업 내의 고객에게 적합한 경험을 제공하기 위해서 꼭 필요한 과정이다. 새로운 비즈니스, 제품, 서비스를 창출하기 위해서는다방면에서 수집된 고객 데이터를 활용하여잠재고객의 니즈를 깊게 파악하고 행동패턴을 분석하여 숨겨진 욕망의 신호를 잡아내는것이 필수이다. 그러나 효과적인 서비스 개발을 위해서 병행해서 진행되어야 할 데이터 분석, UX 방법론을 활용한 연구는 각각 따로 진행되고 있고 산업 내의 활용 예시가 부족한 것이 사실이다. 본 연구에서는 데이터 분석 방법과 UX 방법론을 응용하여 하나의 프로세스를 제작하였다. 행복을 주제로 진행된 설문조사에서 추출된 고객 데이터를 활용하여 고객의 특성을 파악하기 위한 데이터 분석을 진행하였다. 요인, 회귀분석을 실시하여 행복 데이터 설문의 요인 간의 연관 관계를 확인하였다. 그 다음 연관 관계를 군집을 분류하고 가장 최적의 군집 수를 추출하여분류하였다. 이러한 결과를 바탕으로 교차분석을 진행하여 군집 별로 인구통계학적 특성을 확인하였다. 세그먼트를 분류하기 전 서비스 정의를 하기 위하여 뉴스 기사 및 SNS 문장들을 바탕으로 텍스트 마이닝을 통해 주요 키워드를 바탕으로 아이디어를 도출하였고 이중에 가장 타당한 서비스를 선택하였다. 이러한 결과를 바탕으로 세그먼트및 목표 고객을 선정한 후 세그먼트의 특성대로 대상자를 선정하여 인터뷰를진행하였다. 그 후 특성 및 프로파일정보를 활용하여 페르소나를 제작하여고객의 행동과 최종 목표를 서술하였다. 일반적인페르소나와 데이터를 활용한 페르소나를 비교하여 각각의 특성을 비교 분석하였다. 본 연구를 통해 도출된 프로세스는 다변화되는 서비스의 변화 상황에서 적절한 타겟 고객의 정의 및 정확한 분류 체계로 나뉘어진 고객군을파악 할 수 있는 방법을 제시 한 것에 의의가 있다.

청각 장애인용 홈 모니터링 시스템을 위한 다채널 다중 스케일 신경망 기반의 사운드 이벤트 검출 (Sound event detection based on multi-channel multi-scale neural networks for home monitoring system used by the hard-of-hearing)

  • 이기용;김형국
    • 한국음향학회지
    • /
    • 제39권6호
    • /
    • pp.600-605
    • /
    • 2020
  • 본 논문에서는 청각 장애인을 위한 소리 감지 홈 모니터링을 위해 다채널 다중 스케일 신경망을 사용한 사운드 이벤트 검출 방식을 제안한다. 제안하는 시스템에서는 홈 내의 여러 무선 마이크 센서들로부터 높은 신호 품질을 갖는 두 개의 채널을 선택하고, 그 신호들로부터 도착신호 지연시간, 피치 범위, 그리고 다중 스케일 합성 곱 신경망을 로그멜 스펙트로그램에 적용하여 추출한 특징들을 양방향 게이트 순환 신경망 기반의 분류기에 적용함으로써 사운드 이벤트 검출의 성능을 더욱 향상시킨다. 검출된 사운드 이벤트 결과는 선택된 채널의 센서 위치와 함께 텍스트로 변환되어 청각 장애인에게 제공된다. 실험결과는 제안한 시스템의 사운드 이벤트 검출 방식이 기존 방식보다 우수하며 청각 장애인에게 효과적으로 사운드 정보를 전달할 수 있음을 보인다.

Methodology for Identifying Key Factors in Sentiment Analysis by Customer Characteristics Using Attention Mechanism

  • Lee, Kwangho;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.207-218
    • /
    • 2020
  • 최근 온라인 리뷰의 증가와 분석 기술의 발달로 인해 온라인 리뷰 분석에 대한 관심과 수요가 지속적으로 증가하고 있다. 하지만 리뷰 분석을 다룬 기존의 연구는 동일한 어휘라도 각 어휘에 담긴 감정은 리뷰어에 따라 서로 다를 수 있다는 점을 반영하지 못했다는 한계를 갖는다. 따라서 본 연구에서는 고객의 등급에 따라 고객군을 분류하고, 각 고객군별로 리뷰 분석을 수행하여 그 차이를 분석한 결과를 제시하였다. 의류 전문 쇼핑몰인 'M'사의 리뷰에 대한 분석을 수행한 결과, 쇼핑몰 사용도가 높은 고객의 경우 가격적인 요소가, 쇼핑몰 사용도가 낮은 고객의 경우 쇼핑몰에 소개된 내용과 실제 제품의 일치 정도가 제품의 긍/부정 평가에 크게 영향을 미치는 것으로 파악되었다. 제안 방법론은 고객군별로 제품 평가에 중요하게 영향을 미치는 요소를 식별함으로써, 차별화된 마케팅 전략을 수립하는 데에 효과적으로 활용될 수 있을 것으로 기대한다.

개인정보관리를 위한 스케치기반 그래프 컨트롤 사용자 인터페이스 기법 (Sketch-based Graph-Control User Interface Method for Personal Information Management)

  • 김정진;박태진;전재웅;최윤철
    • 한국멀티미디어학회논문지
    • /
    • 제12권7호
    • /
    • pp.893-902
    • /
    • 2009
  • 현대인들은 이미지, 그래픽, 애니메이션, 텍스트, 음악파일 등 개인이 관심 있는 다양한 정보를 수집하고 관리하는데 하루의 대부분 시간을 소비하고 이를 다른 사람들과 같이 공유하며 즐기고 있다. 그러나 대부분 사용자들이 이러한 개인 관심정보를 관리하는 방법은 Microsoft Explorer와 같은 정형화된 어플리케이션 인터페이스를 이용하여 트리 형태로 폴더를 생성하고 폴더 안에 직접 파일들을 분류하는 획일적인 방식이다. 이러한 트리 구조 어플리케이션에서는 자료들 간의 연관관계를 직관적으로 보여주기 어려운 문제점이 있고 자료들 간의 연관관계가 변경되었을 시 이를 적용하기 위한 인터페이스가 매우 복잡하거나 존재하지 않는다. 본 연구에서는 개인정보관리 시스템에 스케치기반 인터페이스 기법을 적용하여 마치 종이에 스케치를 하듯이 개인 정보를 관리할 수 있는 시스템을 개발한다. 제안하는 시스템을 이용하여 사용자는 그래프 노드와 링크를 생성하고 자신이 관심 있는 자료와 그 연관관계를 직관적으로 표현할 수 있으며 정보관리 시 발생할 수 있는 다양한 변경 사항을 제공되는 스케치 인터페이스를 이용하여 손쉽게 처리할 수 있다.

  • PDF