• 제목/요약/키워드: 텍스트 데이터 분석

검색결과 1,095건 처리시간 0.033초

한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안 (Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions)

  • 김재민;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

미디어에 나타난 직업 관련 데이터의 분석 (Analysis of Job Data on Media)

  • 반재훈;정윤성;정동민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.152-155
    • /
    • 2018
  • 과거와는 비교 할 수 없을 만큼 방대한 양의 데이터가 생산되는 정보화 시대에서 과거와 현재의 데이터를 비교 분석하는 것이 매우 중요하다. 이러한 데이터를 분석하는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 미디어에 나타난 직업 관련 빅데이터를 분석한다. 다양한 미디어에서 직업 관련 데이터를 수집하고 어떠한 텍스트가 분포되어 있는지 빈도 조사를 수행한다.

  • PDF

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

네이버 영화 리뷰 데이터를 이용한 의미 분석(semantic analysis) (Semantic analysis via application of deep learning using Naver movie review data)

  • 김소진;송종우
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.19-33
    • /
    • 2022
  • SNS의 등장으로 인터넷 이용자들이 온라인에 남기는 텍스트의 양이 방대해지고 그 중요성이 강조되고있다. 특히 네이버의 영화 탭에서 볼 수 있는 영화 평점이나 리뷰는 실제로 관객들이 영화를 보기 전 해당 영화를 볼 것인지 결정하는 데 주요 요인이 되기도 한다. 본 연구는 실제 네이버 영화 리뷰 데이터를 가지고 평점을 예측하는 분석을 수행했다. 영화 리뷰 데이터를 분석하기 위해 평점의 분포를 통해 데이터 특성을 살펴보았고, 텍스트의 의미를 분석하기 위해 형태소 분석을 통한 한국어 자연어처리를 수행했다. 또한 평점 예측에 활용할 모델 선택을 위해 2-Class와 multi-Class 문제들에 대해 머신러닝과 딥러닝, 회귀와 분류 분석을 비교했으며, 오분류의 원인을 영화 리뷰 데이터 특성과 연관시켜 서술했다.

노인 인지능력 개선을 위한 헬스케어 서비스디자인 연구: 비정형 데이터 분석을 중심으로 (A Study on Health Care Service Design for the Improvement of Cognitive Abilities of the Senior Citizens: Focusing on Unstructured Data Analysis)

  • 김성호;김협
    • 지식경영연구
    • /
    • 제23권4호
    • /
    • pp.69-89
    • /
    • 2022
  • 초고령사회로 접어들면서 노인의 건강 문제는 의료분야를 포함해 경제, 사회, 문화 등 다양한 분야에 영향을 미치고 있다. 본 연구에서는 노인의 인지능력 개선을 위한 디지털 헬스케어 서비스디자인을 적용하기 위하여 텍스트마이닝, 사회연결망 분석 등 비정형 데이터를 분석하여 시사점을 도출하고자 한다. 본 연구의 연구 절차는 서비스디자인 방법론을 비정형 데이터 분석에 적합한 프로세스로 개선하여 6단계로 적용하였다. 소셜미디어에 존재하는 노인인지 개선, 헬스케어를 중심으로 관련 키워드를 수집 및 분석하였고, 이 결과를 바탕으로 노인 인지능력 개선을 위한 헬스케어 서비스디자인의 방향성을 도출하였다. 본 연구의 결과는 빅데이터 분석 방법의 활용 범위 확장 및 기존 헬스케어 서비스 개발 방법론 개선에 도움을 줄 수 있는 학술적, 실무적 시사점을 제공할 것으로 사료된다.

텍스트와 음성의 앙상블을 통한 다중 감정인식 모델 (Multi-Emotion Recognition Model with Text and Speech Ensemble)

  • 이명호;임명진;신주현
    • 스마트미디어저널
    • /
    • 제11권8호
    • /
    • pp.65-72
    • /
    • 2022
  • COVID-19로 인해 대면으로 이루어지던 상담 방식이 비대면으로 진행되면서 비대면 상담의 중요성이 높아지고 있다. 비대면 상담은 온라인으로 언제 어디서든 상담할 수 있고, COVID-19에 안전하다는 장점이 있다. 그러나 비언어적 표현의 소통이 어려워 내담자의 마음을 이해하기 어렵다. 이에 비대면 상담 시 내담자의 마음을 잘 알기 위해서는 텍스트와 음성을 정확하게 분석하여 감정을 인식하는 것이 중요하다. 따라서 본 논문에서는 텍스트 데이터는 자음을 분리한 후 FastText를 사용하여 벡터화하고, 음성 데이터는 Log Mel Spectrogram과 MFCC를 사용하여 각각 특징을 추출하여 벡터화한다. 벡터화된 데이터를 LSTM 모델을 활용하여 5가지 감정을 인식하는 다중 감정인식 모델을 제안한다. 다중 감정인식은 RMSE을 활용하여 계산한다. 실험 결과 텍스트와 음성 데이터를 각각 사용한 모델보다 제안한 모델의 RMSE가 0.2174로 가장 낮은 오차를 확인하였다.

이산 푸리에 변환을 적용한 텍스트 패턴 분석에 관한 연구 - 표절 문장 탐색 중심으로 - (A Study on Text Pattern Analysis Applying Discrete Fourier Transform - Focusing on Sentence Plagiarism Detection -)

  • 이정송;박순철
    • 한국산업정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.43-52
    • /
    • 2017
  • 패턴 분석은 신호 및 영상 처리와 텍스트 마이닝 분야에서 가장 중요한 기술 중 하나이다. 이산 푸리에 변환(Discrete Fourier Transform: DFT)은 일반적으로 신호와 영상의 패턴을 분석하는데 사용된다. 본 논문에서는 DFT가 텍스트 패턴 분석에도 적용될 수 있음을 가정하고 문서의 텍스트 패턴이 다른 문서에서도 존재하는지를 탐색하는 표절 문장 탐색에 세계 최초로 적용하였다. 이를 위해 텍스트를 ASCII 코드로 변환하여 신호화하고 복사/붙여넣기, 용어의 재배치 등 단순한 표절 형태의 탐색은 Cross-Correlation(상호상관)을 이용하였다. 또한 유의어를 사용하거나 번역 및 요약 등의 표절 형태를 탐색하기 위해 워드넷(WordNet) 유사도를 사용하였다. 실험을 위해 표절 탐색 분야의 저명한 워크숍인 PAN에서 제공하는 공식적인 데이터 셋(2013 Corpus)을 사용하였으며, 실험 결과 11개의 표절 문장 탐색 기법 중 4번째로 우수한 성능을 보였다.

공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구 (A Study on the Improvement of Retrieval Efficiency Based on the CRFMD)

  • 박일종;정기태
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.5-21
    • /
    • 2006
  • 최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.

앙상블 기법을 활용한 온라인 음식 상품 리뷰 감성 분석 (Sentiment analysis of online food product review using ensemble technique)

  • 김한민;박경보
    • 디지털융복합연구
    • /
    • 제17권4호
    • /
    • pp.115-122
    • /
    • 2019
  • 온라인 마켓에서 소비자는 다양한 상품을 접하고 이에 대한 의견을 자유롭게 기술한다. 소비자의 상품 리뷰가 다른 소비자와 온라인 마켓의 성공에 큰 영향을 주는 만큼 온라인 마켓은 판매 상품에 대한 소비자의 감성을 정확하게 분석할 필요가 있다. 데이터 분석 기법 중 하나인 텍스트 마이닝은 상품에 대한 소비자 리뷰를 분석하여 상품을 효율적으로 관리할 수 있게 해준다. 선행 연구들은 데이터 도메인과 사이즈에 따라 분석 결과의 정확도가 다르게 나타남에도 불구하고 특정 도메인과 2만개 미만의 데이터를 분석해왔다. 또한, 분석의 정확도를 향상 시킬 수 있는 추가 요인에 대한 연구는 거의 수행하지 않았다. 본 연구는 앙상블 기법을 활용하여 기존 연구에서 주로 다루지 않은 음식 상품 도메인의 72,530개 리뷰 데이터를 분석하였다. 또한, 분석 정확도 향상과 관련하여 요약 리뷰의 영향력을 살펴보았다. 연구 결과, 본 연구는 기존 연구와 다르게 부스팅 앙상블 기법이 가장 높은 분석 정확도를 보인다는 사실을 발견하였다. 또한, 요약 리뷰는 분석의 정확도 향상에 기여하는 것으로 나타났다.