• 제목/요약/키워드: 텍스트분류

검색결과 684건 처리시간 0.025초

감정 온톨로지의 구축을 위한 구성요소 분석 (Component Analysis for Constructing an Emotion Ontology)

  • 윤애선;권혁철
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.157-175
    • /
    • 2010
  • 의사소통에서 대화자 간 감정의 이해는 메시지의 내용만큼이나 중요하다. 비언어적 요소에 의해 감정에 관한 더 많은 정보가 전달되고 있기는 하지만, 텍스트에도 화자의 감정을 나타내는 언어적 표지가 다양하고 풍부하게 녹아들어 있다. 본 연구의 목적은 인간언어공학에 활용할 수 있는 감정 온톨로지를 구축할 수 있도록 그 구성요소를 분석하는 데 있다. 텍스트 기반 감정 처리 분야의 선행 연구가 감정을 분류하고, 각 감정의 서술적 어휘 목록을 작성하고, 이를 텍스트에서 검색함으로써, 추출된 감정의 정확도가 높지 않았다. 이에 비해, 본 연구에서 제안하는 감정 온톨로지는 다음과 같은 장점이 있다. 첫째, 감정 표현의 범주를 기술 대상과 방식에 따라 6개 범주로 분류하고, 이들 간 상호 대응관계를 설정함으로써, 멀티모달 환경에 적용할 수 있다. 둘째, 세분화된 감정을 분류할 수 있되, 감정 간 차별성을 가질 수 있도록 24개의 감정 명세를 선별하고, 더 섬세하게 감정을 분류할 수 있는 속성으로 강도와 극성을 설정하였다. 셋째, 텍스트에 나타난 감정 표현을 명시적으로 구분할 수 있도록, 경험자 기술 대상과 방식 언어적 자질에 관한 속성을 도입하였다. 넷째, 본 연구의 감정분류는 Plutchik의 분류와 호환성을 갖고 있으며, 언어적 요소의 기술에서 국제표준의 태그세트를 수용함으로써, 다국어 처리에 활용을 극대화할 수 있도록 고려했다.

  • PDF

이미지와 텍스트 정보의 카테고리 분류에 의한 SNS 팔로잉 추천 방법 (Recommendation Method of SNS Following to Category Classification of Image and Text Information)

  • 홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권3호
    • /
    • pp.54-61
    • /
    • 2016
  • 다양한 스마트 디바이스의 발전에 따라 거리, 공간의 제약 없이 실시간으로 의사소통, 정보공유 등이 가능한 SNS(Social Network Service)를 즐기는 사용자(User)가 증가하고 있다. 의사소통, 관계 형성에 중점을 두었던 SNS 사용자들이 정보공유의 기능으로 SNS를 활용하는 추세이다. 본 논문에서는 사용자의 SNS 게시글을 이용하여 카테고리를 추출하고 정보제공자(Information provider)를 팔로잉 추천해주는 방법을 기술한다. 게시글의 텍스트에서 단어를 분류하고 빈도수를 측정하며, 머신 러닝 기법 중 하나인 CNN(Convolutional Neural Network)을 바탕으로 구축한 Inception-v3 모델을 이용하여 이미지를 단어로 분류한다. 텍스트와 이미지에서 분류한 단어를 DMOZ 기준으로 카테고리 분류하여 정보제공자 DB를 구축한다. 정보제공자 DB의 카테고리와 게시글에서 분류한 사용자의 카테고리를 비교한다. 카테고리가 일치할 경우 카테고리에 분류되어 있는 정보 제공자들를 대상으로 유사도를 측정하여 가장 비슷한 정보제공자의 계정을 추천해주는 방법에 대해 제안한다.

한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축 (Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts)

  • 노은정;이연수;김연우;이도길
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

텍스트 기반 교통사고 특징 추출 및 분류 방법 (Text-based Feature Extraction and Classification Method of Traffic Accidents)

  • 왕지강;성연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.436-437
    • /
    • 2022
  • 차량에 부착된 블랙박스의 교통사고 동영상은 사고 발생시 사고를 분석하기 위한 핵심 자료로 다양하게 활용되고 있다. 교통사고 동영상을 자동으로 분류할 수 있다면, 해당 동영상의 활용도를 더욱 높일 것으로 판단된다. 본 논문에서는 텍스트 기반 교통사고 특징 추출 및 분류 방법을 제안한다. 교통사고 동영상을 변환한 JSON 파일에서 불변 특징, 정적 특징 그리고 동적 특징을 추출하고 결합하여 합성 특징을 생성한다. 마지막으로 합성 특징을 사용하여 교통사고 동영상을 분류한다.

유튜브 메타정보를 이용한 자동 주제 분류 고찰 (Analysis of Automatic Topic Classification using Youtube Meta Information)

  • 김용우;전성배;정유철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.349-351
    • /
    • 2021
  • Youtube 동영상 업로드 시, 사용자가 직접 주제를 설정해야 하는 어려움이 있다. 본 연구에서는 사용자가 입력하는 제목과 설명정보를 이용하여 자동으로 주제를 분류하는 연구를 진행하였다. 이를 위해 한국어기반의 컨텐츠 중 고빈도의 8개 주제 카테고리를 선정하고, 이를 1.3만건의 학습데이터를 크롤링을 통해 구축하였다. 또한, 다양한 알고리즘들에 대한 최대성능을 확인하기 위해 대표적인 텍스트 분류 방법인 SVM과 LSTM기법 및 BERT 모델기반 미세적용(fine-tuning)을 시도하였다. 결과적으로 Bert-multiligual (base)를 fine-tuning한 실험에서 최대 94%의 정확도를 확인하였다. 하지만, Youtube 동영상 특성상 여러 주제를 가진 것들이 상당수 존재하기에, 실제 체감정확도는 더 높을 것으로 기대된다.

  • PDF

연구 동향 분석을 위한 텍스트 마이닝 기반 GPT 활용 기법 (Text mining based GPT utilization technique for research trend analysis)

  • 하정훈;최봉준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.369-370
    • /
    • 2023
  • 새로운 연구를 시작하기 위해서는 과거의 연구 동향을 분석해야 한다. 이를 위해 많은 양의 과거 연구 데이터를 조사해야 하는데, 모든 데이터를 직접 분류하는 방법은 많은 시간과 노력이 필요하기 때문에 비효율적이며, 텍스트 마이닝 기법을 활용한 키워드분석만으로는 연구 동향을 이해하기에 어려움이 존재한다. 이러한 전통적인 키워드 추출 방법의 한계점을 보완하기 위해 본 논문에서는 텍스트 마이닝 기반 GPT 활용 기법을 제안한다. 본 연구에서는 특정 도메인에 대해 텍스트 마이닝 기법을 활용하여 키워드를 추출하고, 이러한 키워드를 해당 도메인의 데이터로 미세 조정(fine-tuning)된 GPT의 입력으로 사용한다. GPT 결과로 생성된 문장을 텍스트 마이닝으로 나온 결과와 비교 분석한다. 이를 통해 연구 분야의 동향 분석을 보다 쉽게 할 수 있을 것으로 기대된다.

  • PDF

신경망 또는 k-NN에 의한 신문 기사 분류와 그의 성능 비교 (The Comparison of Neural Network and k-NN Algorithm for News Article Classification)

  • 조태호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.363-365
    • /
    • 1998
  • 텍스트 마이닝(Text Mining)이란 텍스트형태의 문서들의 패턴 또는 관계를 추출하여 사용자가 원하는 새로운 정보를 가공하거나 기존의 정보를 변형하는 과정을 말한다. 텍스트 마이닝의 기능에는 문서 범주화(Document Categorization), 문서 군집화(Document Clustering), 그리고 문서 요약(Document Summarization)이 이에 해당된다. 문서 범주화란 문서에게 사전에 정의한 범주를 부여하는 과정을 말하고, 문서 군집화란 문서들을 계층적 구조로 형성하는 과정을 말하고, 문서 요약이란 문서의 전체 내용을 대표할 수 있는 내용의 일부만을 추출하는 과정을 말한다. 이 논문에서는 문서 범주화만을 다룰 것이며 그 대상으로는 신문기사로 설정하였다. 그의 범주는 4가지로 정치, 경제, 스포츠, 그리고 정보통신으로 설정하였다. 문서 범주화는 문서 분류(Document Classification)라고도 하며 문서에 범주를 자동으로 부여하여 기존에 인위적으로 부여함으로써 소요되는 시간과 비용을 절감하는 것이 목적이다. 문서 범주화에 대하여 k-NN(k-Nearest Neighbor)와 신경망을 이용하였으며, 신경망을 이용한 경우가 k-NN을 이용한 경우보다 성능이 우수하였다.

  • PDF

채팅 텍스트로부터의 회자 감정상태 학습 (Learning Emotional States of Chatting Partners from Text Data)

  • 문현구;장벽탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.340-342
    • /
    • 2001
  • 현재 인터넷 환경에서 텍스트는 다루기 쉽고 부하가 적어 가장 많이 사용되는 통신 수단이다. 그러나 화상 채팅과는 달리 자신의 표정이나 체스춰를 전달할 수 있는 방법이 없기 때문에 표현상의 한계가 있다. 이 글은 일상 대화를 텍스트로 입력받아, naive Bayes 알고리즘을 사용해 미리 정의된 감정 범주, 즉 울기, 웃기, 화내기 등으로 분류해 주는 방법에 관해 다루고 있다. 채팅사이트에서 수집된 학습데이터는 사람에 의해 해당 감정 범주로 태깅되고, 이렇게 태깅된 데이터가 학습엔진에 의해 통계 정보로 구축되면, 실제 채팅사이트에서 감정인식 엔진은 입력된 데이터를 분석해 해당 감정으로 분류한다. 연령별로 5개의 그룹으로 나눈 대화방에서 각각 1000문장씩 테스트해본 결과 평균 91.6%의 정확도를 얻을 수 있었다.

  • PDF

소설 속 인물의 감정 분석을 위한 감정 용언 사전 제안 (Emotion Verb Dictionary for Emotional Analysis on Characters in Novel)

  • 김규희;이수린;김명재
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.576-581
    • /
    • 2022
  • 감정 분석은 긍부정의 극성을 판단하는 감성 분석과 달리 텍스트로부터 구체적인 감정 유형을 분류해내는 과제이다. 본 논문에서는 소설 텍스트에 감정 분석을 수행하는 것을 새로운 과제로 설정하고, 이에 활용할 수 있는 감정 용언 사전을 소개한다. 이 사전에는 맥락과 상관없이 동일한 감정을 전달하는 직접 감정 표현과 맥락에 따라 다른 감정으로 해석될 수 있는 간접 감정 표현이 구분되어 있다. 우리는 이로써 한국어 자연어처리 연구자들이 소설의 풍부한 감정 표현 텍스트로부터 정확한 감정을 분류해낼 수 있도록 그 단초를 마련한다.

  • PDF

멀티모달 감정 인식 AI 기술을 이용한 우울증 예방 플랫폼 구축 (Development of a Depression Prevention Platform using Multi-modal Emotion Recognition AI Technology)

  • 장현빈;조의현;권수연;임선민;조세린;나정은
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.916-917
    • /
    • 2023
  • 본 연구는 사용자의 음성 패턴 분석과 텍스트 분류를 중심으로 이루어지는 한국어 감정 인식 작업을 개선하기 위해 Macaron Net 텍스트 모델의 결과와 MFCC 음성 모델의 결과 가중치 합을 분류하여 최종 감정을 판단하는 기존 82.9%였던 정확도를 텍스트 모델 기준 87.0%, Multi-Modal 모델 기준 88.0%로 개선한 모델을 제안한다. 해당 모델을 우울증 예방 플랫폼의 핵심 모델에 탑재하여 covid-19 팬데믹 이후 사회의 문제점으로 부상한 우울증 문제 해소에 기여 하고자 한다.