• Title/Summary/Keyword: 텍스트 연구

Search Result 3,471, Processing Time 0.033 seconds

Chunking Annotation Corpus Construction for Keyword Extraction in News Domain (뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축)

  • Kim, Tae-Young;Kim, Jeong Ah;Kim, Bo Hui;Oh, Hyo Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary (감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석)

  • Jang, Yeonji;Choi, Jiseon;Park, Seoyoon;Kang, Yejee;Kang, Hyerin;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF

Study on Generation of Children's Hand Drawing Learning Model for Text-to-Image (Text-to-Image를 위한 아동 손그림 학습 모델 생성 연구)

  • Lee, Eunchae;Moon, Mikyeong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.505-506
    • /
    • 2022
  • 인공지능 기술은 점차 빠른 속도로 발전되며 응용 분야가 확대되어 창작 산업에서의 역할도 커져 예술, 영화 및 기타 창조적인 산업에도 영향을 주고 있다. 이러한 인공지능 기술을 이용하여 텍스트로 설명하면 다양한 스타일의 이미지를 생성해내는 기술이 있지만 아동이 직접 그린 손그림 스타일의 그림을 생성하지는 못한다. 본 논문에서는 아동 손그림 데이터를 통해 Text-to-Image를 학습시켜 새로운 학습 모델을 생성하는 과정에 대해서 기술한다. 이 연구를 통해 생성된 픽셀을 결합하여 텍스트를 기반으로 하나의 아동 손그림을 만들 수 있을 것으로 기대한다.

  • PDF

Data Preprocessing Algorithm for Developing Voice Recognition-based Shopping Applications (음성 인식 기반 쇼핑 어플리케이션 개발을 위한 데이터 전처리 알고리즘)

  • Gu, Yeonwoo;Park, Eunbi;Choo, Seoyeon;Kim, Yujeong
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.1006-1008
    • /
    • 2022
  • 시각장애인이 이미지로 구성된 온라인 쇼핑몰에서 정보를 얻기 어려운 문제를 해결하기 위해, 본 논문에서는 이미지 텍스트 변환 알고리즘 연구를 진행하였다. 해당 연구를 기반으로 개발한 어플리케이션 <들리네>는 쇼핑몰 홈페이지로부터 정보를 수집하고, 이미지 속 텍스트를 추출하여 전처리 및 음성 변환 과정을 거쳐 사용자에게 제공한다. <들리네>는 사용자가 이미지 정보로 이루어진 온라인 쇼핑몰에서 명확한 정보를 편리하게 얻는 것을 목표로 한다.

재결서 키워드 분석을 통한 해양사고 위험요인 식별 연구

  • 임광현;백연지;최충정;양지민;고우리;노유나
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2023.05a
    • /
    • pp.148-149
    • /
    • 2023
  • 우리나라에서는 매년 2천여 건 이상의 해양사고가 발생하고 있으며, 정부는 해양사고의 발생 현황 및 원인분석을 통해 사고 저감을 위한 정책을 수립하고 있다. 중앙해양안전심판원에서는 '해양사고심판법'에 따라 해양사고의 원인을 조사하여 이를 재결서의 형태로 공개하고 있다. 이번 연구에서는 재결서의 원인판단 주제어를 기반으로 텍스트 마이닝을 수행하여 사고 종류별 해양사고 위험요인을 식별하였다. 도출된 키워드는 해양사고의 발생 원인과 밀접한 관계가 있는 키워드로 볼 수 있으므로, 해양사고의 원인분석 및 사고 예방대책 수립에 활용될 수 있을 것으로 전망된다.

  • PDF

A Study on Korean Pause Prediction based Large Language Model (대규모 언어 모델 기반 한국어 휴지 예측 연구)

  • Jeongho Na;Joung Lee;Seung-Hoon Na;Jeongbeom Jeong;Maengsik Choi;Chunghee Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

The Research on Emotion Recognition through Multimodal Feature Combination (멀티모달 특징 결합을 통한 감정인식 연구)

  • Sung-Sik Kim;Jin-Hwan Yang;Hyuk-Soon Choi;Jun-Heok Go;Nammee Moon
    • Annual Conference of KIPS
    • /
    • 2024.05a
    • /
    • pp.739-740
    • /
    • 2024
  • 본 연구에서는 음성과 텍스트라는 두 가지 모달리티의 데이터를 효과적으로 결합함으로써, 감정 분류의 정확도를 향상시키는 새로운 멀티모달 모델 학습 방법을 제안한다. 이를 위해 음성 데이터로부터 HuBERT 및 MFCC(Mel-Frequency Cepstral Coefficients)기법을 통해 추출한 특징 벡터와 텍스트 데이터로부터 RoBERTa를 통해 추출한 특징 벡터를 결합하여 감정을 분류한다. 실험 결과, 제안한 멀티모달 모델은 F1-Score 92.30으로 유니모달 접근 방식에 비해 우수한 성능 향상을 보였다.

A Study on Intertextuality in <2013 Home of the Legends> (연작 웹툰 《2013 전설의 고향》에 나타나는 상호텍스트성 연구)

  • Yang, Hyelim
    • Cartoon and Animation Studies
    • /
    • s.34
    • /
    • pp.293-316
    • /
    • 2014
  • (傳說의 故鄕) is a broadcast play as one-act play series based on Korean legends and folktales. It was first aired in 1977 from KBS and there has been borrowed from this play in a variety of genres such as books and movies as the name of this series securing its popularity and awareness of the public. In this context, this is a representative work for Korean horror genre. Recently, for example, a series webtoon <2013 Home of the Legends> is published on one of the main portal websites, NAVER from July, 2013. This webtoon is main subject of this study. The purpose of this study is to discuss how the genre characteristics of Korean horror in TV serial play transmitted and changed in series webtoon <2013 Home of the Legends>. TV serial play is a representative narrative based on Korean folktales, trying to change its narrative in the range of undestroyed folktale basic move with combining the original motifs. Serial webtoon <2013 Home of the Legends>, however, deconstructs this combination motif in folktale form and leads to new move in narrative. For Korean users accustomed to Korean folktale form as the architext, this will be expected as reversal and make catharsis. Meanwhile, the deconstruction of combination motif leads to extinction of its cause-and-effect, which consists the axis of original narrative form, with resulting powerless theme, good overcoming evil and punitive justice. The aspects of changes in <2013 Home of the Legends> represent new orientation of Korean horror.

An Intertextual Approach to Narcissa Benbow in Sanctuary, Sartoris and "There Was a Queen" (나시서 벤보우에 관한 상호텍스트적 연구)

  • Shin, Young-Hun;Kang, Ji-Hyun
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.2
    • /
    • pp.300-309
    • /
    • 2020
  • Recent studies on William Faulkner's female characters have overcome much of the stereotyped and dichotomous approaches of the past by uncovering their subversive characteristics. Nevertheless, they still present some limitations in regards to analyzing the characters based on individual texts. This paper attempts an inter-textual approach to Narcissa Benbow, the central character of Sanctuary, Sartoris and "There Was a Queen." In Sanctuary, Narcissa, a young widow of a Southern aristocratic family, harshly accuses her brother Horace, a lawyer of taking a murder suspect's wife and her infant child to their old house. She is afraid that their existence could harm the reputation of her family and herself. Eventually, she kicks them out of the house. In contrast, she is described as being friendly and calm in Sartoris. In addition, in "There Was a Queen," Narcissa makes an attempt to get an obscene letter back from an FBI agent in exchange for a sexual favor in order to prevent the letter from being disclosed. This paper takes into account the possibility of seeing these incoherent or even contradictory aspects of her characterization with a consistent view. This confirms that an inter-textual approach is needed to properly understand those round female characters created by Faulkner.

Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels (TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구)

  • You, Eun-Soon;Choi, Gun-Hee;Kim, Seung-Hoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.20 no.2
    • /
    • pp.121-129
    • /
    • 2015
  • With the explosive growth of information about books, there is a growing number of customers who find it difficult to pick a book. Against the backdrop, the importance of a book recommendation system becomes greater, through which appropriate information about books could be offered then to encourage customers to buy a book in the end. However, existing recommendation systems based on the bibliographical information or user data reveal the reliability issue found in their recommendation results. This is why it is necessary to reflect semantic information extracted from the texts of a book's main body in a recommendation system. Accordingly, this paper suggests a method for extracting keywords from the main body of novels, as a preceding research, by using TF-IDF method as well as the text structure. To this end, the texts of 100 novels have been collected then to divide them into four structural elements of preface, dialogue, non-dialogue and closing. Then, the TF-IDF weight of each keyword has been calculated. The calculation results show that the extraction accuracy of keywords improves by 42.1% in performance when more weight is given to dialogue while including preface and closing instead of using just the main body.