Search | Korea Science

A Study of Disfluency Processing for Dependency Parsing of Spoken (구어 의존 구문 분석을 위한 비유창성 처리 연구)

Park, Seokwon;Choe, Hyonsu;Han, Jiyoon;Oh, Taehwan;Ahn, Euijeong;Kim, Hansaem
- Annual Conference on Human and Language Technology
- /
- 2019.10a
- /
- pp.144-148
- /
- 2019
비유창성(disfluency)은 문어와 같이 정연한 구조로 말하지 못하는 현상 전반을 지칭한다. 이는 구어에서 보편적으로 발생하는 현상으로 구어 의존 구문 분석의 난이도를 상향시키는 요인이다. 본 연구에서는 비유창성 요소 유형을 담화 표지, 수정 표현, 반복 표현, 삽입 표현으로 분류하였다. 또한 유형별 비유창성 요소를 실제 말뭉치에서 어떻게 구문 주석할 것인지를 제안한다. 이와 같은 구어 데이터 처리 방식은 대화시스템 등 구어를 처리해야 하는 도메인에서의 자연언어이해 성능 향상에 기여할 것이다.
PDF

Chunking Annotation Corpus Construction for Keyword Extraction in News Domain (뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축)

Kim, Tae-Young;Kim, Jeong Ah;Kim, Bo Hui;Oh, Hyo Jung
- Annual Conference on Human and Language Technology
- /
- 2020.10a
- /
- pp.595-597
- /
- 2020
빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.
PDF

Categorization and Analysis of Error Types in the Korean Speech Recognition System (한국어 음성 인식 시스템의 오류 유형 분류 및 분석)

Son, Junyoung;Park Chanjun;Seo, Jaehyung;Lim, Heuiseok
- Annual Conference on Human and Language Technology
- /
- 2021.10a
- /
- pp.144-151
- /
- 2021
딥러닝의 등장으로 자동 음성 인식 (Automatic Speech Recognition) 기술은 인간과 컴퓨터의 상호작용을 위한 가장 중요한 요소로 자리 잡았다. 그러나 아직까지 유사 발음 오류, 띄어쓰기 오류, 기호부착 오류 등과 같이 해결해야할 난제들이 많이 존재하며 오류 유형에 대한 명확한 기준 정립이 되고 있지 않은 실정이다. 이에 본 논문은 음성 인식 시스템의 오류 유형 분류 기준을 한국어에 특화되게 설계하였으며 이를 다양한 상용화 음성 인식 시스템을 바탕으로 질적 분석 및 오류 분류를 진행하였다. 실험의 경우 도메인과 어투에 따른 분석을 각각 진행하였으며 이를 통해 각 상용화 시스템별 강건한 부분과 약점인 부분을 파악할 수 있었다.
PDF

Controlled Korean Style Transfer using BERT (BERT을 이용한 한국어 문장의 스타일 변화)

Lee, Joosung;Oh, Yeontaek;Byun, hyunjin;Min, Kyungkoo
- Annual Conference on Human and Language Technology
- /
- 2019.10a
- /
- pp.395-399
- /
- 2019
생성 모델은 최근 단순히 기존 데이터를 증강 시키는 것이 아니라 원하는 속성을 가지도록 스타일을 변화시키는 연구가 활발히 진행되고 있다. 스타일 변화 연구에서 필요한 병렬 데이터 세트는 구축하는데 많은 비용이 들기 때문에 비병렬 데이터를 이용하는 연구가 주를 이루고 있다. 이러한 방법론으로 이미지 분야에서 대표적으로 cycleGAN[1]이 있으며 최근 자연어 처리 분야에서도 많은 연구가 진행되고 있다. 많은 논문들이 사용하는 데이터도메인은 긍정 문장과 부정 문장 사이를 변화시키는 것이다. 본 연구에서는 한국어 영화리뷰 데이터 세트인 NSMC[2]를 이용한 감성 변화를 하는 문장생성에 대한 연구로 자연어 처리에서 좋은 성능을 보여주는 BERT[8]를 생성모델에 이용하였다.
PDF

Korean Q&A Chatbot for COVID-19 News Domains Using Machine Reading Comprehension (기계 독해를 이용한 COVID-19 뉴스 도메인의 한국어 질의응답 챗봇)

Lee, Taemin;Park, Kinam;Park, Jeongbae;Jeong, Younghee;Chae, Jeongmin;Lim, Heuiseok
- Annual Conference on Human and Language Technology
- /
- 2020.10a
- /
- pp.540-542
- /
- 2020
코로나 19와 관련한 다양한 정보 확인 욕구를 충족하기 위해 한국어 뉴스 데이터 기반의 질의응답 챗봇을 설계하고 구현하였다. BM25 기반의 문서 검색기, 사전 언어 모형인 KoBERT 기반의 문서 독해기, 정답 생성기의 세 가지 모듈을 중심으로 시스템을 설계하였다. 뉴스, 위키, 통계 정보를 수집하여 웹 기반의 챗봇 인터페이스로 질의응답이 가능하도록 구현하였다. 구현 결과는 http://demo.tmkor.com:36200/mrcv2 페이지에서 접근 및 사용을 할 수 있다.
PDF

Task Scheduling Using Deep Reinforcement Learning in Mobile Edge Computing-based Smart Factory Environment (MEC 기반 스마트 팩토리 환경에서 DRL를 이용한 태스크 스케줄링)

Koo, Seolwon;Lim, Yujin
- Proceedings of the Korea Information Processing Society Conference
- /
- 2022.05a
- /
- pp.147-150
- /
- 2022
최근 들어 다양한 제약 조건이 있는 스마트 시티나 스마트 팩토리와 같은 도메인들 내에서 태스크들을 효과적으로 처리하기 위해서 MEC 기술이 많이 사용되고 있다. 그러나 이러한 도메인에서 발생하는 복잡하고 동적인 시나리오는 기존의 휴리스틱이나 메타 휴리스틱 기법을 이용하여 해결하기엔 계산 복잡도가 증가하는 문제점을 가지고 있다. 따라서 최근 들어 이러한 문제점을 해결하기 위한 방법 중 하나로 강화학습과 딥러닝이 결합된 DRL 기법이 주목을 받고 있다. 본 연구는 스마트 팩토리 환경에서 종속성을 가진 태스크들이 실행시간과 태스크가 처리되는 MEC 서버들의 로드 표준편차를 최소화하는 태스크 스케줄링 기법을 제안한다. 모의실험을 통하여 제안 기법은 태스크가 증가하는 동적인 환경에서도 좋은 성능을 보임을 증명하였다.
https://doi.org/10.3745/PKIPS.y2022m05a.147 인용 PDF

Generating Premise-Hypothesis-Label Triplet Using Chain-of-Thought and Program-aided Language Models (Chain-of-Thought와 Program-aided Language Models을 이용한 전제-가설-라벨 삼중항 자동 생성)

Hee-jin Cho;Changki Lee;Kyoungman Bae
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.352-357
- /
- 2023
자연어 추론은 두 문장(전제, 가설)간의 관계를 이해하고 추론하여 함의, 모순, 중립 세 가지 범주로 분류하며, 전제-가설-라벨(PHL) 데이터셋을 활용하여 자연어 추론 모델을 학습한다. 그러나, 새로운 도메인에 자연어 추론을 적용할 경우 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요하다는 문제가 있다. 본 논문에서는 자연어 추론을 위한 학습 데이터인 전제-가설-라벨 삼중항을 자동 생성하기 위해 [1]에서 제안한 문장 변환 규칙 대신에 거대 언어 모델과 Chain-of-Thought(CoT), Program-aided Language Models(PaL) 등의 프롬프팅(Prompting) 방법을 이용하여 전제-가설-라벨 삼중항을 자동으로 생성하는 방법을 제안한다. 실험 결과, CoT와 PaL 프롬프팅 방법으로 자동 생성된 데이터의 품질이 기존 규칙이나 기본 프롬프팅 방법보다 더 우수하였다.
PDF

Keyword Based Conversation Generation using Large Language Model (Large Language Model을 활용한 키워드 기반 대화 생성)

Juhwan Lee;Tak-Sung Heo;Jisu Kim;Minsu Jeong;Kyounguk Lee;Kyungsun Kim
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.19-24
- /
- 2023
자연어 처리 분야에서 데이터의 중요성이 더욱 강조되고 있으며, 특히 리소스가 부족한 도메인에서 데이터 부족 문제를 극복하는 방법으로 데이터 증강이 큰 주목을 받고 있다. 이 연구는 대규모 언어 모델(Large Language Model, LLM)을 활용한 키워드 기반 데이터 증강 방법을 제안하고자 한다. 구체적으로 한국어에 특화된 LLM을 활용하여 주어진 키워드를 기반으로 특정 주제에 관한 대화 내용을 생성하고, 이를 통해 대화 주제를 분류하는 분류 모델의 성능 향상을 입증했다. 이 연구 결과는 LLM을 활용한 데이터 증강의 유의미성을 입증하며, 리소스가 부족한 상황에서도 이를 활용할 수 있는 방법을 제시한다.
PDF

Design and Implementation of Point Measurement System and Integrated Quality Management System for IPTV Network (IPTV 망의 측정 포인트 시스템과 통합 품질 관리 시스템의 설계와 구현)

Hae-Hyun Kim;Choon-Hee Kim;Young-Wook Cha
- Proceedings of the Korea Information Processing Society Conference
- /
- 2008.11a
- /
- pp.1288-1291
- /
- 2008
최근 IPTV 사용자가 증가 하면서 품질에 대한 사용자들의 기대가 커지고 있다. 본 논문에서는 다양한 서비스 제공이 가능한 IPTV 서비스의 품질 측정을 위하여 IP 망의 도메인별로 성능 모니터링을 수행하는 시스템과 이를 통합적으로 관리 할 수 있는 시스템의 설계 및 구현에 대해 기술하였다. 구현된 성능 모니터링 및 통합관리 시스템의 시험을 위하여 IPTV 실험 환경을 구성하였으며, 실험 환경에서 IP 계층 및 MPEG-2 전송 스트림의 품질 파라미터를 측정 및 비교하였다.
https://doi.org/10.3745/PKIPS.y2008m011a.1288 인용 PDF

Aspect-based Sentiment Analysis on Cosmetics Customer Reviews (감성 분석 화장품 사용자 리뷰에 대한 속성기반 감성분석)

Heewon Jeong;Young-Seob Jeong
- Proceedings of the Korean Society of Computer Information Conference
- /
- 2024.01a
- /
- pp.13-16
- /
- 2024
온라인상에 인간의 감성을 담은 리뷰 데이터가 꾸준히 축적되어왔다. 이 텍스트 데이터를 분석하고 활용하는 일은 마케팅에 있어서 중요한 자산이 될 것이다. 이와 관련된 Aspect-Based Sentiment Analysis(ABSA) 연구는 한글에 있어서는 데이터 부족을 이유로 거의 선행연구가 없는 실정이다. 본 연구에서는 최근 공개된 데이터 셋을 바탕으로 하여 화장품 도메인에 대한 소비자들의 리뷰 텍스트와 사전 라벨링 된 속성, 감성 극성을 기반으로 ABSA를 진행한다. Klue RoBERTa base 모델을 활용하여 데이터를 학습시키고, Python Kiwipiepy 등으로 전처리한 결과를 대시보드로 시각화하여 분석하기 쉬운 환경을 마련하는 방법을 제시한다.
PDF

Search Result 475, Processing Time 0.03 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)