• Title/Summary/Keyword: 도메인 공학

Search Result 467, Processing Time 0.023 seconds

Korean End-to-end Neural Coreference Resolution with BERT (BERT 기반 End-to-end 신경망을 이용한 한국어 상호참조해결)

  • Kim, Kihun;Park, Cheonum;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.181-184
    • /
    • 2019
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 같은 개체(entity)를 의미하는 멘션을 찾아 그룹화하는 자연어처리 태스크이다. 한국어 상호참조해결에서는 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델과 포인터 네트워크 모델을 이용한 방법이 연구되었다. 구글에서 공개한 BERT 모델은 자연어처리 태스크에 적용되어 많은 성능 향상을 보였다. 본 논문에서는 한국어 상호참조해결을 위한 BERT 기반 end-to-end 신경망 모델을 제안하고, 한국어 데이터로 사전 학습된 KorBERT를 이용하고, 한국어의 구조적, 의미적 특징을 반영하기 위하여 의존구문분석 자질과 개체명 자질을 적용한다. 실험 결과, ETRI 질의응답 도메인 상호참조해결 데이터 셋에서 CoNLL F1 (DEV) 71.00%, (TEST) 69.01%의 성능을 보여 기존 연구들에 비하여 높은 성능을 보였다.

  • PDF

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF

Comparative Analysis of Language Model Performance in News Domain Summarization (언어 모델의 뉴스 도메인 요약 성능 비교 분석)

  • Sangwon Ryu;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.131-136
    • /
    • 2023
  • 본 논문에서는 기존의 요약 태스크에서 주로 사용하는 인코더-디코더 모델과 디코더 기반의 언어 모델의 성능을 비교한다. 요약 태스크를 평가하는 주요한 평가 지표인 ROUGE 점수의 경우, 정답 요약문과 모델이 생성한 요약문 간의 겹치는 단어를 기준으로 평가한다. 따라서, 추상적인 요약문을 생성하는 언어 모델의 경우 인코더-디코더 모델에 비해 낮은 ROUGE 점수가 측정되는 경향이 있다. 또한, 최근 연구에서 정답 요약문 자체의 낮은 품질에 대한 문제가 되었고, 이는 곧 ROUGE 점수로 모델이 생성하는 요약문을 평가하는 것에 대한 신뢰도 저하로 이어진다. 따라서, 본 논문에서는 언어 모델의 요약 성능을 보다 다양한 관점에서 평가하여 언어 모델이 기존의 인코더-디코더 모델보다 좋은 요약문을 생성한다는 것을 보인다.

  • PDF

Exploring Answer Sentences using Hierarchical Retrieval Models (계층적 검색 모델을 이용한 정답 문장 탐색)

  • Seungho Choi;Hyun-Kyu Jeon;Jiyoon Kim;Bongsu Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.361-365
    • /
    • 2023
  • 오픈 도메인 질의응답 (ODQA, Open-Domain Question Answering)은 주어진 질문에 대한 답을 찾는 작업으로 일반적으로 질문과 관련 있는 지식을 검색 모델(Retrieval)을 통해 찾는 단계와, 찾은 지식에서 문서의 정답을 독해 모델(Reader)을 이용하여 찾는 단계로 구성되어 있다. 본 논문은 기존의 DPR(Dense Passage Retrieval)을 이용한 복수의 검색 모델(Retrieval)만을 계층적으로 사용하여 독해 모델(Reader)을 사용하지 않고 정답 문장을 찾는 방법과 정답 문장을 찾는 데 특화된 검색 모델 학습을 위한 유효한 성능 향상을 보이는 Hard Negative Sampling 기법을 제안한다. 해당 제안기법을 적용한 결과, 동일 조건에서 학습된 검색 - 독해(Retrieval-Reader) 구조의 베이스라인 모델보다 EM에서 12%, F1에서 10%의 성능 향상을 보였다.

  • PDF

In-Context Retrieval-Augmented Korean Language Model (In-Context 검색 증강형 한국어 언어 모델)

  • Sung-Min Lee;Joung Lee;Daeryong Seo;Donghyeon Jeon;Inho Kang;Seung-Hoon Na
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.443-447
    • /
    • 2023
  • 검색 증강형 언어 모델은 입력과 연관된 문서들을 검색하고 텍스트 생성 과정에 통합하여 언어 모델의 생성 능력을 강화한다. 본 논문에서는 사전 학습된 대규모 언어 모델의 추가적인 학습 없이 In-Context 검색 증강으로 한국어 언어 모델의 생성 능력을 강화하고 기존 언어 모델 대비 성능이 증가함을 보인다. 특히 다양한 크기의 사전 학습된 언어 모델을 활용하여 검색 증강 결과를 보여 모든 규모의 사전 학습 모델에서 Perplexity가 크게 개선된 결과를 확인하였다. 또한 오픈 도메인 질의응답(Open-Domain Question Answering) 과업에서도 EM-19, F1-27.8 향상된 결과를 보여 In-Context 검색 증강형 언어 모델의 성능을 입증한다.

  • PDF

Korean Generation-based Dialogue State Tracking using Korean Token-Free Pre-trained Language Model KeByT5 (한국어 토큰-프리 사전학습 언어모델 KeByT5를 이용한 한국어 생성 기반 대화 상태 추적)

  • Kiyoung Lee;Jonghun Shin;Soojong Lim;Ohwoog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.644-647
    • /
    • 2023
  • 대화 시스템에서 대화 상태 추적은 사용자와의 대화를 진행하면서 사용자의 의도를 파악하여 시스템 응답을 결정하는데 있어서 중요한 역할을 수행한다. 특히 목적지향(task-oriented) 대화에서 사용자 목표(goal)를 만족시키기 위해서 대화 상태 추적은 필수적이다. 최근 다양한 자연어처리 다운스트림 태스크들이 사전학습 언어모델을 백본 네트워크로 사용하고 그 위에서 해당 도메인 태스크를 미세조정하는 방식으로 좋은 성능을 내고 있다. 본 논문에서는 한국어 토큰-프리(token-free) 사전학습 언어모델인 KeByT5B 사용하고 종단형(end-to-end) seq2seq 방식으로 미세조정을 수행한 한국어 생성 기반 대화 상태 추적 모델을 소개하고 관련하여 수행한 실험 결과를 설명한다.

  • PDF

A Method for Extracting Persona Triples in Dialogue (발화 내 페르소나 트리플 추출 방법 연구)

  • Yoonna Jang;Kisu Yang;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.726-729
    • /
    • 2023
  • 본 논문에서는 대화 중 발화에서 페르소나 트리플을 추출하는 방법을 연구한다. 발화 문장과 그에 해당하는 트리플 쌍을 활용하여 발화 문장 혹은 페르소나 문장이 주어졌을 때 그로부터 페르소나 트리플을 추출하도록 모델을 멀티 태스크 러닝 방식으로 학습시킨다. 모델은 인코더-디코더 구조를 갖는 사전학습 언어모델 BART [1]와 T5 [2]를 활용하며 relation 추출과 tail 추출의 두 가지 태스크를 각각 인코더, 디코더 위에 head를 추가하여 학습한다. Relation 추출은 분류로, tail 추출은 생성 문제로 접근하도록 하여 최종적으로 head, relation, tail의 구조를 갖는 페르소나 트리플을 추출하도록 한다. 실험에서는 BART와 T5를 활용하여 각 태스크에 대해 다른 학습 가중치를 두어 훈련시켰고, 두 모델 모두 relation과 tail을 추출하는 태스크 정확도에 있어서 90% 이상의 높은 점수를 보임을 확인했다.

  • PDF

An Infrastructure System for Efficient Management of Software Development Environment in a Large Scale Organization (대규모 조직에서의 효율적인 소프트웨어 개발환경 관리를 위한 인프라 체계 구축)

  • Park, Myeong-O;Lee, Eun-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.265-268
    • /
    • 2008
  • 임베디드 시스템에서의 소프트웨어 비중과 규모의 지수적 증가로 인해 관련 개발 프로젝트의 경우 많은 개발 지원도구를 활용한 개발활동이 이루어 지고 있다. 하지만 각 개발 조직간 상이한 개발 지원도구의 사용과 관리로 인해, 협업 개발체제에 문제가 발생하고 있으며, 단위 개발조직의 개발 지원도구의 추가 소요량 산정시 정량적인 데이터에 근거하지 않은 부정확한 구매 예측으로 인해 많은 개발 예산의 낭비가 발생하고 있다. 이에 본 연구에서는 개발 조직간 개발 효율성을 높이기 위한 효율적인 인프라 환경을 구축하기 위해, 통합 도메인 환경하에 개발 지원도구의 일원화된 관리와 개발조직간의 라인센스 사용량 측정을 위한 모니터링 시스템 개발로, 개발 지원 도구 추가 소요 발생시 정확한 소요량 예측과, 사용량에 근거한 공정한 비용 분배 절차를 제시하고자 한다.

Developing An Application Guideline for Core Assets in Product Line by Mapping to Artifacts of CMMI Engineering Process Areas (CMMI Process Area 산출물로의 대응을 통한 Product Line 핵심 자산 적용지침서 개발에 대한 연구)

  • Choi, Kang-Sik;Moon, Mi-Kyeong;Yeom, Keun-Hyuk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.418-420
    • /
    • 2005
  • 소프트웨어 프로덕트 라인 공학은 두 가지 측면에서 재사용 활동을 정의한다. 첫째는 자산들의 공통성과 가변성을 분석하고 이를 명시적으로 표현하고자 하는 재사용 계획 프로세스 즉, 도메인 공학 프로세스이다 둘째는, 존재하는 핵심자산들을 이용하여 실제 프로덕트를 개발하는데 초점을 두고 있는 재사용 적용 프로세스 즉, 애플리케이션 공학 프로세스이다. 지금까지 프로덕트 라인 공학에서 많은 연구들은 재사용 계획 프로세스에 초점을 두고 있었으며, 재사용 적용 프로세스는 핵심자산의 단순한 커스터마이즈 또는 인스턴스화하는 수준으로 언급하고 있었다. 그로인해, 핵심자산들은 각기 다른 개발 프로세스에서 사용 표준 없이 적용되거나 핵심자산에 의존하여 개발 프로세스가 변경되어야 하는 문제를 발생시켰다. 본 논문에서는 프로덕트라인 핵심자산이 각기 다른 프로덕트 개발 프로세스에서 효율적으로 재사용 될 수 있도록 가이드해 주는 적용지침서 개발 방법을 제시한다.

  • PDF

A PMIPv6 Routing Optimization Mechanism using the Routing Table on the MAG (MAG의 라우팅 테이블을 이용한 PMIPv6 라우팅 최적화 기법)

  • Han, Byung-Jin;Lee, Jae-Min;Lee, Jong-Hyouk;Chung, Tai-Myoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.889-892
    • /
    • 2008
  • 최근 이동 중에도 인터넷을 사용하고자하는 사용자의 요구에 맞추어 노드의 이동성을 제공하기 위한 기술들이 개발되고 있다. 그 중 대표적인 기술이 네트워크 계층에서의 이동성 관리 기법인 Mobile IP 기술이다. Mobile IP 기술은 크게 두 가지 분류로 나눌 수 있다. 하나는 호스트가 직접 핸드오프에 대한 시그널링을 수행하는 호스트 기반 이동성 관리 기술이고, 다른 하나는 네트워크 엔터티가 호스트를 대신하여 호스트의 이동에 따른 시그널링을 수행하는 네트워크 기반 이동성 관리 기술이다. 전자의 대표적인 프로토콜은 Mobile IPv6, Fast Mobile IPv6, Hierarchical Mobile IPv6가 있고, 후자의 대표적인 프로토콜은 Proxy Mobile IPv6 기법이 있다. 그 중, 최근 가장 주목 받고 있는 기술은 Proxy Mobile IPv6이다. 네트워크 기반 이동성 관리라는 개념이 서비스 제공자와 기기 제조사에게 모두 이득을 주는 방식이기 때문이다. 하지만 Proxy Mobile IPv6는 아직 개발 중인 기법이라 최적화에 대한 논의가 끝나지 않았다. 특히 Proxy Mobile IPv6 도메인 내에서의 라우팅 최적화에 대한 논의는 활발하게 이루어지고 있다. 본 논문에서는 Proxy Mobile IPv6의 네트워크 엔터티인 Mobile Access Gateway의 라우팅 테이블을 이용한 라우팅 최적화 기법을 제안한다. 또한 제안한 기법이 가져오는 성능향상과 효과에 대해 분석한다.