• Title/Summary/Keyword: 언어 융합

Search Result 551, Processing Time 0.024 seconds

Con-Talky: Information Extraction and Visualization Platform for Communication of Construction Industry (Con-Talky: 건설 분야 전문가의 의사소통을 위한 정보 추출 및 시각화 플랫폼)

  • Shim, Midan;Park, Chanjun;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.476-481
    • /
    • 2021
  • 본 논문은 용어의 비통일성과 문서의 다양성으로 인해 발생하는 건설분야 전문가들의 의사소통 문제를 해결하기 위한 Con-Talky를 제안한다. Con-Talky는 자연언어처리의 대표적인 기술인 형태소분석, 의존구문분석, 의미역 결정 기술을 융합하여 건설분야의 "설계기준문서"를 시각화하고 핵심 정보추출을 자동으로 해주는 플랫폼이다. 해당 플랫폼을 이용하여 토목분야 전문가들의 의사소통 문제를 완화시킬 수 있으며 용어의 비통일성 및 표준화에도 기여할 수 있다. 또한 본 논문은 국내 건설 및 토목분야에 최초로 자연언어처리 기술을 적용한 논문이다. 해당 분야의 연구를 활성화 하기 위해 건설분야에 특화된 단일 말뭉치와 트리플 데이터를 자체 제작함과 동시에 전면 공개하였다.

  • PDF

Language Variation and World Englishes (언어변이와 세계영어들)

  • Kim, Yangsoon
    • The Journal of the Convergence on Culture Technology
    • /
    • v.7 no.1
    • /
    • pp.234-239
    • /
    • 2021
  • The purpose of this paper is to find out the nature of language variation by exploring the ways of the progress of the language variation that produces all English-lects, i.e., the World Englishes. The study of language variation in linguistics is a hybrid enterprise, so the study of World Englishes has led to the recognition of a highly diverse set of all English-lects, encompassing regional dialects, sociolects, ethnolects and (post-)colonial dialects of World Englishes. In this paper, we propose a hybrid language variation model with three interacting factors of social distancing, on/off-contact, and linguistic diversity to examine the characteristics of language variation. In the context of World Englishes, the social distance is typically low in terms of their local location (country/speech) for local purposes. The social distance also varies based on online/offline communication modes and other social factors like gender, age and ethnic groups, resulting in all English-lects. To clarify the nature of World Englishes, the core Englishes, BrE, AmE and CanE are discussed here.

Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method (문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기)

  • Jeesu Jung;Seyoun Won;Hyein Seo;Sangkeun Jung;Du-Seong Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

Domain adaptation of Korean coreference resolution using continual learning (Continual learning을 이용한 한국어 상호참조해결의 도메인 적응)

  • Yohan Choi;Kyengbin Jo;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

Korean Coreference Resolution at the Morpheme Level (형태소 수준의 한국어 상호참조해결 )

  • Kyeongbin Jo;Yohan Choi;Changki Lee;Jihee Ryu;Joonho Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.329-333
    • /
    • 2022
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 End-to-End 모델이 주로 연구가 되었다. 그러나 End-to-End 방식으로 모델을 수행하기 위해서는 모든 스팬을 잠재적인 멘션으로 간주해야 되기 때문에 많은 메모리가 필요하고 시간 복잡도가 상승하는 문제가 있다. 본 논문에서는 서브 토큰을 다시 단어 단위로 매핑하여 상호참조해결을 수행하는 워드 레벨 상호참조해결 모델을 한국어에 적용하며, 한국어 상호참조해결의 특징을 반영하기 위해 워드 레벨 상호참조해결 모델의 토큰 표현에 개체명 자질과 의존 구문 분석 자질을 추가하였다. 실험 결과, ETRI 질의응답 도메인 평가 셋에서 F1 69.55%로, 기존 End-to-End 방식의 상호참조해결 모델 대비 0.54% 성능 향상을 보이면서 메모리 사용량은 2.4배 좋아졌고, 속도는 1.82배 빨라졌다.

  • PDF

Korean End-to-End Coreference Resolution with BERT for Long Document (긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결)

  • Jo, Kyeongbin;Jung, Youngjun;Lee, Changki;Ryu, Jihee;Lim, Joonho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

Multi-level Attention Fusion Network for Machine Reading Comprehension (Multi-level Attention Fusion을 이용한 기계독해)

  • Park, Kwang-Hyeon;Na, Seung-Hoon;Choi, Yun-Su;Chang, Du-Seong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.259-262
    • /
    • 2018
  • 기계독해의 목표는 기계가 주어진 문맥을 이해하고 문맥에 대한 질문에 대답할 수 있도록 하는 것이다. 본 논문에서는 Multi-level Attention에 정보를 효율적으로 융합 수 있는 Fusion 함수를 결합하고, Answer module에Stochastic multi-step answer를 적용하여 SQuAD dev 데이터 셋에서 EM=78.63%, F1=86.36%의 성능을 보였다.

  • PDF

Design of ugcML for u-GIS contents (u-GIS 컨텐츠를 위한 ugcML 언어의 설계)

  • Park, Jang-Yoo;Ha, Tae-Suk;Nam, Kwang-Woo
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2008.10a
    • /
    • pp.309-312
    • /
    • 2008
  • 공간 정보 기술과 컴퓨팅 기술의 발전에 따라 사용자에게 제공되는 공간 정보 컨텐츠는 날로 다양해지고 있다. 본 논문은 u-GIS의 웹2.0 및 유비퀴토스 환경을 기반으로 하는 다양한 정보를 다양한 단말 플랫폼에서 개인 맞춤형 정보를 표출 및 활용할 수 있는 컨텐츠를 지원하기 위한 마크업 언어인 ugcML의 컨텐츠 모델과 스키마를 설계하고 있다. 제안된 ugcML 컨텐츠 모델은 KML과 유사한 다양한 지리 정보, 위치 정보, 사진 정보등의 각각의 정보를 융합하여 표현할 수 있는 장점을 갖는다.

  • PDF

The Language Change and Language Processing (언어 변화와 언어 처리 - '는게/는데' 문법 화와 자동 태깅 시스템-)

  • 최운호
    • Korean Journal of Cognitive Science
    • /
    • v.10 no.2
    • /
    • pp.35-43
    • /
    • 1999
  • This paper aims to research the language changes in modern Korean and its effect to the language processing systems. In modern Korean. the syntactic constructions l like [Adnominal Ending + Bound Noun ( + Postposition)] are changing into the morphological constructions, and some of these constructions are reflected in the written language. For example. the syntactic construction [Ad nominal Ending + '-de (Bound N Noun)' (+ Postposition) ) co-exists with the mixed form '-neunde' and [Adnominal Ending + 'geot' (Bound Noun) + '-j' (Postposition)) does with ' neunge'. These constructions are used frequently in the spoken language. As like other verbal endings, these forms also participate in the construction of the complex sentence, and these forms have its own case function fused into themselves So, the analytic approach to these forms can make great effect on the automatic morphological analysis systems. automatic tagging systems. and the syntactic analysis systems. So. in the design phase of a language processing systems, the language change phenomena like these must be taken l into consideration.

  • PDF

A Study of the Visual Irony of a Painting Using 'Dépaysement' ('데페이즈망(Dépaysement)'을 통해 본 회화의 시각적 아이러니(Irony)연구)

  • Moon, Ji-Hye
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.4
    • /
    • pp.165-172
    • /
    • 2020
  • The purpose of this study is to primarily explore the characteristics of 'irony' and focus on the process of visualizing it. 'Irony' is one of the rhetorics used to describe the context or situational aspects of writing. This 'Dépaysement' that appears in art history corresponds to 'ironic' rhetoric in writing. 'Dépaysement' is a combination of techniques, which conveys a message through de-familiarizing rhetoric. With the images conflicting with each other in logic on the same canvas. 'Dépaysement' and 'ironic' rhetoric have commonalities in that they produce a situation with opposite or contradictory images and obscure the images and the situation by distorting them into being different from what has usually been known. In conclusion, Ironic Characteristics and Visual technique elements of dépaysement are identical, this study attempts to understand the visual language by analyzing 'the visual irony' that appears in artworks.