• Title/Summary/Keyword: 언어획득

Search Result 236, Processing Time 0.025 seconds

High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training (ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론)

  • Jin Seong;Seung-heon Han;Jong-hun Shin;Soo-jong Lim;Oh-woog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

An Implementation of virtual traffic lamp system using VR authoring Tool (가상현실 저작툴을 이용한 가상 신호등 시스템 설계 및 구현)

  • 김외열
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.11a
    • /
    • pp.531-535
    • /
    • 2001
  • 인터넷에서 가상현실 기법의 도입은 인터넷의 범용성과 함께 사용자가 쉽게 접할 수 있고 다양한 정보를 획득할 수 있기 때문에 지속적으로 발전해 가고 있다. VRML은 이러한 인터넷에서 가상세계를 구현하는 표준언어로 자리잡고 있다. 본 연구에서는 현재 많이 활용되고있는 VRML 저작툴인 ISA(Internet Scene Assembler)와 ISB(Internet Scene Builder)를 이용해 가상신호등 시스템을 설계하고 구현하는 것이 목적이다. 가상 신호등 시스템의 시뮬레이션을 위해 애니메이션 기법과 Sensor Node 및 Time_Bool_Converter 등의 Logic 함수를 사용하게 되고, Routing Diagram의 연결을 통해 시뮬레이션을 제작하게 된다.

  • PDF

A study on the correlation between nonverbal signs in Charade and narrative transformation: Focusing on the formation process of the subject appearing in the film Carol (셔레이드에서의 비언어 기호와 서사적 변형의 상관성 연구 - 영화 <캐롤>에서 나타나는 주체의 형성 과정을 중심으로)

  • Jo, Eun Jin;Song, Chi Man
    • 기호학연구
    • /
    • no.56
    • /
    • pp.109-136
    • /
    • 2018
  • The purpose of this study is to examine the narrative correlation of nonverbal signs found in Charade. Charade, by using nonverbal signs, provides information about the character's psychological change, his or her relationship with others, and the places where they stay. The study of Charade, then, has to be approached considering not only the transmission of messages through nonverbal signs but also its signification. This study has analyzed the narrative and formation process of the subject that triggers the subject's activity by taking narrative semiotics to the film Carol (2015). As the status of women is represented by the mise-en-$sc{\grave{e}}ne$ at this time, this study aims to examine such a fact through Charade, which belongs to the realm of mise-en-$sc{\grave{e}}ne$. In this study, nonverbal signs that are used in Charade are drawn based on the nonverbal communication theory. The result of analyzing the texts showed that the use of interior decoration was outstanding in the process of expressing the status of female subjects. The use of gaze was noticeable in the process of expressing the acquisition of female subjects' power. Besides, it should be noted that the use of nonverbal signs such as accessories, territoriality, or gesture, was worthy of attention. It was confirmed that such nonverbal signs play an important role in the formation of subjects and configuration of narrative transformation.

FBDtoVHDL: An Automatic Translation from FBD into VHDL for FPGA Development (FBDtoVHDL: FPGA 개발을 위한 FBD에서 VHDL로의 자동 변환)

  • Kim, Jaeyeob;Kim, Eui-Sub;Yoo, Junbeom;Lee, Young Jun;Choi, Jong-Gyun
    • Journal of KIISE
    • /
    • v.43 no.5
    • /
    • pp.569-578
    • /
    • 2016
  • The PLC (Programmable Logic Controller) has been widely used for the development of digital control system of nuclear power plant. The PLC has high maintenance costs and increasing complexity, hence, FPGA (Field Programmable Gate Array) based digital control system has been considered as an alternative. However, the development of FPGA based digital control system is a challenge for PLC engineers because they are required to learn about new language to develop FPGA and knowledge and know-how acquired in the development of PLC is not transferable. In this study, we proposed and implemented an automatic translation tool for translation of FBD (Function Block Diagram), a programming language of PLC software, into VHDL (VHSIC Hardware Description Language). Automatically translating the FBD to VHDL using this tool allows PLC engineers to develop FPGA without any knowledge of the hardware description language.

Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews (화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축)

  • Hwang, Chang-Hoe;Yoo, Gwang-Hoon;Choi, Seong-Yong;Shin, Dong-Heouk;Nam, Jee-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

Construction of Korean Wordnet "KorLex 1.5" (한국어 어휘의미망 "KorLex 1.5"의 구축)

  • Yoon, Ae-Sun;Hwang, Soon-Hee;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.1
    • /
    • pp.92-108
    • /
    • 2009
  • The Princeton WordNet (PWN), which was developed during last 20 years since the mid 80, aimed at representing a mental lexicon inside the human mind. Its potentiality, applicability and portability were more appreciated in the fields of NLP and KE than in cognitive psychology. The semantic and knowledge processing is indispensable in order to obtain useful information using human languages, in the CMC and HCI environment. The PWN is able to provide such NLP-based systems with 'concrete' semantic units and their network. Referenced to the PWN, about 50 wordnets of different languages were developed during last 10 years and they enable a variety of multilingual processing applications. This paper aims at describing PWN-referenced Korean Wordnet, KorLex 1.5, which was developed from 2004 to 2007, and which contains currently about 130,000 synsets and 150,000 word senses for nouns, verbs, adjectives, adverbs, and classifiers.

Building Living Lab for Acquiring Behavioral Data for Early Screening of Developmental Disorders

  • Kim, Jung-Jun;Kwon, Yong-Seop;Kim, Min-Gyu;Kim, Eun-Soo;Kim, Kyung-Ho;Sohn, Dong-Seop
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.8
    • /
    • pp.47-54
    • /
    • 2020
  • Developmental disorders are impairments of brain and/or central nervous system and refer to a disorder of brain function that affects languages, communication skills, perception, sociality and so on. In diagnosis of developmental disorders, behavioral response such as expressing emotions in proper situation is one of observable indicators that tells whether or not individual has the disorders. However, diagnosis by observation can allow subjective evaluation that leads erroneous conclusion. This research presents the technological environment and data acquisition system for AI based screening of autism disorder. The environment was built considering activities for two screening protocols, namely Autism Diagnostic Observation Schedule (ADOS) and Behavior Development Screening for Toddler (BeDevel). The activities between therapist and baby during the screening are fully recorded. The proposed software in this research was designed to support recording, monitoring and data tagging for learning AI algorithms.

News in a Nutshell: A Korean Headline-Style Summarization Dataset (요점만 남긴 신문 기사: 한국어 표제 형식 문서 요약 데이터셋)

  • Kwon, Hongseok;Go, Byunghyun;Park, Juhong;Lee, Myungjee;Oh, Jaeyoung;Heo, Dam;Lee, Jonghyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.47-53
    • /
    • 2020
  • 문서 요약은 주어진 문서에서 핵심 내용만을 남긴 간결한 요약문을 생성하는 일로 자연어처리의 주요 분야 중 하나이다. 최근 방대한 데이터로부터 심층 신경망 표상을 학습하는 기술의 발전으로 문서 요약 기술이 급진적으로 진화했다. 이러한 데이터 기반 접근 방식에는 모델의 학습을 위한 양질의 데이터가 필요하다. 그러나 한국어와 같이 잘 알려지지 않은 언어에 대해서는 데이터의 획득이 쉽지 않고, 이를 구축하는 것은 많은 시간과 비용을 필요로 한다. 본 논문에서는 한국어 문서 요약을 위한 대용량 데이터셋을 소개한다. 데이터셋은 206,822개의 기사-요약 쌍으로 구성되며, 요약은 표제 형식의 여러 문장으로 되어 있다. 우리는 구축한 학습 데이터의 적합성을 검증하기 위해 수동 평가 및 여러 주요 속성에 대해 분석하고, 기존 여러 문서 요약 시스템에 학습 및 평가하여 향후 문서 요약 벤치마크 데이터셋으로써 기준선을 제시한다. 데이터셋은 https://github.com/hong8e/KHS.git의 스크립트를 통해 내려받을 수 있다.

  • PDF

Korean Caption Extraction with Decision Tree (의사결정 트리를 이용한 한글 자막 추출)

  • Jung, Je-Hee;Lee, Seun-Hoon;Kim, Jae-Kwang;Lee, Jee-Hyong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.527-532
    • /
    • 2008
  • 자막은 영상과 관련이 있는 정보를 포함한다. 이러한 영상의 정보를 이용하기 위해서 자막을 추출하는 연구가 진행되고 있다. 기존의 자막 추출 연구는 언어 독립적인 특징으로 자막을 이루는 획의 에지는 일정한 간격을 유지하거나 수평라인으로 존재하는 글자의 분포를 이용한 방법을 제안하였다. 이러한 방법들은 획의 간격이 일정한 자막이나 하나의 글자가 하나의 획으로 이루어진 글자에서만 정상적인 동작을 보장하였다. 본 논문에서는 한글 자막 특징을 고려한 자막 추출 방법을 제안한다. 먼저, 한글 자막의 특징인 가로 획의 다수 분포를 고려한 적응형 에지 이진화를 수행하여 에지 영상을 생성하고 에지 연결 객체를 생성한다. 그 후에 생성한 연결 객체를 특징을 추출하여 사전에 생성한 의사결정 트리로 연결 객체를 자막과 비자막 연결객체로 분류한다. 의사결정 트리를 생성하기 위해서 사용한 연결 객체는 뉴스, 다큐멘터리 프로그램에서 획득하였으며, 성능 평가를 위해서 뉴스, 다큐멘터리, 스포츠 프로그램과 같은 대중 방송에서 획득한 영상에서 자막을 추출하였다. 평가 방법은 찾아진 연결 객체 중에 자막 연결 객체의 비율과 전체 자막 중에서 찾아진 자막 연결 객체의 비율로 분석하였다. 실험 결과에서는 제안한 방법이 한글 자막의 추출에 적용 가능함을 보여준다.

  • PDF

Analyzing and Extracting Relations between Topic Keywords Based on Word Formation (조어 중심적 주제어간 관계 추출 및 분석)

  • Jung, Han-Min;Lee, Mi-Kyoung;Sung, Won-Kyung
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2008.06a
    • /
    • pp.166-171
    • /
    • 2008
  • 본 연구는 기존에 잘 알려지고 널리 사용되고 있는 어휘 의미망이나 시소러스를 활용하기 어려운 과학 기술 분야, 특히 IT 분야에서 대용량 용어간 관계를 빠른 시간 내에 구축하여 검색 브라우징, 내비게이션 용도로 활용하는 것을 목표로 한다. 시소러스 구축 절차를 따르는 경우에 분야 전문가에 의한 정교한 작업과 고비용을 필요로 하여 충분한 구축 크기를 확보하는 것에 현실적인 어려움이 있다. 시소러스 자동 구축 방법론을 사용하는 경우에도 해당 용어들이 출현하는 방대한 말뭉치를 확보해야 하며 관계 구축 결과에 대한 직관적 이해가 쉽지 않다는 단점이 있다. 본 연구는 해외 학술 논문 말뭉치와 메타데이터에서 획득한 37만 여 주제어들을 이용하여 상 하위 관계, 관련어, 형제 관계를 추출하기 위해 조어적 기준에 근거한 규칙들을 이용한다. 이들 규칙을 이용하여 추출한 관계 수는 상 하위 관계 60여 만 개, 관련어 640여 만 개, 형제 관계 2,000여 만 개 등이다. 또한, 추출 결과 중 일부를 수작업으로 분석하여 단순한 추출 규칙에서 발생하는 오류 유형을 찾아내고 향후 과제에서 해결할 수 있는 방안에 대해 논하자고 한다.

  • PDF