Search | Korea Science

Controllable data augmentation framework based on multiple large-scale language models (복수 대규모 언어 모델에 기반한 제어 가능형 데이터 증강 프레임워크)

Hyeonseok Kang;Hyuk Namgoong;Jeesu Jung;Sangkeun Jung
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.3-8
- /
- 2023
데이터 증강은 인공지능 모델의 학습에서 필요한 데이터의 양이 적거나 편향되어 있는 경우, 이를 보완하여 모델의 성능을 높이는 데 도움이 된다. 이미지와는 달리 자연어의 데이터 증강은 문맥이나 문법적 구조와 같은 특징을 고려해야 하기 때문에, 데이터 증강에 많은 인적자원이 소비된다. 본 연구에서는 복수의 대규모 언어 모델을 사용하여 입력 문장과 제어 조건으로 프롬프트를 구성하는 데 최소한의 인적 자원을 활용한 의미적으로 유사한 문장을 생성하는 방법을 제안한다. 또한, 대규모 언어 모델을 단독으로 사용하는 것만이 아닌 병렬 및 순차적 구조로 구성하여 데이터 증강의 효과를 높이는 방법을 제안한다. 대규모 언어 모델로 생성된 데이터의 유효성을 검증하기 위해 동일한 개수의 원본 훈련 데이터와 증강된 데이터를 한국어 모델인 KcBERT로 다중 클래스 분류를 수행하였을 때의 성능을 비교하였다. 다중 대규모 언어 모델을 사용하여 데이터 증강을 수행하였을 때, 모델의 구조와 관계없이 증강된 데이터는 원본 데이터만을 사용하였을 때보다 높거나 그에 준하는 정확도를 보였다. 병렬 구조의 다중 대규모 언어 모델을 사용하여 400개의 원본 데이터를 증강하였을 때에는, 원본 데이터의 최고 성능인 0.997과 0.017의 성능 차이를 보이며 거의 유사한 학습 효과를 낼 수 있음을 보였다.
PDF

A Comparative Study on Schema Conversion Methods Between XML and Relational Data Models (XML과 관계형 데이터 모델간의 스키마 변환 방법에 관한 비교론적 고찰)

Heo, Bo-Jin;Kim, Hyeong-Seok;Kim, Chang-Suk
- Proceedings of the Korea Information Processing Society Conference
- /
- 2003.05c
- /
- pp.1627-1630
- /
- 2003
XML이 인터넷상에서 비즈니스 데이터 교환과 저장의 표준으로 자리 잡아감에 파라 많은 데이터베이스 연구자들이 XML과 관계형 보델 간의 스키마 변환 방법에 관한 연구를 수행하게 되었다. 지금까지 두 모델간의 변환 방법이 국내외에서 발표되고 있으나 이들 연구들에 대한 비교 및 고찰에 대한 체계적인 연구가 부족하였다. 본 논문에서는 XML과 관계형 모델간의 스키마 변환 방법에 관한 국내외 연구들을 분류 정리하여 비교 고찰함으로서 향후 XML 스키마와 관계형 데이터베이스간의 데이터교환 및 저장에 관한 연구의 사전(事前) 연구가 되도록 하였다.
PDF

Transformation XML DTD to RDB Chema using Object Model (객체모델을 이용한, XML DTD의 RDB 스키마로의 변환)

김경수;주경수
- Proceedings of the Korean Information Science Society Conference
- /
- 2002.04b
- /
- pp.4-6
- /
- 2002
XML이 단순한 컨텐츠에서 데이터베이스로까지 그 적용 분야가 확장되면서 XML로 표현된 정보들을 어떻게 효율적으로 저장하고 관리하는 것이다. 가장 큰 이슈 중의 하나는 기존의 관계형 데이터베이스에도 XML을 효율적으로 관리할 수 있는가 이다. 이를 위해 XML 응용과 관계형 데이터베이스 연계를 위한 다양한 연구가 이루어지고 있으나, 객체를 기본 개념에 기반을 두었으며 계층구조를 갖는 XML 데이터를 2차원 테이블의 집합인 관계형 데이터베이스에 저장하기 위해서는 많은 테이블이 필요하며, 이에 따른 죠인 연산으로 시스템 성능이 저하 될 수 있는 본질적인 한계가 있다. 따라서 XML 데이터를 데이터베이스에 저장하기 위해서는 계층적 구조를 2차원 정보로 변환하는 변환 방법을 만들어 각 구조화된 정보를 데이터베이스에 저장하고 다시 XML로 연동할 수 있는 것이다. 본 논문은 객체 모델을 토대로 XML DTD에 정의한 요소와 특성들을 객체화하여 관계형 데이터베이스 스키마로 변환하기 위한 연계 방법을 제안한다. 이를 위하여 먼저 XML DTD를 객체 모델로 변환시키기 위한 객체 변환 방안을 제시하고, 변환된 객체 모델을 관계형 데이터베이스 스키마로 변경시키기 위한 스키마 변환 방법을 제안했다.
PDF

Temporal modeling of video (비디오의 시간지원 모델링)

Lee, Ji-Hyun;Kang, Oh-Hyung;Na, Do-Won;Rhee, Yang-Won
- Proceedings of the Korea Information Processing Society Conference
- /
- 2005.11a
- /
- pp.193-196
- /
- 2005
기존의 비디오 데이터베이스 시스템들은 대부분 간단한 간격을 기반으로한 관계와 연산을 지원하는 모델을 이용하였다. 비디오 모델에서 시간을 지원하고 객체와 시간의 다양한 연산을 제공하며 효율적인 검색과 브라우징을 지원하는 비디오 데이터 모델이 필요하게 되었다. 비디오 모델은 객체 지향 개념을 기반으로 한 모델로서 비디오의 논리적인 스키마, 객체의 속성과 연산 관계, 그리고 상속과 주석을 이용한 메타데이터 설계를 통하여 비디오 데이터에 대한 전체적인 모델 구조를 제시하였다. 그리고 점 시간과 시간 간격을 정의하여 시간의 개념을 객체 지향 기반 모델에 부여함으로서 시간 변화에 따른 비디오 정보를 보다 효율적으로 활용할 수 있도록 하였다.
PDF

Integrating XML Documents using the Object-Link Model (XML 문서의 스키마 통합을 위한 통합 데이터 모델에 관한 연구)

오제연;김훈태;강석호
- Proceedings of the Korean Operations and Management Science Society Conference
- /
- 2003.05a
- /
- pp.897-904
- /
- 2003
XML인 많은 기업 애플리케이션에서의 데이터 라우팅 표준으로 사용됨에 따라 XML 데이터를 통합적으로 관리하는 체계적 방법론이 요구되고 있다. 본 연구에서 제안한 방법론은 객체지향 개념을 기본으로 하여 객체와 관계를 분리하는 데이터 모델을 정의하고 이 데이터 모델을 통하여 XML 문서들의 서로 다른 스키마들을 변환, 통합하는 체계적 접근법이다. 본 연구를 통해 독자적 데이터 구조를 지닌 XML 문서들에 일관된 통합 환경을 제공함으로써 기업 애플리케이션 통합, 데이터 웨어하우스, 기업간 전자상거래 분야에의 활용을 기대할 수 있다.
PDF

A XML Unified Design Methodology based on Extended Entity-Relationship Model (EER 모델 기반의 XML 통합 설계 방법론)

Choi, Mun-Yeong;Ju, Gyeong-Su
- Proceedings of the Korea Information Processing Society Conference
- /
- 2002.04a
- /
- pp.43-46
- /
- 2002
B2B 전자상거래와 같이 XML을 이용한 정보교환이 확산되고 있으며 이에 따라 상호 교환되는 정보에 대하여 체계적이며 안정적인 정장관리가 요구되고 있다. 이를 위해 XML 응용과 데이터베이스 연계를 위한 다양한 연구가 관계형 데이터베이스를 중심으로 수행되었다. 본 논문에서는 EER 스키마로부터 XML 문서로 자동생성 되는 것을 단순화하기 위하여 알고리즘을 기술하고 관계형 데이터베이스 스키마로 변환을 시도했다. 특히 개념적 데이터 모델에 의해서 기술된 데이터 구조를 DTD로(Document Type Definition) 변환하는 방법을 나타낸다. 이 변환의 중요한 목적은 개념 스키마로부터 구조적인 정보를 가능한 한 많이 보존하는 것이다. 이것은 XML 파서가 가능한 한 일부분의 상태를 확인하고 서로 다른 데이터베이스사이의 데이터교환을 단순화한다. 특히 데이터베이스 스키마에서 XML 문서로 데이터를 가져오는 것이다. 개념 스키마의 알고리즘을 기준으로 하는 것은 매우 일반적이고 개념적 데이터 베이스의 데이터뿐만 아니라 객체-관계 데이터베이스의 데이터에 대해서도 알고리즘이 모델링될 것이다.
PDF

A Temporal Data Model for Managing Scientific Database (과학 응용 데이터베이스 관리를 위한 시간지원 데이터 모델)

김진호;옥수호
- The Journal of Information Technology and Database
- /
- v.4 no.1
- /
- pp.51-64
- /
- 1997
최근 컴퓨터 응용이 우주 항공, 천체 기상, 환경 관리, 공장 자동화(FA) 등의 분야로 확산되면서 물리, 화학, 생물, 기계 등의 과학 응용에서 생성되는 자료를 처리하는 기법에 대한 요구가 늘어나고 있다. 이들 과학 응용에서는 물리적 실험 장치나 측정 기계, 또는 시뮬레이션으로부터 데이터를 시간별로 측정(또는 수집)하므로 이들 과학 데이터는 시간에 종속된 데이터이다. 많은 과학 응용의 시간 지원 데이터는 과학 분야의 특성에 따라 매우 정밀한 시간 단위로 수집하기도 하고 실험 시작부터 경과된 상대적인 시간에 따라 데이터를 수집한다. 달력상의 시간을 사용하는 기존의 시간지원 데이터베이스는 과학 응용의 이러한 특징을 지원하지 못한다. 따라서 이 논문에서는 과학 실험 응용에서 요구하는 시간에 대한 특징과 요구 사항을 분석하고, 이들 과학 응용의 요구 사항을 만족하도록 확장한 새로운 시간 지원 데이터 모델을 제안한다. 이 모델에서는 실험이 경과된 상대적인 시간에 대한 데이터의 이력을 확장형 집합 개념을 사용하여 표현한다. 기존의 관계 데이터 모델과 유사하게, 이 모델은 집합 개념에 바탕을 두고 있으므로 데이터 모델과 그 연산의 의미를 쉽게 이해하고 사용할 수 있다는 장점이 있다.
PDF

Dialogue Relation Extraction using Dialogue Graph (상호참조 정보와 대화 그래프를 활용한 대화 관계추출 모델)

Jungwoo Lim;Junyoung Son;Jinsung Kim;Yuna Hur;Jaehyung Seo;Yoonna Jang;JeongBae Park;Heuiseok Lim
- Annual Conference on Human and Language Technology
- /
- 2022.10a
- /
- pp.385-390
- /
- 2022
관계추출은 문서 혹은 문장에서 자동으로 엔티티들간의 관계를 추출하는 기술로, 비정형 데이터를 정형데이터로 변환하기에 자연어 처리 중에서도 중요한 분야중 하나이다. 그 중에서도 대화 관계추출은 기존의 문장 단위의 관계추출과는 다르게 긴 길이에 비해 적은 정보의 양, 빈번하게 등장하는 지시대명사 등의 특징을 가지고 있어 주어와 목적어 사이의 관계를 예측하기에 어려움이 있었다. 본 연구에서는 이러한 어려움을 극복하기 위해 대화의 특성을 고려한 대화 그래프를 구축하고 이를 이용한 모델을 제안한다. 제안하는 모델은 상호참조 정보와 문맥정보를 더 반영한 그래프를 통해 산발적으로 퍼져있는 정보를 효율적으로 수집하고, 지시대명사로 인해 어려워진 중요 발화 파악 능력을 증진시켰다. 또한 이를 실험적으로 보이기 위하여 대화 관계추출 데이터셋에 실험해본 결과, 기존 베이스라인 보다 약 10 % 이상의 높은 F1점수를 달성하였다.
PDF

A Study on Elicitation of the Attribute for Procedural Method (절차적인 방법에 의한 속성 도출에 관한 연구)

Chang, Wei;Yeo, Jeongmo
- Proceedings of the Korea Information Processing Society Conference
- /
- 2014.04a
- /
- pp.624-627
- /
- 2014
현재의 기업 정보시스템의 골격을 정의한 설계도라고 할 수 있는 데이터 모델은 정밀하게 작성되어야 한다. 데이터 모델의 핵심요소로는 엔터티, 속성, 관계가 있으며, 이 중에서도 속성은 실질적인 정보를 담는 가장 기본적인 단위라 할 수 있으므로 모든 정보의 근원이라 할 수 있을 것이다. 그래서 속성들을 제대로 도출하지 못하면 데이터 모델 전체가 무의미하게 될 수 있다. 기존의 속성을 도출하는 방법은 설계자의 경험에 많이 의존하고 실질적인 절차가 존재하지 않아 실무경험이 없는 초보자가 도출하기에는 너무나 어려운 것이 현실이다. 이를 해결하는데 도움이 될 수 있도록 본 논문에서는 데이터 모델 설계의 한 과정으로서, 선행연구에서 제시한 업무중심 엔터티 도출 방법을 이용하여 엔터티가 완전히 도출되어 있다고 가정하고 미리 도출되어 있는 엔터티를 바탕으로 속성을 도출하는 절차를 제안한다. 그리고 데이터 모델링 경험이 많이 없는 학부생 및 대학원생을 대상으로 본 논문에서 제안한 절차를 적용하도록 하였다. 기존에 속성을 도출하는 방법이 실질적으로 존재하지 않기 때문에 학생들이 도출한 속성과 전문 IT 컨설턴트로 멘토가 도출한 모법 답안 간의 유사도검사를 하였다. 최종 유사도 검사를 통하여 전문 IT 컨설턴트인 멘토가 도출한 모법 답안에 상당히 근접하게 속성을 도출할 수 있다는 것을 확인하였다. 따라서 본 논문에서 제안한 절차를 활용한다면 데이터모델링에 실무경험이 없는 초보자나 미숙련자가 적용하여도 속성을 도출할 수 있음을 보였다. 제안 절차에서 도출된 결과를 이용하여 데이터 모델 설계의 이후 과정인 관계도출 과정을 진행할 수 있을 것으로 기대한다.
https://doi.org/10.3745/PKIPS.y2014m04a.624 인용 PDF

A Study on the Emotional Text Generation using Generative Adversarial Network (Generative Adversarial Network 학습을 통한 감정 텍스트 생성에 관한 연구)

Kim, Woo-seong;Kim, Hyeoncheol
- Proceedings of the Korea Information Processing Society Conference
- /
- 2019.05a
- /
- pp.380-382
- /
- 2019
GAN(Generative Adversarial Network)은 정해진 학습 데이터에서 정해진 생성자와 구분자가 서로 각각에게 적대적인 관계를 유지하며 동시에 서로에게 생산적인 관계를 유지하며 가능한 긍정적인 영향을 주며 학습하는 기계학습 분야이다. 전통적인 문장 생성은 단어의 통계적 분포를 기반으로 한 마르코프 결정 과정(Markov Decision Process)과 순환적 신경 모델(Recurrent Neural Network)을 사용하여 학습시킨다. 이러한 방법은 문장 생성과 같은 연속된 데이터를 기반으로 한 모델들의 표준 모델이 되었다. GAN은 표준모델이 존재하는 해당 분야에 새로운 모델로써 다양한 시도가 시도되고 있다. 하지만 이러한 모델의 시도에도 불구하고, 지금까지 해결하지 못하고 있는 다양한 문제점이 존재한다. 이 논문에서는 다음과 같은 두 가지 문제점에 집중하고자 한다. 첫째, Sequential 한 데이터 처리에 어려움을 겪는다. 둘째, 무작위로 생성하기 때문에 사용자가 원하는 데이터만 출력되지 않는다. 본 논문에서는 이러한 문제점을 해결하고자, 부분적인 정답 제공을 통한 조건별 생산적 적대 생성망을 설계하여 이 방법을 사용하여 해결하였다. 첫째, Sequence to Sequence 모델을 도입하여 Sequential한 데이터를 처리할 수 있도록 하여 원시적인 텍스트를 생성할 수 있게 하였다. 둘째, 부분적인 정답 제공을 통하여 문장의 생성 조건을 구분하였다. 결과적으로, 제안하는 기법들로 원시적인 감정 텍스트를 생성할 수 있었다.
https://doi.org/10.3745/PKIPS.y2019m05a.380 인용 PDF

Search Result 1,584, Processing Time 0.031 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)