• Title/Summary/Keyword: 정보공학 방법론

Search Result 792, Processing Time 0.028 seconds

Segmentation Methods for Different Speech Rate in Simultaneous Interpretation (발화자별 발화 속도를 고려한 실시간 동시통역 분절 방법론)

  • Koo, Youngeun;Kim, Jiyoun;Hong, Jungpyo;Hong, Munpyo;Choi, Sung-Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.369-374
    • /
    • 2020
  • 동시통역은 원천텍스트의 의미를 잘 전달하는 것 뿐만 아니라, 순차통역이나 번역과 달리, 지연 시간없이 즉각적으로 번역하는 것이 매우 중요하다. 따라서 적절한 길이의 지점에서 원천텍스트를 분절해야 한다. 그러나 발화자마다 발화 속도가 서로 다르며, 이 발화 속도는 전체 발화에서 늘 일정하지 않기 때문에, 분절단위의 적절한 길이를 설정하는 것은 상당히 어려운 과제이다. 본 연구에서는 발화자마다 발화 속도가 다른 상황과 발화가 진행되는 동안 실시간으로 발화 속도가 변화하는 상황에 적응 가능한 동시통역 분절 방법론(개인화 기법)을 제안한다. 이를 위해 본 논문에서는 먼저 동시통역 데이터를 이용하여 기준 발화 속도를 설정하였다. 그 다음 이를 원천 발화의 현재 속도와 비교하여 실시간으로 해당 발화자에게 있어 최적의 분절길이가 얼마인지 계산한다. 제안한 개인화 기법의 효력을 검증하기 위해 실험을 진행하였고, 그 결과 개인화를 적용하면 분절 성능이 높아졌다.

  • PDF

Chunking Annotation Corpus Construction for Keyword Extraction in News Domain (뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축)

  • Kim, Tae-Young;Kim, Jeong Ah;Kim, Bo Hui;Oh, Hyo Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

Generative-model based Aspect-Based sentiment Analysis (한국어에서 T5를 사용한 속성 기반 감성 분류 모델)

  • Sangyeon YU;Sang-Woo Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.586-590
    • /
    • 2023
  • 인터넷과 소셜미디어 사용량의 급증으로, 제품 리뷰, 온라인 피드백, 소셜 미디어 게시물 등을 통해 고객의 감정을 파악하는 것이 중요해졌다. 인공지능이 활용되어 고객이 제품이나 서비스의 어떤 부분에 만족하거나 불만을 가지는지를 분석하는 연구를 ABSA라고 하며 이미 해외에서는 이런 연구가 활발하게 이루어지는 반면, 국내에서는 상대적으로 부족한 상황이다. 이 연구에서는 ABSA의 두 개의 주요 작업인 ACD와 ASC에 대해 생성 모델 중 하나인 T5 모델을 사용하는 방법론을 제시한다. 이 방법론은 기존 판별 모델을 사용하는 것에 비해 시간과 성능 측면에서 크게 향상되었음을 보여준다.

  • PDF

Methodology for Overcoming the Problem of Position Embedding Length Limitation in Pre-training Models (사전 학습 모델의 위치 임베딩 길이 제한 문제를 극복하기 위한 방법론)

  • Minsu Jeong;Tak-Sung Heo;Juhwan Lee;Jisu Kim;Kyounguk Lee;Kyungsun Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.463-467
    • /
    • 2023
  • 사전 학습 모델을 특정 데이터에 미세 조정할 때, 최대 길이는 사전 학습에 사용한 최대 길이 파라미터를 그대로 사용해야 한다. 이는 상대적으로 긴 시퀀스의 처리를 요구하는 일부 작업에서 단점으로 작용한다. 본 연구는 상대적으로 긴 시퀀스의 처리를 요구하는 질의 응답(Question Answering, QA) 작업에서 사전 학습 모델을 활용할 때 발생하는 시퀀스 길이 제한에 따른 성능 저하 문제를 극복하는 방법론을 제시한다. KorQuAD v1.0과 AIHub에서 확보한 데이터셋 4종에 대하여 BERT와 RoBERTa를 이용해 성능을 검증하였으며, 실험 결과, 평균적으로 길이가 긴 문서를 보유한 데이터에 대해 성능이 향상됨을 확인할 수 있었다.

  • PDF

A Study on the Implementation of Scrum-Based Team Project Management System (스크럼 기반 팀 프로젝트 관리 시스템 구현에 관한 연구)

  • Park, Jin-Woo;Lee, Chang-Kuk;Ryu, Jeong-Su;Hong, Ji-Hwan;Kim, Youngjong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.314-315
    • /
    • 2019
  • 소프트웨어 개발은 협업이 가장 중요시 되는 분야 중 하나로 팀 단위의 소프트웨어 개발의 품질 및 생산성 향상을 위해 팀 단위 프로젝트 방법론이 발달하였다. 방법론의 선택에 따라 개발의 결과물과 만족도에 큰 차이가 나타나게 되는데, 고전적인 폭포수(Waterfall) 방식의 대안인 애자일(Agile) 방법론은 점진적인 개발로 프로젝트 진행도중 발생하는 이슈처리를 효율적으로 해결할 수 있어 현재 많은 개발에 적용되고 있다. 그 중 스프린트 기법을 바탕에 두는 스크럼(Scrum)을 사용하는데 소규모 개발팀은 스크럼(Scurm)의 교육 부담과 스크럼 마스터의 부재로 해당 방법론을 적용하기 어려움을 겪는다. 이에 본 논문에서는 소프트웨어 공학의 애자일(Agile) 방법론 중 하나인 스크럼(Scrum)을 실제 프로젝트 관리 시스템의 도구로 사용하기 위해 웹 응용 시스템으로 구현하고자 하며 해당 서비스가 SW개발뿐 만 아닌 다양한 분야의 프로젝트에 적용될 수 있도록 한다. Spring 프레임워크를 이용하여 서버를 구축하고 AWS EC2를 통해 배포하며, BootStrap과 JQuery를 이용하여 웹을 구성하여 팀 프로젝트에 있어 효율적인 관리 도구가 될 수 있도록 한다.

Extension and Management of Verb Phrase Patterns based on Lexicon Reconstruction and Target Word Information (사전 재구성과 대역어 정보를 통한 동사구 패턴의 확장 및 관리)

  • Hong, Mun-Pyo;Kim, Young-Kil;Ryu, Chul;Choi, Sung-Kwon;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.103-107
    • /
    • 2002
  • 데이터 기반 기계번역의 성공여부는 대량의 데이터를 단기간에 구축하는 방법과, 또 구축된 데이터에 대한 효과적인 관리 방법이 좌우한다고 할 수 있다. 대표적인 데이터 기반 기계번역 방법론인 예제 기반 기계번역 방식이나 패턴 기반 기계번역 방식에서는 최소한의 학습 내지는 학습과정 없이 데이터를 구축하는 데에 연구가 중점적으로 이루어져왔으나, 데이터의 관리 문제에 대해서는 많은 연구가 이루어지지 못하였다. 그러나 데이터의 확장 못지않게 데이터의 효율적인 관리도 데이터 기반 기계번역 시스템의 개발에서 매우 중요하다. 이 논문에서는 사/피동 링크 등을 이용하여 사전을 재구성하는 것이 데이터의 일관성과 관리성을 향상시키고, 이론적인 면에서는 정보 기술상의 잉여성을 줄인다는 점을 보인다. 또한 이러한 정보에 기반하여 기구축된 동사구 패턴으로부터 대역어 정보를 이용하여 새로운 패턴을 만들어내는 방법론도 제시한다.

  • PDF

Estimating the Trip Purposes of Public Transport Passengers Using Smartcard Data (스마트카드 자료를 활용한 대중교통 승객의 통행목적 추정)

  • JEON, In-Woo;LEE, Min-Hyuck;JUN, Chul-Min
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.22 no.1
    • /
    • pp.28-38
    • /
    • 2019
  • The smart card data stores the transit usage records of individual passengers. By using this, it is possible to analyze the traffic demand by station and time. However, since the purpose of the trip is not recorded in the smart card data, the demand for each purpose such as commuting, school, and leisure is estimated based on the survey data. Since survey data includes only some samples, it is difficult to predict public transport demand for each purpose close to the complete enumeration survey. In this study, we estimates the purposes of trip for individual passengers using the smart card data corresponding to the complete enumeration survey of public transportation. We estimated trip purposes such as commute, school(university) considering frequency of O-D, duration, and departure time of a passenger. Based on this, the passengers are classified as workers and university students. In order to verify our methodology, we compared the estimation results of our study with the patterns of the survey data.

Integration of Visually Detected Lane Information into Costmap (비전 기반 차선 인식 정보의 Costmap 반영 연구)

  • Jihoon Ha;Kyunam Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1135-1136
    • /
    • 2023
  • 자율주행에서의 경로 계획을 위해서는 costmap을 활용할 수 있다. Costmap은 map 정보와 센서 데이터를 토대로 해당 지역을 통과할 때의 위험도를 cost로 할당한다. 그러나 local costmap에는 센서로 인식한 장애물만이 고려되며, 차선 정보를 경로 계획에 포함하기 위해서는 별도의 정보 처리가 필요하다. 본 연구에서는 카메라로 인식한 차선 정보를 costmap에 포함함으로써 통합적인 판단 방법론을 탐색하고, 위치 추정 및 경로 계획에서의 활용 가능성을 제시한다.

Requirements Elicitation and Specification Method for the Development of Adaptive User Interface (적응형 사용자 인터페이스 개발을 위한 요구사항 도출 및 명세 기법)

  • Park, Kibeom;Lee, Seok-Won
    • Journal of KIISE
    • /
    • v.44 no.1
    • /
    • pp.27-35
    • /
    • 2017
  • Many studies have addressed 'Adaptive User Interface (AUI)', wherein the user interface changes in accordance with the situation and the environment of each user at runtime. Nevertheless, previous papers for AUI barely reflected the viewpoints from requirements engineering field, since most of them focused on proposing the architecture and design. In this study, we outline AUI with the perspective of requirements engineering and propose the requirements elicitation and specification method based on concepts which have been researched in the area of self-adaptive system. Step by step, we first redefine and reinterpret the well-known concepts of self-adaptive software, after which the AUI requirements are elicited and specified. Finally, we illustrate a case study, which demonstrates the effectiveness of our method.

High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training (ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론)

  • Jin Seong;Seung-heon Han;Jong-hun Shin;Soo-jong Lim;Oh-woog Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF