• Title/Summary/Keyword: 데이터 부족 문제

Search Result 553, Processing Time 0.033 seconds

TOEIC Model Training Through Template-Based Fine-Tuning (템플릿 기반 미세조정을 통한 토익 모델 훈련)

  • Jeongwoo Lee;Hyeonseok Moon;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.324-328
    • /
    • 2022
  • 기계 독해란 주어진 문서를 이해하고 문서 내의 내용에 대한 질문에 답을 추론하는 연구 분야이며, 기계 독해 문제의 종류 중에는 여러 개의 선택지에서 질문에 대한 답을 선택하는 객관식 형태의 문제가 존재한다. 이러한 자연어 처리 문제를 해결하기 위해 기존 연구에서는 사전학습된 언어 모델을 미세조정하여 사용하는 방법이 널리 활용되고 있으나, 학습 데이터가 부족한 환경에서는 기존의 일반적인 미세조정 방법으로 모델의 성능을 높이는 것이 제한적이며 사전학습된 의미론적인 정보를 충분히 활용하지 못하여 성능 향상에 한계가 있다. 이에 본 연구에서는 기존의 일반적인 미세조정 방법에 템플릿을 적용한 템플릿 기반 미세조정 방법을 통해 사전학습된 의미론적인 정보를 더욱 활용할 수 있도록 한다. 객관식 형태의 기계 독해 문제 중 하나인 토익 문제에 대해 모델을 템플릿 기반 미세조정 방법으로 실험을 진행하여 템플릿이 모델 학습에 어떠한 영향을 주는지 확인하였다.

  • PDF

A Study on the Prediction of Fuel Consumption of Bulk Ship Main Engine Using Explainable Artificial Intelligence (SHAP을 활용한 벌크선 메인엔진 연료 소모량 예측연구)

  • Hyun-Ju Kim;Min-Gyu Park;Ji-Hwan Lee
    • Journal of Navigation and Port Research
    • /
    • v.47 no.4
    • /
    • pp.182-190
    • /
    • 2023
  • This study proposes a predictive model using XGBoost and SHapley Additive exPlanation (SHAP) to estimate fuel consumption in bulk carriers. Previous studies have also utilized ship engine data and weather data. However, they lacked reliability in predicted results and explanations of variables used in the fuel consumption prediction model implementation. To address these limitations, this study developed a predictive model using XGBoost and SHAP. It provides research background, scope, relevant regulations, previous studies, and research methodology. Additionally, it explains the data cleaning method for bulk carriers and verifies results of the predictive model.

Siamese Neural Networks to Overcome the Insufficient Data Problems in Product Defect Detection (제품 결함 탐지에서 데이터 부족 문제를 극복하기 위한 샴 신경망의 활용)

  • Shin, Kang-hyeon;Jin, Kyo-hong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.108-111
    • /
    • 2022
  • Applying deep learning to machine vision systems for defect detection of products requires vast amounts of training data about various defect cases. However, since data imbalance occurs according to the type of defect in the actual manufacturing industry, it takes a lot of time to collect product images enough to generalize defect cases. In this paper, we apply a Siamese neural network that can be learned with even a small amount of data to product defect detection, and modify the image pairing method and contrastive loss function by properties the situation of product defect image data. We indirectly evaluated the embedding performance of Siamese neural networks using AUC-ROC, and it showed good performance when the images only paired among same products, not paired among defective products, and learned with exponential contrastive loss.

  • PDF

Medical bigdata-based Extended Artificial Intelligence Integration Platform (의료 빅데이터기반 확장 인공지능 통합플랫폼)

  • Lee, Chung-sub;Kim, Ji-Eon;Noh, Si-Hyeong;Kim, Tae-Hoon;Lee, Yun Oh;Yu, Yeong-Ju;Chun, JungBum;Jeong, Chang-Won
    • Annual Conference of KIPS
    • /
    • 2020.11a
    • /
    • pp.45-46
    • /
    • 2020
  • 최근 의료데이터의 표준화를 기반으로 다양한 임상연구가 국내외에서 활발하게 진행되고 있다. 그러나 대부분 개발기술이 임상현장에 적용되지 못하는 이유는 상이한 인프라로 인한 일관성있는 결가를 도출하지 못하는 문제점과 부족한 진단지표와 기준 그리고 충분하지 못한 기술적·임상적 검증이 문제가 되고 있다. 본 논문에서는 이러한 문제점을 해결하기위한 새로운 통합 플랫폼을 제안하고자 한다. 이를 위해서 임상데이터는 OHDSI의 OMOP-CDM으로 표준화되어야 하며, 이외에 의료영상 정보를 포함한다. 제안한 플랫폼은 표준화된 데이터를 통해 지속적인 자가 학습을 수행하며, 질환별 진단에 필요한 개발 도구와 분석 소프트웨어 도구를 통해 다양한 타겟 질환연구를 지원한다. 제안한 플랫폼은 질환에 대한 비침습적 진단을 위해 의료영상을 기반으로 데이터표준화을 기반으로하며, 이를통해 인공지능 기술을 개발하고 병원 정보시스템과 연계하여 임상현장에 실증을 통해 검증하고자 한다.

Assessment of Water Supply Reliability in Agricultural Watershed based on Big Data (빅데이터 기반 농촌유역 이수안전도 산정)

  • Nam, Won-Ho
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.30-30
    • /
    • 2021
  • 우리나라 수리시설물 중 30년 이상 경과된 수리시설물은 전체의 61%를 차지하며, 특히 저수지의 경우 저수지의 약 84% 정도는 50년 이상 된 노후 저수지로 분류되고 있어 지속적인 보수·보강 필요하며 향후 기후변화에 취약할 것으로 예상된다. 이수측면에서 설계기준이 되는 설계한발빈도는 농업용 저수지의 내한능력을 나타내는 것으로 수리시설의 규모를 결정하는 기준이 된다. 국내의 경우 1982년 농지개량사업계획 설계기준 댐편에 한발빈도 10년 기준을 채택하여 사용되고 있으며, 현재 농업용 저수지의 이수안전도는 한발빈도 설계기준을 대신하여 사용하고 있다. 농업용 저수지의 이수안전도는 기존 설계기준에 의한 물수지법에 따른 저수지의 설계빈도로 산정되어 기후 및 영농변화, 용수수요의 변화, 농법의 변화 등 현장의 물관리 여건을 반영하는데 한계가 있다. 실제 저수지의 이수능력은 한발빈도 설계기준으로 대변되는 공급가능량 및 평야부 용배수로의 형상에 따라 농업용수 공급역량이 상이하므로, 평야부를 포함하는 농촌유역, 농촌공간의 이수안전도 개념이 도입되어야 한다. 또한 국가의 유관기관들은 특성 및 용도에 맞는 용수공급 정보를 생산하여 모니터링 자료를 제공하고 있지만, 실제 현장에서 체감하는 물 부족 및 이수관련 문제 해결을 위해 현장기반 데이터 활용이 필요하다. 본 연구에서는 기존 경험에 의한 관행적인 물관리 자료, 저수지 관련 계측 자료, 위성영상 자료, 비정형 미디어 데이터 등 이수 관련 분야의 빅데이터를 통합 구축하여 농촌유역 이수안전도의 개념을 정의하고자 한다.

  • PDF

Forecasting Economic Impacts of Construction R&D Investment: A Quantitative System Dynamics Forecast Model Using Qualitative Data (건설 분야 정부 R&D 투자의 사업별 경제적 파급효과 분석 - 정성적 자료 기반의 시스템다이내믹스 예측모형 개발 -)

  • Hwang, Sungjoo;Park, Moonseo;Lee, Hyun-Soo;Jang, Youjin;Moon, Myung-Gi;Moon, Yeji
    • Korean Journal of Construction Engineering and Management
    • /
    • v.14 no.2
    • /
    • pp.131-140
    • /
    • 2013
  • Econometric forecast models based on past time-series data have been applied to a wide variety of applications due to their advantages in short-term point estimating. These models are particularly used in predicting the impact of governmental research and development (R&D) programs because program managers should assert their feasibility due to R&D program's huge amount of budget. The construction governmental R&D programs, however, separately make an investment by dividing total budget into five sub-business area. It make R&D program managers difficult to understand how R&D programs affect the whole system including economy because they are restricted with regard to many dependent and dynamic variables. In this regard, system dynamics (SD) model provides an analytic solution for complex, nonlinear, and dynamic systems such as the impacts of R&D programs by focusing on interactions among variables and understanding their structures. This research, therefore, developed SD model to capture the different impacts of five construction R&D sub-business by considering different characteristics of sub-business area. To overcome the SD's disadvantages in point estimating, this research also proposed the method for constructing quantitative forecasting model using qualitative data. Understanding the different characteristics of each construction R&D sub-business can support R&D program managers to demonstrate their feasibility of capital investment.

Question Answering Optimization via Temporal Representation and Data Augmentation of Dynamic Memory Networks (동적 메모리 네트워크의 시간 표현과 데이터 확장을 통한 질의응답 최적화)

  • Han, Dong-Sig;Lee, Chung-Yeon;Zhang, Byoung-Tak
    • Journal of KIISE
    • /
    • v.44 no.1
    • /
    • pp.51-56
    • /
    • 2017
  • The research area for solving question answering (QA) problems using artificial intelligence models is in a methodological transition period, and one such architecture, the dynamic memory network (DMN), is drawing attention for two key attributes: its attention mechanism defined by neural network operations and its modular architecture imitating cognition processes during QA of human. In this paper, we increased accuracy of the inferred answers, by adapting an automatic data augmentation method for lacking amount of training data, and by improving the ability of time perception. The experimental results showed that in the 1K-bAbI tasks, the modified DMN achieves 89.21% accuracy and passes twelve tasks which is 13.58% higher with passing four more tasks, as compared with one implementation of DMN. Additionally, DMN's word embedding vectors form strong clusters after training. Moreover, the number of episodic passes and that of supporting facts shows direct correlation, which affects the performance significantly.

Sequential Speaker Classification Using Quantized Generic Speaker Models (양자화 된 범용 화자모델을 이용한 연속적 화자분류)

  • Kwon, Soon-Il
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.44 no.1
    • /
    • pp.26-32
    • /
    • 2007
  • In sequential speaker classification, the lack of prior information about the speakers poses a challenge for model initialization. To address the challenge, a predetermined generic model set, called Sample Speaker Models, was previously proposed. This approach can be useful for accurate speaker modeling without requiring initial speaker data. However, an optimal method for sampling the models from a generic model pool is still required. To solve this problem, the Speaker Quantization method, motivated by vector quantization, is proposed. Experimental results showed that the new approach outperformed the random sampling approach with 25% relative improvement in error rate on switchboard telephone conversations.

Modified TCP with Post-Checksum Field and Limited Error Control Algorithm for Memory-limited Tiny Sensor Node (메모리 크기 제약이 있는 센서 노드에서의 포스트 체크섬과 제한된 오류제어 알고리즘 연구)

  • Oh, Jong-Taek
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.12 no.4
    • /
    • pp.141-145
    • /
    • 2012
  • In a Ubiquitous sensor network environment, the sensor node is in general small and low price, and operating with power limited battery. The reliable TCP/IP protocol is used for transmitting sensed data from the sensor node. A new method was proposed in order to overcome the limitation of small embedded memory, but it is difficult to use for the case of frame error. In this paper, a new algorithm is proposed to manage the receiving frame error or loss, and it is appropriate to the sensor network to send sensed data periodically.

An Data Distributed-based System for Environment Data Share (환경 데이터 모니터링을 위한 데이터 중심 방법의 설계)

  • Lee, Tae-Hoon;Jeong, Karp-Joo;Kim, Seong-Hyun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.437-440
    • /
    • 2007
  • 최근 환경 문제를 해결하기 위하여 환경 문제의 많은 컴퓨터 기술들이 응용되고 있다. 환경 정보는 환경오염원 및 주위에 미치는 영향과 오염된 농도에 대한 정보를 연구 및 분석 할 수 있는 분야이다. 최근 환경에 관련 연구가 일부에서 수행되고 있으나 이를 IT기술과 접목하여 다양한 정보를 효율적으로 저장 및 검색 할 수 있는 시스템은 부족한 실정이다. 또한 현재 환경오염의 측정방법으로는 수작업으로 이루어지는 경우가 많아서 공간적 및 물리적 제약이 있는 따르는 실정이다. 환경오염에 관한 정보를 센서를 사용하여 사용자에게 실시간으로 효과적으로 저장 관리하여 관련된 연구자들 간에 서로가 필요한 정보를 쉽게 공유할 수 있도록 본 논문에서는 Ubiquitous Sensor Network(USN), Java Message Service(JMS) 및 Webservice를 이용한 환경 모니터링 서비스를 제안 한다. 본 논문에서 제안한 시스템은 환경정보와 사용자간에 유연성, 확장성 및 실시간을 보장해 주는 시스템을 구현한다.

  • PDF