• Title/Summary/Keyword: 데이터 부족 문제

Search Result 545, Processing Time 0.027 seconds

A study on data augmentation methods for sound data classification (소리 데이터 분류에 대한 데이터 증대 방법 연구)

  • Chang, Il-Sik;Park, Goo-man
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1308-1310
    • /
    • 2022
  • 소리 데이터 분류는 단순 소리를 통한 분류, 감정 인식등 다양한 연구가 진행중이다. 심층 신경망에서 데이터의 부족과 과적합 문제를 개선하는 방법으로 데이터 증강은 중요하다. 본 논문에서는 3가지의 소리데이터(UrbanSound8K, RAVDESS, IRMAS)를 사용하였으며, 소리데이터는 멜 스펙트로그램을 통한 변환과정을 거쳐 네트워크 망에 입력된다. 입력된 신호는 다양한 네크워크 신경망(Bidirection LSTM, Bidirection LSTM Attention, Multi-Head Attention, CNN)을 통해 학습되어지며, 각각의 네트워크 신경망에서 데이터 증강 전후의 분류 정확도를 확인 하였다. 다양한 데이터셋과 다양한 네트워크 망에서의 데이터 증강 방법의 결과 비교를 통한 통찰을 얻을수 있을 것이다.

  • PDF

Nominal Compound Analysis Using Statistical Information and WordNet (통계정보와 WordNet을 이용한 복합명사 분석)

  • 류민홍;나동열;장명길
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.33-40
    • /
    • 2000
  • 복합명사의 한 구조는 구성 명사간의 수식관계의 집합이라고 본다. 한 복합 명사에 대하여 가능한 여러 구조 중에서 올바른 구조를 알아 내는 것이 본 논문의 목표이다. 이를 위하여 우리는 최근에 유행하는 통계 기반 분석 기법을 이용한다. 먼저 우리의 복합 명사 분석 asn제에 알맞은 통계 모델을 개발하였다. 이 모델을 이용하면 분석하려는 복합명사의 가능한 분석 구조바다 확률값을 얻게 된다. 그 다음 가능한 구조들 중에서 가장 확률값이 큰 구조를 복합구조로 선택한다. 통계 기반 기법에서 항상 문제가 되는 것이 데이터 부족문제이다. 우리는 이를 해결하기 위해 개념적 계층구조의 하나인 워드넷(WordNet)을 이용한다.

  • PDF

Network Address Translation By Flow Separation (데이터 플로우 구별에 의한 네트워크 주소 변환)

  • 윤승용;이광희;최창국;전우직
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10c
    • /
    • pp.393-395
    • /
    • 2000
  • 현재 인터넷이 직면하고 있는 IP 주소 부족문제 해결을 위한 새로운 방안으로서 데이터 플로우 구별에 의한 네트워크 주소 변환(NAT-FS : NAT by Flow Separation) 기법을 제안하고 기술한다. 이 방식은 기존의 NAPT와 같이 단 하나의 글로벌 IP 주소에 모든 로컬 호스트가 할당되면서도 Basic NAT 방식처럼 DNA와 연동하여 Full Access 기능도 지원할 수 있다.

  • PDF

Data flow distribution method for multihoming (멀티호밍을 위한 데이터 플로우 분배 방안)

  • 송정화;이미정
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.13-15
    • /
    • 2002
  • 무선 네트워크 환경은 유선 네트워크 환경에 비해서 상대적으로 부족한 대역폭을 가진다. 또, 무선 네트워크 환경에서는 이동에 의해 빈번한 핸드오프가 일어나고 이는 패킷손실, 지연 증가 등으로 인한 성능 저하를 야기한다. 하나의 엔드 시스템이 여러 개의 IP 주소를 가지고, 동시에 그 경로를 이용할 수 있다면, 이러한 문제를 완화시킬 수 있을 것이다.이 논문에서는 하나의 엔드 시스템이 여러 개의 IP 주소를 가지는 경우에 그러한 여러 개의 경로상에 데이터 플로우를 분배하기 위한 알고리즘을 제안한다.

  • PDF

Word Sense Disambiguation using corpus based sense distribution and collocation (코퍼스 기반 의미체계와 의미 별 공기정보를 이용한 비지도식 의미구분)

  • 신사임;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.772-774
    • /
    • 2004
  • 본 논문은 원시코퍼스에서 추출한 동음이의어의 의미 별 공기정보를 사용한 비지도식 의미구분 시스템의 구축을 제안한다. 대용량 원시코퍼스에서 추출한 의미체계를 기준으로 의미구분을 수행하였기 때문에 비현실적인 의미체계에 의한 문제점을 해결하였고, 원시코퍼스에서 추출한 공기정보로 데이터 획득비용과 부족문제를 해소하였다 실험을 통해 의미체계의 현실화와 비지도식 훈련데이터 추출방법이 의미구분의 성능향상에 기여함을 보였다

  • PDF

A Feature Generation Method for Multimedia Recommendation System (멀티미디어 추천시스템을 위한 속성 생성 기법)

  • Kim, Hyung-Il;Eom, Jeong-Kook
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.2
    • /
    • pp.257-268
    • /
    • 2008
  • Multimedia recommendation systems analyze user preferences and recommend items(multimedia contents) to a user by predicting the user's preference for those items. Among various kinds of recommendation methods, collaborative filtering(CF) has been widely used and successfully applied to practical applications. However, collaborative filtering has two inherent problems: data sparseness and the cold-start problems. If there are few known preferences for a user, it is difficult to find many similar users, and therefore the performance of recommendation is degraded. This problem is more serious when a new user is first using the system. In this paper, we propose a method of generating additional feature of users and items into CF to overcome the difficulties caused by sparseness and improve the accuracy of recommendation. In our method, we first generate additional features by using the probability distribution of feature values, then recommend items by applying collaborative filtering on the modified data to include additional features. Several experimental results that show the effectiveness of the proposed method are also presented.

  • PDF

Oversampling-Based Ensemble Learning Methods for Imbalanced Data (불균형 데이터 처리를 위한 과표본화 기반 앙상블 학습 기법)

  • Kim, Kyung-Min;Jang, Ha-Young;Zhang, Byoung-Tak
    • KIISE Transactions on Computing Practices
    • /
    • v.20 no.10
    • /
    • pp.549-554
    • /
    • 2014
  • Handwritten character recognition data is usually imbalanced because it is collected from the natural language sentences written by different writers. The imbalanced data can cause seriously negative effect on the performance of most of machine learning algorithms. But this problem is typically ignored in handwritten character recognition, because it is considered that most of difficulties in handwritten character recognition is caused by the high variance in data set and similar shapes between characters. We propose the oversampling-based ensemble learning methods to solve imbalanced data problem in handwritten character recognition and to improve the recognition accuracy. Also we show that proposed method achieved improvements in recognition accuracy of minor classes as well as overall recognition accuracy empirically.

The Development of Property Prediction Model in Consideration of Biodegradable Fiber Spinning Process Data Characteristics (생분해성 섬유 방사 공정 데이터 특성을 고려한 물성 예측 모델 개발)

  • Park, SeChan;Kim, Deok Yeop;Seo, Kang Bok;Lee, Woo Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.362-365
    • /
    • 2022
  • 최근 노동 집약적인 성격의 섬유 산업에서는 AI를 통해 공정에 들어가는 시간과 비용을 줄이고 품질을 최적화 하려는 시도를 하고 있다. 그러나 섬유 방사 공정은 데이터 수집에 필요한 비용이 크고 체계적인 데이터 처리 시스템이 부족하여 축적된 데이터양이 적다. 또 방사 목적에 따라 특정 변수 위주의 조합에 대한 데이터만을 우선적으로 수집하여 데이터 불균형이 발생하며, 물성 측정환경 차이로 인해 동일 방사조건에서 수집된 샘플 간에도 오차가 존재한다. 이러한 데이터 특성들을 고려하지 않고 AI 모델에 활용할 경우 과적합과 성능 저하 등의 문제가 발생할 수 있다. 따라서 본 논문에서는 물성 단위 및 허용오차를 고려한 이상치 처리 기법과 데이터 불균형 정도 및 물성과의 상관성을 고려한 오버샘플링 기법을 물성 예측 모델에 적용한다. 두 기법들을 모델에 적용한 결과 그렇지 않은 모델에 비해 물성 예측 오차와 방사 공정 데이터에 대한 모델의 적합도가 개선됨을 보인다.

Hate Speech Detection in Chatbot Data Using KoELECTRA (KoELECTRA를 활용한 챗봇 데이터의 혐오 표현 탐지)

  • Shin, Mingi;Chin, Hyojin;Song, Hyeonho;Choi, Jeonghoi;Lim, Hyeonseung;Cha, Meeyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.518-523
    • /
    • 2021
  • 챗봇과 같은 대화형 에이전트 사용이 증가하면서 채팅에서의 혐오 표현 사용도 더불어 증가하고 있다. 혐오 표현을 자동으로 탐지하려는 노력은 다양하게 시도되어 왔으나, 챗봇 데이터를 대상으로 한 혐오 표현 탐지 연구는 여전히 부족한 실정이다. 이 연구는 혐오 표현을 포함한 챗봇-사용자 대화 데이터 35만 개에 한국어 말뭉치로 학습된 KoELETRA 기반 혐오 탐지 모델을 적용하여, 챗봇-사람 데이터셋에서의 혐오 표현 탐지의 성능과 한계점을 검토하였다. KoELECTRA 혐오 표현 분류 모델은 챗봇 데이터셋에 대해 가중 평균 F1-score 0.66의 성능을 보였으며, 오탈자에 대한 취약성, 맥락 미반영으로 인한 편향 강화, 가용한 데이터의 정확도 문제가 주요한 한계로 포착되었다. 이 연구에서는 실험 결과에 기반해 성능 향상을 위한 방향성을 제시한다.

  • PDF

A Method of Activity Recognition in Small-Scale Activity Classification Problems via Optimization of Deep Neural Networks (심층 신경망의 최적화를 통한 소규모 행동 분류 문제의 행동 인식 방법)

  • Kim, Seunghyun;Kim, Yeon-Ho;Kim, Do-Yeon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.3
    • /
    • pp.155-160
    • /
    • 2017
  • Recently, Deep learning has been used successfully to solve many recognition problems. It has many advantages over existing machine learning methods that extract feature points through hand-crafting. Deep neural networks for human activity recognition split video data into frame images, and then classify activities by analysing the connectivity of frame images according to the time. But it is difficult to apply to actual problems which has small-scale activity classes. Because this situations has a problem of overfitting and insufficient training data. In this paper, we defined 5 type of small-scale human activities, and classified them. We construct video database using 700 video clips, and obtained a classifying accuracy of 74.00%.