• Title/Summary/Keyword: 부정 데이터 생성

Search Result 34, Processing Time 0.027 seconds

Negative example generation methods of SVM for predicting protein-protein interactions (단백질 상호 작용 예측을 위한 SVM의 부정예제 생성방법론)

  • 김철환;정유진
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.265-267
    • /
    • 2004
  • 생명체의 기본 정보가 저장된 DNA에서 생성되는 단백질은 생명 현상의 중요한 기능적 역할을 수행하기 때문에 단백질과 관련된 다양한 연구가 진행되고 있다. 본 논문에서는 단백질간 상호작용(protein-protein interaction)을 예측하기 위해 시스템을 통계학적 모델인 Support Vector Machine(SVM)을 사용하였다. SVM 시스템은 상호작용이 있는 데이터(긍정예제)와 상호작용이 없는 데이터(부정예제)를 입력으로 하여 모델링 생성과 테스트를 하는데, 상호작용이 있는 데이터는 DIP에 있는 interaction list로 해결이 가능하지만 상호작용이 없는 데이터는 현재 존재하지 않기 때문에 이를 생성하기 위한 생성방법이 필요하다. 이 논문에서는 shuffling, non-interaction list, 그리고 앞의 두 방법을 보완하는 non-interaction list + shuffling이라는 방법을 제시하고 기존의 실험 결과를 상회하는 부정예제 생성방법을 제시한다.

  • PDF

Automatic Generation of Training Corpus for a Sentiment Analysis Using a Generative Adversarial Network (생성적 적대 네트워크를 이용한 감성인식 학습데이터 자동 생성)

  • Park, Cheon-Young;Choi, Yong-Seok;Lee, Kong Joo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.389-393
    • /
    • 2018
  • 딥러닝의 발달로 기계번역, 대화 시스템 등의 자연언어처리 분야가 크게 발전하였다. 딥러닝 모델의 성능을 향상시키기 위해서는 많은 데이터가 필요하다. 그러나 많은 데이터를 수집하기 위해서는 많은 시간과 노력이 소요된다. 본 연구에서는 이미지 생성 모델로 좋은 성능을 보이고 있는 생성적 적대 네트워크(Generative adverasarial network)를 문장 생성에 적용해본다. 본 연구에서는 긍/부정 조건에 따른 문장을 자동 생성하기 위해 SeqGAN 모델을 수정하여 사용한다. 그리고 분류기를 포함한 SeqGAN이 긍/부정 감성인식 학습데이터를 자동 생성할 수 있는지 실험한다. 실험을 수행한 결과, 분류기를 포함한 SeqGAN 모델이 생성한 문장과 학습데이터를 혼용하여 학습할 경우 실제 학습데이터만 학습 시킨 경우보다 좋은 정확도를 보였다.

  • PDF

Text Style Transfer of Non-parallel Data using Transformer and Discriminator (트랜스포머와 판별기를 이용한 비병렬 데이터의 텍스트 스타일 변환)

  • Park, Da-Sol;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.64-68
    • /
    • 2020
  • 텍스트 스타일 변환은 문장 내 컨텐츠는 유지하면서 문장의 스타일을 변경하는 것이다. 스타일의 정의가 모호하기 때문에 텍스트 스타일 변환에 대한 연구는 대부분 지도 학습으로 진행되어왔다. 본 논문에서는 병렬 데이터 구축이 되지 않은 데이터를 학습하기 위해 비병렬 데이터를 이용하여 스타일 변환을 시도한다. 트랜스포머 기반의 문장 생성기를 이용하여 문장을 생성하고, 해당 스타일을 분류하는 판별기로 이루어진 모델을 제안한다. 제안 모델을 통해, 감정 변환의 성능은 정확도(Accuracy) 56.9%, self-BLEU 0.393(긍정→부정), 0.366(부정→긍정), 유창성(fluency) 798.23(긍정→부정), 1381.05(부정→긍정)을 보였다. 본 연구는 비병렬 데이터에 대해 스타일 변환을 적용함으로써, 병렬 데이터가 없는 다양한 도메인에도 적용가능 할 것이다.

  • PDF

Change Detection Algorithm based on Positive and Negative Selection of Developing T-cell (T세포 발생과정의 긍정 및 부정 선택에 기반한 변경 검사 알고리즘)

  • 이동욱;심재윤;심귀보
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.12a
    • /
    • pp.478-481
    • /
    • 2002
  • 본 논문에서는 생명체의 면역계에서 중요한 역할을 하는 세포독성 T세포의 생성과정의 하나인 긍정선택(positive selection)과 부정 선택(negative selection)을 모델링하여 침입에 의한 데이터 변경과 바이러스에 의한 데이터 감염 등을 탐지할 때 가장 중요한 요소인 변경 검사 알고리즘을 개발하였다. 제안한 알고리즘은 면역세포의 생성시 MHC 인식부를 형성해 주는 긍정 선택을 자기 인식 알고리즘으로 구현하여 컴퓨터에서 자기로 인식해야하는 파일이나 기능에 대해 MHC 인식부를 형성하고, 또한 항원 인식부를 형성하는 부정 선택을 이용해 변형 검지기(anomaly detector)를 구성한다. 따라서 제안한 알고리즘은 실제 면역세포와 마찬가지로 자신과 침입자 모두에 대한 인식기를 가지고 변경을 탐지하게 된다. 시뮬레이션을 통하여 자기파일의 일부가 변경되었을 때와 블록이 변경되었을 때에 대하여 두 가지 방법을 이용한 변경 검사 알고리즘의 특성과 유효성을 밝힌다.

Weighted Negative Tree Pattern Discovery (가중치 부여 부정 트리 패턴 추출)

  • Paik, Juryon;Kim, Jinyoung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.23-26
    • /
    • 2019
  • 사물인터넷(IoT)은 지금의 우리가 살고 일하는 모든 방식을 변화시키고 있다. IoT를 통해 데이터를 생성하고 저장하고 연결된 장치와 상호작용하여 비즈니스는 물론 우리의 일상 생활을 개선하고 있는 것이다. 무수히 많은 센서들이 연결된 세상은 센서들에 의해 그 어느 때보다 거대한 양의 데이터들을 생산하고 있다. JSON, XML 같은 트리 구조의 데이터 타입은 대량 데이터 저장 전송 교환 등에 주요하게 사용되는데 이는 트리 구조가 이형 데이터 간의 유연한 정보 전송과 교환을 가능하게 하기 때문이다. 반면에, 효용성 높은 정보나 감추어져 있는 정보들을 트리 구조의 대량 데이터들로부터 추출하는 것은 일반 데이터 구조에 비해 훨씬 어려우며 더 난해한 문제들을 발생시킨다. 본 논문에서는 트리 구조의 대량 스트리밍 데이터로부터 가중치가 부여된 주요한 부정 패턴들을 추출하기 위한 방법을 공식화한다.

  • PDF

Confidence Score based Machine Reading Comprehension for Commercialization (상용화를 위한 신뢰 점수 기반 기계독해 모델)

  • Lee, Hyeon-gu;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.203-206
    • /
    • 2019
  • 상용화 서비스를 위한 기계독해 시스템은 출력되는 응답의 정확도가 낮으면 사용자 만족도가 급격히 감소하는 문제가 있다. 응답의 정확도를 높이기 위해서는 모델의 성능을 향상시키거나 신뢰도를 파악하여 확실한 정답만 출력하고 판단하기 모호한 정답은 출력하지 않는 것이 좋다. 또한 현재 주어진 문맥에서 해결할 수 없는 질의의 경우 정답이 없음을 알려줘야 한다. 하지만 모델의 성능을 향상시키기 위해서는 모델이 매우 복잡해져 높은 성능의 하드웨어가 필요하며 추가 데이터가 필요하다. 본 논문에서는 이러한 문제를 해결하기 위해 정답을 찾을 수 있는 질의로만 구성된 말뭉치에서 부정 데이터를 생성하고 신뢰 점수를 계산 할 수 있는 신뢰 노드를 추가하여 정확도를 향상시키는 모델을 제안한다. 실험 결과 응답 재현율은 떨어지지만 신뢰 점수 임계값에 비례하여 정확률이 향상되는 것을 보였다.

  • PDF

Ensemble-based Counterfeit Detection Algorithm (앙상블 기반의 위조 탐지 알고리즘)

  • Ilkin Taghiyev;Youngbok-Cho
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.101-102
    • /
    • 2023
  • 본 연구에서는 인터넷 상에서 발생되는 부정행위를 탐지할수 있는 신뢰 모델을 생성하고 개인의 프라이버시를 보장할수 있는 모델을 제시하였다. 인터넷 상에 게시판에 올려진 부정해위를 탐지하기 위해 앙상블 접근 방식 기반의 분류 모델을 제시하고 자동화된 도구를 제안하였다. 본 연구는 데이터에 대한 탐색적 데이터 분석을 수행하고 얻은 통찰력을 사용해 자연어처리 가반 텍스트를 기반으로 앙상블 기반의 위조 탐지 알고리즘을 제안하였다. 제안 알고리즘의 정확도는 99%로 자연어 처리에 높은 탐지율을 보였다.

  • PDF

Controlled Korean Style Transfer using BERT (BERT을 이용한 한국어 문장의 스타일 변화)

  • Lee, Joosung;Oh, Yeontaek;Byun, hyunjin;Min, Kyungkoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.395-399
    • /
    • 2019
  • 생성 모델은 최근 단순히 기존 데이터를 증강 시키는 것이 아니라 원하는 속성을 가지도록 스타일을 변화시키는 연구가 활발히 진행되고 있다. 스타일 변화 연구에서 필요한 병렬 데이터 세트는 구축하는데 많은 비용이 들기 때문에 비병렬 데이터를 이용하는 연구가 주를 이루고 있다. 이러한 방법론으로 이미지 분야에서 대표적으로 cycleGAN[1]이 있으며 최근 자연어 처리 분야에서도 많은 연구가 진행되고 있다. 많은 논문들이 사용하는 데이터도메인은 긍정 문장과 부정 문장 사이를 변화시키는 것이다. 본 연구에서는 한국어 영화리뷰 데이터 세트인 NSMC[2]를 이용한 감성 변화를 하는 문장생성에 대한 연구로 자연어 처리에서 좋은 성능을 보여주는 BERT[8]를 생성모델에 이용하였다.

  • PDF

Change Detection Algorithm based on Positive and Negative Selection of Developing T-cell (T세포 발생과정의 긍정 및 부정 선택에 기반한 변경 검사 알고리즘)

  • Sim, Kwee-Bo;Lee, Dong-Wook
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.13 no.1
    • /
    • pp.119-124
    • /
    • 2003
  • In this paper, we modeled positive selection and negative selection that is developing process of cytotoxic T-cell that plays important role in biological immune system. Also, we developed change detection algorithm, which is very Important part in detecting data change by intrusion and data infection by computer virus. Proposed method is the algorithm that produces MHC receptor lot recognizing self and antigen detector for recognizing non-self. Therefore, proposed method detects self and intruder by two type of detectors like real immune system. We show the effectiveness and characteristics of proposed change detection algorithm by simulation about point and block change of self file.

Arrhythmia Classification using GAN-based Over-Sampling Method and Combination Model of CNN-BLSTM (GAN 오버샘플링 기법과 CNN-BLSTM 결합 모델을 이용한 부정맥 분류)

  • Cho, Ik-Sung;Kwon, Hyeog-Soong
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.26 no.10
    • /
    • pp.1490-1499
    • /
    • 2022
  • Arrhythmia is a condition in which the heart has an irregular rhythm or abnormal heart rate, early diagnosis and management is very important because it can cause stroke, cardiac arrest, or even death. In this paper, we propose arrhythmia classification using hybrid combination model of CNN-BLSTM. For this purpose, the QRS features are detected from noise removed signal through pre-processing and a single bit segment was extracted. In this case, the GAN oversampling technique is applied to solve the data imbalance problem. It consisted of CNN layers to extract the patterns of the arrhythmia precisely, used them as the input of the BLSTM. The weights were learned through deep learning and the learning model was evaluated by the validation data. To evaluate the performance of the proposed method, classification accuracy, precision, recall, and F1-score were compared by using the MIT-BIH arrhythmia database. The achieved scores indicate 99.30%, 98.70%, 97.50%, 98.06% in terms of the accuracy, precision, recall, F1 score, respectively.