• 제목/요약/키워드: Dataset Generation

검색결과 196건 처리시간 0.022초

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

SWT-SVD 전처리 알고리즘을 적용한 예측적 베어링 이상탐지 모델 (A Predictive Bearing Anomaly Detection Model Using the SWT-SVD Preprocessing Algorithm)

  • 박소향;김광훈
    • 인터넷정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.109-121
    • /
    • 2024
  • 섬유, 자동차와 같은 여러 제조 공정에서 설비가 고장이 나 멈추게 되면 기계가 작동하지 않게 되고 이는 기업의 시간적, 금전적 손실로 이어진다. 따라서 설비의 고장이 발생하기 전, 고장을 예측하여 정비할 수 있도록 설비의 이상을 사전에 탐지하는 것이 중요하다. 대부분의 설비 고장 원인은 설비의 필수 부품인 베어링의 고장으로, 베어링의 고장을 진단하는 것은 설비예지보전 연구의 핵심이기도 하다. 본 논문에서는 베어링의 진동 신호를 분석하여 SWT-SVD 전처리 알고리즘을 제안하고 이를 시계열 이상탐지 모델 네트워크 중 하나인 어노멀리 트랜스포머에 적용하여 베어링 이상탐지 모델을 구현한다. 제조공정의 베어링 진동신호는 실시간으로 센서값들의 이력이 작성되어 노이즈가 존재하므로, 이를 줄이기 위해 본 연구에서는 정상 웨이블릿 변환(Stationary Wavelet Transform)을 사용하여 주파수 성분을 추출하고, 특이값 분해(Singular Value Decomposition) 알고리즘을 통해 유의미한 특징들을 추출하는 전처리를 진행한다. 제안하는 SWT-SVD 전처리 방법을 적용한 베어링 이상탐지 모델 실험을 위해 IEEE PHM학회에서 제공하는 PHM-2012-Challenge 데이터 세트를 활용하였으며, 실험 결과는 0.98의 정확도와 0.97의 F1-Score로 우수한 성능을 보였다. 추가로, 성능 향상을 입증하기 위해 선행 연구들과 성능 비교를 진행한다. 비교 실험을 통해 제안한 전처리 방법이 기존의 전처리보다 높은 성능을 보임을 확인하였다.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.

다중모형조합기법을 이용한 상품추천시스템 (Product Recommender Systems using Multi-Model Ensemble Techniques)

  • 이연정;김경재
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.39-54
    • /
    • 2013
  • 전자상거래의 폭발적 증가는 소비자에게 더 유리한 많은 구매 선택의 기회를 제공한다. 이러한 상황에서 자신의 구매의사결정에 대한 확신이 부족한 소비자들은 의사결정 절차를 간소화하고 효과적인 의사결정을 위해 추천을 받아들인다. 온라인 상점의 상품추천시스템은 일대일 마케팅의 대표적 실현수단으로써의 가치를 인정받고 있다. 그러나 사용자의 기호를 제대로 반영하지 못하는 추천시스템은 사용자의 실망과 시간낭비를 발생시킨다. 본 연구에서는 정확한 사용자의 기호 반영을 통한 추천기법의 정교화를 위해 데이터마이닝과 다중모형조합기법을 이용한 상품추천시스템 모형을 제안하고자 한다. 본 연구에서 제안하는 모형은 크게 두 개의 단계로 이루어져 있으며, 첫 번째 단계에서는 상품군 별 우량고객 선정 규칙을 도출하기 위해서 로지스틱 회귀분석 모형, 의사결정나무 모형, 인공신경망 모형을 구축한 후 다중모형조합기법인 Bagging과 Bumping의 개념을 이용하여 세 가지 모형의 결과를 조합한다. 두 번째 단계에서는 상품군 별 연관관계에 관한 규칙을 추출하기 위하여 장바구니분석을 활용한다. 상기의 두 단계를 통하여 상품군 별로 구매가능성이 높은 우량고객을 선정하여 그 고객에게 관심을 가질만한 같은 상품군 또는 다른 상품군 내의 다른 상품을 추천하게 된다. 제안하는 상품추천시스템은 실제 운영 중인 온라인 상점인 'I아트샵'의 데이터를 이용하여 프로토타입을 구축하였고 실제 소비자에 대한 적용가능성을 확인하였다. 제안하는 모형의 유용성을 검증하기 위하여 제안 상품추천시스템의 추천과 임의 추천을 통한 추천의 결과를 사용자에게 제시하고 제안된 추천에 대한 만족도를 조사한 후 대응표본 T검정을 수행하였으며, 그 결과 사용자의 만족도를 유의하게 향상시키는 것으로 나타났다.

KOMPSAT-3/3A 영상 기반 하천의 탁도 산출 연구 (A Study on the Retrieval of River Turbidity Based on KOMPSAT-3/3A Images)

  • 김다희;원유준;한상명;한향선
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1285-1300
    • /
    • 2022
  • 탁도는 부유물질에 의한 빛의 산란 또는 흡수로 인한 수체의 흐림을 나타내는 수치로 수질 관리 분야에서 중요 지표로 활용되고 있다. 탁도는 소규모의 하천에서 변동성이 심할 수 있으며, 이는 국가하천의 수질에 직접적으로 영향을 준다. 따라서 고해상도의 탁도 공간정보 산출은 매우 중요하다. 이 연구에서는 Korea Multi-Purpose Satellite-3 및 -3A (KOMPSAT-3/3A) 영상으로부터 한강 수계 하천의 고해상도 탁도 매핑을 위한 eXtreme Gradient Boosting (XGBoost) 알고리즘 기반의 탁도 산출 모델을 개발하였다. 이를 위해 총 24장의 KOMPSAT-3/3A 영상과 150장의 Landsat-8 영상으로부터 계산된 대기 상단(Top Of Atmosphere, TOA) 반사율을 활용하였으며, Landsat-8 TOA 반사율은 KOMPSAT-3/3A의 관측 파장 대역에 적합하도록 교차검보정을 수행하였다. 국가수질자동관측망에서 측정된 탁도를 탁도 산출 모델의 참조자료로 사용하였고, 입력 변수로는 탁도가 실측된 위치에서의 TOA 분광반사율과 탁도 분석에 널리 이용되어 온 분광지수인 정규식생지수, 정규수분지수, 정규탁도지수, 그리고 Moderate Resolution Imaging Spectroradiometer (MODIS)의 대기 산출물(에어로졸 광학 두께, 수증기량, 오존)을 사용하였다. 또한 고탁도와 저탁도에 대한 KOMPSAT-3/3A TOA 분광반사율을 분석하여 탁도를 설명할 수 있는 새로운 정규탁도지수(new normalized difference turbidity index, nNDTI)를 제안하였고, 이를 탁도 산출 모델에 입력 변수로 추가하였다. XGBoost 기반 탁도 산출 모델은 현장관측 탁도와 비교하여 2.70 NTU의 평균 제곱근 오차(root mean square error, RMSE) 및 14.70%의 정규화된 RMSE(normalized RMSE)를 가지는 탁도를 예측하여 우수한 성능을 보였으며, 이 연구에서 새롭게 제안한 nNDTI가 탁도 산출에 있어 가장 중요한 변수로 사용되었다. 개발된 탁도 산출 모델을 KOMPSAT-3/3A 영상에 적용하여 하천 탁도를 고해상도로 매핑하였으며, 탁도의 시공간적 변동에 대한 분석이 가능하였다. 이 연구를 통하여 고해상도의 정확한 탁도 공간정보 산출에 KOMPSAT-3/3A 영상이 매우 유용함을 확인할 수 있었다.

전문성 이식을 통한 딥러닝 기반 전문 이미지 해석 방법론 (Deep Learning-based Professional Image Interpretation Using Expertise Transplant)

  • 김태진;김남규
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.79-104
    • /
    • 2020
  • 최근 텍스트와 이미지 딥러닝 기술의 괄목할만한 발전에 힘입어, 두 분야의 접점에 해당하는 이미지 캡셔닝에 대한 관심이 급증하고 있다. 이미지 캡셔닝은 주어진 이미지에 대한 캡션을 자동으로 생성하는 기술로, 이미지 이해와 텍스트 생성을 동시에 다룬다. 다양한 활용 가능성 덕분에 인공지능의 핵심 연구 분야 중 하나로 자리매김하고 있으며, 성능을 다양한 측면에서 향상시키고자 하는 시도가 꾸준히 이루어지고 있다. 하지만 이처럼 이미지 캡셔닝의 성능을 고도화하기 위한 최근의 많은 노력에도 불구하고, 이미지를 일반인이 아닌 분야별 전문가의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르다. 이에 본 연구에서는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하기 위한 방안을 제안한다. 구체적으로 제안 방법론은 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 전이 학습을 통해 해당 분야의 전문성을 이식한다. 또한 본 연구에서는 이 과정에서 발생하게 되는 관찰간 간섭 문제를 해결하기 위해 '특성 독립 전이 학습' 방안을 제안한다. 제안 방법론의 실현 가능성을 파악하기 위해 MSCOCO의 이미지-캡션 데이터 셋을 활용하여 사전 학습을 수행하고, 미술 치료사의 자문을 토대로 생성한 '이미지-전문 캡션' 데이터를 활용하여 전문성을 이식하는 실험을 수행하였다. 실험 결과 일반 데이터에 대한 학습을 통해 생성된 캡션은 전문적 해석과 무관한 내용을 다수 포함하는 것과 달리, 제안 방법론에 따라 생성된 캡션은 이식된 전문성 관점에서의 캡션을 생성함을 확인하였다. 본 연구는 전문 이미지 해석이라는 새로운 연구 목표를 제안하였고, 이를 위해 전이 학습의 새로운 활용 방안과 특정 도메인에 특화된 캡션을 생성하는 방법을 제시하였다.