• 제목/요약/키워드: datasets

검색결과 2,012건 처리시간 0.026초

Exploring indicators of genetic selection using the sniffer method to reduce methane emissions from Holstein cows

  • Yoshinobu Uemoto;Tomohisa Tomaru;Masahiro Masuda;Kota Uchisawa;Kenji Hashiba;Yuki Nishikawa;Kohei Suzuki;Takatoshi Kojima;Tomoyuki Suzuki;Fuminori Terada
    • Animal Bioscience
    • /
    • 제37권2호
    • /
    • pp.173-183
    • /
    • 2024
  • Objective: This study aimed to evaluate whether the methane (CH4) to carbon dioxide (CO2) ratio (CH4/CO2) and methane-related traits obtained by the sniffer method can be used as indicators for genetic selection of Holstein cows with lower CH4 emissions. Methods: The sniffer method was used to simultaneously measure the concentrations of CH4 and CO2 during milking in each milking box of the automatic milking system to obtain CH4/CO2. Methane-related traits, which included CH4 emissions, CH4 per energy-corrected milk, methane conversion factor (MCF), and residual CH4, were calculated. First, we investigated the impact of the model with and without body weight (BW) on the lactation stage and parity for predicting methane-related traits using a first on-farm dataset (Farm 1; 400 records for 74 Holstein cows). Second, we estimated the genetic parameters for CH4/CO2 and methane-related traits using a second on-farm dataset (Farm 2; 520 records for 182 Holstein cows). Third, we compared the repeatability and environmental effects on these traits in both farm datasets. Results: The data from Farm 1 revealed that MCF can be reliably evaluated during the lactation stage and parity, even when BW is excluded from the model. Farm 2 data revealed low heritability and moderate repeatability for CH4/CO2 (0.12 and 0.46, respectively) and MCF (0.13 and 0.38, respectively). In addition, the estimated genetic correlation of milk yield with CH4/CO2 was low (0.07) and that with MCF was moderate (-0.53). The on-farm data indicated that CH4/CO2 and MCF could be evaluated consistently during the lactation stage and parity with moderate repeatability on both farms. Conclusion: This study demonstrated the on-farm applicability of the sniffer method for selecting cows with low CH4 emissions.

Deep Learning Algorithm for Automated Segmentation and Volume Measurement of the Liver and Spleen Using Portal Venous Phase Computed Tomography Images

  • Yura Ahn;Jee Seok Yoon;Seung Soo Lee;Heung-Il Suk;Jung Hee Son;Yu Sub Sung;Yedaun Lee;Bo-Kyeong Kang;Ho Sung Kim
    • Korean Journal of Radiology
    • /
    • 제21권8호
    • /
    • pp.987-997
    • /
    • 2020
  • Objective: Measurement of the liver and spleen volumes has clinical implications. Although computed tomography (CT) volumetry is considered to be the most reliable noninvasive method for liver and spleen volume measurement, it has limited application in clinical practice due to its time-consuming segmentation process. We aimed to develop and validate a deep learning algorithm (DLA) for fully automated liver and spleen segmentation using portal venous phase CT images in various liver conditions. Materials and Methods: A DLA for liver and spleen segmentation was trained using a development dataset of portal venous CT images from 813 patients. Performance of the DLA was evaluated in two separate test datasets: dataset-1 which included 150 CT examinations in patients with various liver conditions (i.e., healthy liver, fatty liver, chronic liver disease, cirrhosis, and post-hepatectomy) and dataset-2 which included 50 pairs of CT examinations performed at ours and other institutions. The performance of the DLA was evaluated using the dice similarity score (DSS) for segmentation and Bland-Altman 95% limits of agreement (LOA) for measurement of the volumetric indices, which was compared with that of ground truth manual segmentation. Results: In test dataset-1, the DLA achieved a mean DSS of 0.973 and 0.974 for liver and spleen segmentation, respectively, with no significant difference in DSS across different liver conditions (p = 0.60 and 0.26 for the liver and spleen, respectively). For the measurement of volumetric indices, the Bland-Altman 95% LOA was -0.17 ± 3.07% for liver volume and -0.56 ± 3.78% for spleen volume. In test dataset-2, DLA performance using CT images obtained at outside institutions and our institution was comparable for liver (DSS, 0.982 vs. 0.983; p = 0.28) and spleen (DSS, 0.969 vs. 0.968; p = 0.41) segmentation. Conclusion: The DLA enabled highly accurate segmentation and volume measurement of the liver and spleen using portal venous phase CT images of patients with various liver conditions.

엣지 컴퓨팅을 이용하여 자율주행에 최적화된 지능형 교통 시스템 연구(ITS) (Intelligent Transportation System (ITS) research optimized for autonomous driving using edge computing)

  • 홍성혁
    • 산업과 과학
    • /
    • 제3권1호
    • /
    • pp.23-29
    • /
    • 2024
  • 본 연구에서는 자율 주행을 위한 지능형 교통 시스템(ITS)을 최적화하는 데 있어 엣지 컴퓨팅의 혁신적인 잠재력을 연구하였다. 방대한 양의 데이터를 로컬에서 실시간으로 처리하는 엣지 컴퓨팅의 능력은 신속한 의사 결정 및 향상된 안전 조치를 포함하여 자율주행차의 중요한 요구 사항을 해결하는 데 필수 요소이다. 엣지 컴퓨팅과 기존 ITS 인프라의 통합을 탐구하고, 현지화된 데이터 처리가 대기 시간을 크게 줄여 자율주행차의 반응성을 향상시키는 방법을 강조한다. 실시간 교통 관리, 충돌 방지 시스템 및 동적 경로 최적화를 지원하는 강력한 프레임워크를 집합적으로 형성하는 엣지서버, 센서 및 V2X(Vehicle-to-Everything) 통신 기술의 배포를 검토한다. 또한 본 연구는 보안, 데이터 통합, 시스템 확장성 등 ITS에서 엣지 컴퓨팅을 구현하는 데 있어 가장 중요한 과제를 다루며 잠재적인 솔루션과 향후 연구 방향에 대한 통찰력을 제공한다. 이 논문은 완전 자율 주행이라는 비전을 실현하는 데 있어 엣지 컴퓨팅의 중추적인 역할을 강조하고, 보다 안전하고 효율적이며 지속 가능한 교통 시스템을 달성하는 데 기여하는 논문이다.

총자력계를 이용한 선상 삼성분 자기 데이터의 선박 점성 자화 효과에 대한 새로운 보정 방법 연구 (A New Correction Method for Ship's Viscous Magnetization Effect on Shipboard Three-component Magnetic Data Using a Total Field Magnetometer)

  • 최한진
    • 지구물리와물리탐사
    • /
    • 제27권2호
    • /
    • pp.119-128
    • /
    • 2024
  • 해양자력탐사는 다른 탐사법에 비해 측정이 간편하여 해저 지구조 및 광상자원 분포 등의 탐사에 개척자 탐사로 주요하게 사용되는 방법이다. 측정은 주로 해수면 견인 자력계와 선상 삼성분 자력계를 주로 사용하고 있다. 해수면 견인 자력계는 분해능이 높다는 장점이 있지만 독자적인 연구선을 사용해야 하고, 자기장의 세기 만 측정할 수 있는 반면, 선상 삼성분 자력계는 상대적으로 분해능이 낮지만 자기장의 벡터 삼성분을 측정할 수 있고 연구선을 단독으로 사용하지 않아도 자료를 획득할 수 있다는 큰 장점을 가지고 있다. 하지만, 선상 삼성분 자력계는 선박의 자성 영향으로 인해 측정된 자료의 까다로운 보정이 필요하다. 현재까지 다양한 방법론이 제시되었지만 점성자화의 영향으로부터 벡터 삼성분의 보정이 불가능하였다. 본 연구에서는 해수면 견인 총 자력계와 선상 삼성분 자력계를 동시에 획득하였을 경우, 회전행렬을 통하여 간단하게 선상 삼성분 자력계로 얻은 자료를 해수면 견인 자력계로 얻은 자료로 바꿔 줌으로써 선박의 점성자화 성분을 효과적으로 제거하여 벡터 삼성분 자력이상 자료를 근사하여 보정하는 방법을 고안하였다. 오차분석을 통해 약 7-25 nT의 오차가 발생한 것을 확인하였는데 이는 지자기 이상 벡터의 잔여성분과 이로부터 유도되는 점성자화의 영향으로 여겨진다. 이 방법은 해양지자기의 정확한 벡터성분을 제공함으로써 지자기 이상 벡터성분의 다양한 해석을 가능하게 할 뿐만 아니라, 판 이동 및 지질 구조 연구, 해양 자원 개발 등 탐사의 정확성 향상에 크게 기여할 것으로 기대된다.

Real-World Application of Artificial Intelligence for Detecting Pathologic Gastric Atypia and Neoplastic Lesions

  • Young Hoon Chang;Cheol Min Shin;Hae Dong Lee;Jinbae Park;Jiwoon Jeon;Soo-Jeong Cho;Seung Joo Kang;Jae-Yong Chung;Yu Kyung Jun;Yonghoon Choi;Hyuk Yoon;Young Soo Park;Nayoung Kim;Dong Ho Lee
    • Journal of Gastric Cancer
    • /
    • 제24권3호
    • /
    • pp.327-340
    • /
    • 2024
  • Purpose: Results of initial endoscopic biopsy of gastric lesions often differ from those of the final pathological diagnosis. We evaluated whether an artificial intelligence-based gastric lesion detection and diagnostic system, ENdoscopy as AI-powered Device Computer Aided Diagnosis for Gastroscopy (ENAD CAD-G), could reduce this discrepancy. Materials and Methods: We retrospectively collected 24,948 endoscopic images of early gastric cancers (EGCs), dysplasia, and benign lesions from 9,892 patients who underwent esophagogastroduodenoscopy between 2011 and 2021. The diagnostic performance of ENAD CAD-G was evaluated using the following real-world datasets: patients referred from community clinics with initial biopsy results of atypia (n=154), participants who underwent endoscopic resection for neoplasms (Internal video set, n=140), and participants who underwent endoscopy for screening or suspicion of gastric neoplasm referred from community clinics (External video set, n=296). Results: ENAD CAD-G classified the referred gastric lesions of atypia into EGC (accuracy, 82.47%; 95% confidence interval [CI], 76.46%-88.47%), dysplasia (88.31%; 83.24%-93.39%), and benign lesions (83.12%; 77.20%-89.03%). In the Internal video set, ENAD CAD-G identified dysplasia and EGC with diagnostic accuracies of 88.57% (95% CI, 83.30%-93.84%) and 91.43% (86.79%-96.07%), respectively, compared with an accuracy of 60.71% (52.62%-68.80%) for the initial biopsy results (P<0.001). In the External video set, ENAD CAD-G classified EGC, dysplasia, and benign lesions with diagnostic accuracies of 87.50% (83.73%-91.27%), 90.54% (87.21%-93.87%), and 88.85% (85.27%-92.44%), respectively. Conclusions: ENAD CAD-G is superior to initial biopsy for the detection and diagnosis of gastric lesions that require endoscopic resection. ENAD CAD-G can assist community endoscopists in identifying gastric lesions that require endoscopic resection.

연관 규칙 학습과 군집분석을 활용한 멸종위기 기수갈고둥과 생태계 내 종 간 연관성 분석 (Analyzing the Co-occurrence of Endangered Brackish-Water Snails with Other Species in Ecosystems Using Association Rule Learning and Clustering Analysis)

  • 임성호;도윤호
    • 생태와환경
    • /
    • 제57권2호
    • /
    • pp.83-91
    • /
    • 2024
  • 본 연구는 한국의 멸종위기야생생물 II급으로 분류된 기수갈고둥 (Clithon retropictum)과 생태계 내 다른 종들 사이의 공동출현 양상을 분석하고자, 연관 규칙 학습과 군집분석 방법론을 통합적으로 사용했다. 이 연구의 주요 목적은 기수갈고둥과 다른 생물종 사이의 공동출현 패턴을 파악하는 것이다. 대규모 데이터 세트를 통한 연관 규칙 학습으로 종 간의 공동 출현 패턴과 그들사이의 연관성을 탐색하였고, K-mean와 계층적 군집분석을 통해 종들 간의 생태적 유사성과 차이에 기반으로 한 그룹화를 진행하였다. 연구 결과는 기수갈고둥과 다른 종들 사이에 상당한 공동 출현 관계가 있음을 보여주며, 이러한 공동 출현은 특정 환경 조건과 밀접하게 연결되어 있음을 나타냈다. 특히, 기수갈고둥이 출현하는 지점에서는 특정종의 출현 빈도가 높게 나타나는 패턴을 보였고, 이는 기수갈고둥이 생태계 내에서 중요한 생물지표종으로서의 역할을 수행하고 있음을 시사한다. 이러한 접근 방식은 기수갈고둥과 같은 멸종 위기종의 보존과 생태계 관리 전략 수립에 있어 중요한 의미를 지닌다. 생태계 내에서 공동으로 출현하는 종들 간의 복잡한 연관성을 이해함으로써, 보다 효과적인 보존 전략을 개발하고 생태계의 건강과 안정성을 유지하는 데 기여할 수 있다. 본 연구는 생태계 연구에 있어 데이터기반 접근법의 중요성을 강조하며, 생물 다양성 보존을 위한 새로운 방향을 제시한다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.

상처와 주름이 있는 지문 판별에 효율적인 심층 학습 비교연구 (A Comparative Study on the Effective Deep Learning for Fingerprint Recognition with Scar and Wrinkle)

  • 김준섭;림빈 보니카;성낙준;홍민
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.17-23
    • /
    • 2020
  • 인간의 특성과 관련된 측정 항목을 나타내는 생체정보는 도난이나 분실의 염려가 없으므로 높은 신뢰성을 가진 보안 기술로서 큰 주목을 받고 있다. 이러한 생체정보 중 지문은 본인 인증, 신원 파악 등의 분야에 주로 사용된다. 신원을 파악할 때 지문 이미지에 인증을 수행하기 어려운 상처, 주름, 습기 등의 문제가 있을 경우, 지문 전문가가 전처리단계를 통해 직접 지문에 어떠한 문제가 있는지 파악하고 문제에 맞는 영상처리 알고리즘을 적용해 문제를 해결한다. 이때 지문에 상처와 주름이 있는 지문 영상을 판별해주는 인공지능 소프트웨어를 구현하면 손쉽게 상처나 주름의 여부를 확인할 수 있고, 알맞은 알고리즘을 선정해 쉽게 지문 이미지를 개선할 수 있다. 본 연구에서는 이러한 인공지능 소프트웨어의 개발을 위해 캄보디아 왕립대학교의 학생 1,010명, Sokoto 오픈 데이터셋 600명, 국내 학생 98명의 모든 손가락 지문을 취득해 총 17,080개의 지문 데이터베이스를 구축했다. 구축한 데이터베이스에서 상처나 주름이 있는 경우를 판별하기 위해 기준을 확립하고 전문가의 검증을 거쳐 데이터 어노테이션을 진행했다. 트레이닝 데이터셋과 테스트 데이터셋은 캄보디아의 데이터, Sokoto 데이터로 구성하였으며 비율을 8:2로 설정했다. 그리고 국내 학생 98명의 데이터를 검증 데이터 셋으로 설정했다, 구성된 데이터셋을 사용해 Classic CNN, AlexNet, VGG-16, Resnet50, Yolo v3 등의 다섯 가지 CNN 기반 아키텍처를 구현해 학습을 진행했으며 지문의 상처와 주름 판독에서 가장 좋은 성능을 보이는 모델을 찾는 연구를 수행했다. 다섯가지 아키텍처 중 지문 영상에서 상처와 주름 여부를 가장 잘 판별할 수 있는 아키텍처는 ResNet50으로 검증 결과 81.51%로 가장 좋은 성능을 보였다.

상위 K 하이 유틸리티 패턴 마이닝 기법 성능분석 (Performance Analysis of Top-K High Utility Pattern Mining Methods)

  • 양흥모;윤은일;김철홍
    • 인터넷정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.89-95
    • /
    • 2015
  • 전통적인 빈발 패턴 마이닝은 데이터베이스로부터 사용자 정의 최소 임계치 이상의 빈도수를 가지는 유효 패턴들을 식별한다. 적절한 임계치 설정은 해당 도메인에 대한 사전 지식을 요구하므로 쉬운 작업이 아니다. 따라서 임계치 설정을 통한 마이닝 결과의 정밀한 제어 불가능으로 인해 도메인 지식을 기반으로 하지 않는 패턴 마이닝 방법이 필요하게 되었다. 상위 K 빈발 패턴 마이닝은 이러한 문제를 해결하기 위해 제안되었으며, 임계치 설정 없이 상위 K개의 중요 패턴들을 마이닝 한다. 사용자는 이를 적용함으로써 데이터베이스에 상관없이 가장 높은 빈도수의 패턴부터 K번째로 높은 빈도수의 패턴까지 찾아낼 수 있다. 비록 상위 K 빈발 패턴 마이닝이 임계치 설정 없이 상위 K개의 중요 패턴들을 마이닝 하지만, 트랜잭션 내 아이템 수량과 데이터베이스 내 서로 다른 아이템 중요도를 고려하지 못하여 많은 실세계 응용의 요구에 부합하지 못한다. 하이 유틸리티 패턴 마이닝은 아이템 중요도가 포함된 비 바이너리 데이터베이스의 특성을 고려하기 위해 제안되었으나 최소 임계치를 필요로 한다. 최근 임계치 설정 없는 하이 유틸리티 패턴 마이닝을 위한 상위 K 하이 유틸리티 패턴 마이닝이 개발되었으며, 이를 통해 사용자는 사전 지식 없이 원하는 수의 패턴을 마이닝 할 수 있다. 본 논문은 상위 K 하이 유틸리티 패턴 마이닝을 위한 알고리즘을 분석한다. 최신 알고리즘에 대한 성능분석을 통해 개선사항 및 발전 방향에 대해 고찰한다.

이질성 학습을 통한 문서 분류의 정확성 향상 기법 (Improving the Accuracy of Document Classification by Learning Heterogeneity)

  • 윌리엄;현윤진;김남규
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.21-44
    • /
    • 2018
  • 최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.