• Title/Summary/Keyword: datasets

Search Result 2,012, Processing Time 0.025 seconds

Cross-Project Pooling of Defects for Handling Class Imbalance

  • Catherine, J.M.;Djodilatchoumy, S
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.11-16
    • /
    • 2022
  • Applying predictive analytics to predict software defects has improved the overall quality and decreased maintenance costs. Many supervised and unsupervised learning algorithms have been used for defect prediction on publicly available datasets. Most of these datasets suffer from an imbalance in the output classes. We study the impact of class imbalance in the defect datasets on the efficiency of the defect prediction model and propose a CPP method for handling imbalances in the dataset. The performance of the methods is evaluated using measures like Matthew's Correlation Coefficient (MCC), Recall, and Accuracy measures. The proposed sampling technique shows significant improvement in the efficiency of the classifier in predicting defects.

A Brief Survey into the Field of Automatic Image Dataset Generation through Web Scraping and Query Expansion

  • Bart Dikmans;Dongwann Kang
    • Journal of Information Processing Systems
    • /
    • 제19권5호
    • /
    • pp.602-613
    • /
    • 2023
  • High-quality image datasets are in high demand for various applications. With many online sources providing manually collected datasets, a persisting challenge is to fully automate the dataset collection process. In this study, we surveyed an automatic image dataset generation field through analyzing a collection of existing studies. Moreover, we examined fields that are closely related to automated dataset generation, such as query expansion, web scraping, and dataset quality. We assess how both noise and regional search engine differences can be addressed using an automated search query expansion focused on hypernyms, allowing for user-specific manual query expansion. Combining these aspects provides an outline of how a modern web scraping application can produce large-scale image datasets.

A Density Peak Clustering Algorithm Based on Information Bottleneck

  • Yongli Liu;Congcong Zhao;Hao Chao
    • Journal of Information Processing Systems
    • /
    • 제19권6호
    • /
    • pp.778-790
    • /
    • 2023
  • Although density peak clustering can often easily yield excellent results, there is still room for improvement when dealing with complex, high-dimensional datasets. One of the main limitations of this algorithm is its reliance on geometric distance as the sole similarity measurement. To address this limitation, we draw inspiration from the information bottleneck theory, and propose a novel density peak clustering algorithm that incorporates this theory as a similarity measure. Specifically, our algorithm utilizes the joint probability distribution between data objects and feature information, and employs the loss of mutual information as the measurement standard. This approach not only eliminates the potential for subjective error in selecting similarity method, but also enhances performance on datasets with multiple centers and high dimensionality. To evaluate the effectiveness of our algorithm, we conducted experiments using ten carefully selected datasets and compared the results with three other algorithms. The experimental results demonstrate that our information bottleneck-based density peaks clustering (IBDPC) algorithm consistently achieves high levels of accuracy, highlighting its potential as a valuable tool for data clustering tasks.

샴 네트워크를 사용하여 추적 레이블을 사용하지 않는 다중 객체 검출 및 추적기 학습에 관한 연구 (Training of a Siamese Network to Build a Tracker without Using Tracking Labels)

  • 강정규;송유승;민경욱;최정단
    • 한국ITS학회 논문지
    • /
    • 제21권5호
    • /
    • pp.274-286
    • /
    • 2022
  • 이동객체 추적은 컴퓨터 비전 분야에서 오랜 시간 동안 연구가 진행되어 온 분야로 자율주행이나 운전 보조 시스템 등의 시스템에서 아주 중요한 역할을 수행하고 있다. 이동객체 추적 기술은 일반적으로 객체를 검출하는 검출기와 검출된 객체를 추적하는 추적기의 결합으로 이루어져 있다. 검출기는 다양한 데이터셋이 공개되어 사용되고 있기 때문에 쉽게 좋은 모델을 학습할 수 있지만, 추적기의 경우 상대적으로 공개된 데이터셋도 적고 직접 데이터셋을 구성하는 것도 검출기 데이터셋에 비해 굉장히 오랜 시간을 소요한다. 이에 검출기를 따로 개발하고, 별도의 추적기를 학습 기반이 아닌 방식을 활용하여 개발하는 경우가 많은데 이런 경우 두 개의 시스템이 차례로 작동하게 되어 전체 시스템의 속도를 느리게 하고 앞단의 검출기의 성능이 변할 때마다 별도로 추적기 또한 조정해줘야 한다는 단점이 있다. 이에 본 연구는 검출용 데이터셋만을 사용하여 검출과 추적을 동시에 수행하는 모델을 구성하는 방법을 제안한다. 데이터 증강 기술과 샴 네트워크를 사용하여 단일 이미지에서 객체를 검출 및 추적하는 방법을 연구하였다. 공개 데이터셋에 실험을 진행하여 학습 결과 높은 속도로 작동하는 이동객체 검출 및 추적기를 학습할 수 있음을 검증하였다.

감성 분석을 위한 FinBERT 미세 조정: 데이터 세트와 하이퍼파라미터의 효과성 탐구 (FinBERT Fine-Tuning for Sentiment Analysis: Exploring the Effectiveness of Datasets and Hyperparameters)

  • 김재헌;정희도;장백철
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.127-135
    • /
    • 2023
  • 본 논문에서는 금융 뉴스 데이터로 추가적인 사전 학습이 진행된 BERT 기반 모델인 FinBERT 모델을 사용하여 금융 영역에서 감성 분석 시 학습시킬 데이터와 그에 맞는 하이퍼파라미터를 찾는 방법을 소개한다. 우리의 목표는 다양한 데이터 세트를 활용하고 하이퍼파라미터를 미세 조정하여 정확한 감성 분석을 위해 FinBERT 모델을 가장 잘 활용하는 방법에 대한 포괄적인 가이드를 제공하는 것이다. 이 연구에서는 제안된 FinBERT 모델 미세 조정 접근법의 아키텍처와 워크플로우를 개괄적으로 설명하고, 감성 분석 태스크를 위한 다양한 데이터 세트와 하이퍼파라미터의 성능을 강조한다. 또한, 감성 라벨링 작업에 GPT-3를 사용함으로써 GPT-3가 적절한 라벨러 역할을 하는지에 대한 신뢰성을 검증한다. 결과적으로 미세 조정된 FinBERT 모델이 다양한 데이터 세트에서 우수한 성능을 발휘 한다는 것을 보여주었고, 각 데이터 세트에 대해 전반적으로 우수한 성능을 보이는 학습률 5e-5와 배치 크기 64의 최적의 조합을 찾았다. 또 일반 도메인의 뉴스보다 일반 도메인의 트위터 데이터 세트에서 성능이 크게 향상됨을 기반으로 금융 뉴스 데이터만으로만 추가적으로 학습시키는 FinBERT 모델에 대한 의구심을 제시한다. 이를 통해 FinBERT 모델에 대한 최적의 접근 방식을 결정하는 복잡한 프로세스를 간소화하고 금융 분야 감성 분석 모델을 위한 추가적인 학습 데이터 세트와 미세 조정 시 하이퍼파라미터 선정에 대한 가이드라인을 제시한다.

SRTM과 NED를 이용한 식생수고 및 수령 추정 (Vegetation Height and Age Estimation using Shuttle Radar Topography Mission and National Elevation Datasets)

  • 김진우;허준;손홍규
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2006년도 춘계학술대회 논문집
    • /
    • pp.127-130
    • /
    • 2006
  • SRTM 데이터와 USGS의 NED (National Elevation Datasets) 데이터를 사용하였으며 두 데이터를 차분함으로써 식생수고도(vegetation height map)를 얻었다. 또한 차분값과 shape 파일에 포함된 식수년도의 비교를 통해 상관관계여부를 판단하고자 했다. 회귀분석을 통해 차분데이터와 식수년도 사이의 큰 상관관계가 존재함을 확인할 수 있었으며 결국 수령추정과 수령정보의 맵핑이 가능함을 보였다. 추가적으로 지역별 지형특성, 숲의 균일도 등에 의해 선형성이 영향을 받는지 관찰하였다.

  • PDF

상대적 위치를 이용한 지도통합 방법 : 랜드마크 선정을 중심으로 (Map Integration Method using Relative Location)

  • 김정옥;박재준;유기윤
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2010년 춘계학술발표회 논문집
    • /
    • pp.3-4
    • /
    • 2010
  • Map integration usually involves matching the common spatial objects in different datasets. There have been recent studies on object matching using relative location as defined by spatial relationships between the object and its neighbor landmark. Therefore the landmark selection process is an important part of map integration using relative location. In this research, we describe an approach to determine landmarks automatically in different geospatial datasets.

  • PDF

Reconstructing the cosmic density field based on the generative adversarial network.

  • Shi, Feng
    • 천문학회보
    • /
    • 제45권1호
    • /
    • pp.50.1-50.1
    • /
    • 2020
  • In this topic, I will introduce a recent work on reconstructing the cosmic density field based on the GAN. I will show the performance of the GAN compared to the traditional Unet architecture. I'd also like to discuss a 3-channels-based 2D datasets for the training to recover the 3D density field. Finally, I will present some performance tests based on the test datasets.

  • PDF

재분석자료들을 활용한 아시아-북태평양 상층제트의 강도(풍속) 및 3차원적 위치 변화 경향 (Trends of Upper Jet Streams Characteristics (Intensity, Altitude, Latitude and Longitude) Over the Asia-North Pacific Region Based on Four Reanalysis Datasets)

  • 소은미;서명석
    • 대기
    • /
    • 제27권1호
    • /
    • pp.1-16
    • /
    • 2017
  • In this study, trends of upper jet stream characteristics (intensity, altitude, latitude, and longitude) over the Asia-North Pacific region during the recent 30 (1979~2008) years were analyzed by using four reanalysis datasets (CFSR, ERA-Int., JRA-55, MERRA). We defined the characteristics of upper jet stream as the averages of mass weighted wind speed, mass-flux weighted altitude, latitude and longitude between 400 and 100 hPa. Due to the vertical averaging of jet stream characteristics, our results reveal a weaker spatial variabilities and trends than previous studies. In general, the four reanalysis datasets show similar jet stream properties (intensity, altitude, latitude and longitude) although the magnitude and trends are slightly different among the reanalysis datasets. The altitude of MERRA is slightly higher than that of others for all seasons. The domain averaged intensity shows a weakening trend except for winter and the altitude of jet stream shows an increasing trend for all seasons. Also, the meridional trend of jet core shows a poleward trend for all seasons but it shows a contrasting trend, poleward trend in the continental area but equatorward trend in the Western Pacific region during summer. The zonal trend of jet core is very weak but a relatively strong westward trend in jet core except for spring and winter. The trends of jet stream characteristics found in this study are thermodynamically consistent with the global warming trends observed in the Asia-Pacific region.

산림조사에서의 항공라이다 취득인자에 따른 영향분석을 위한 시뮬레이션 모델 개발 (A Simulation Model Development to Analyze Effects on LiDAR Acquisition Parameters in Forest Inventory)

  • 송철철;이우균;곽두안;곽한빈
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2008년도 공동춘계학술대회
    • /
    • pp.310-317
    • /
    • 2008
  • 상용화된 항공라이다 기술을 이용한 자료취득의 비용소요는 여전히 큰 부담이어서 다양한 자료취득조건에 따른 자료취득 및 그에 따른 영향에 관한 연구는 미진한 편이다. 이에 본 연구는 3차원상에서 산림모델 및 항공라이다의 자료취득모델을 구현하여 이들을 토대로 다양한 자료취득조건에 따른 가상의 자료취득과 그에 따른 산림생장특성의 추정을 통해 적정한 자료취득조건을 구명하고자 수행하였다. 우선, 3차원의 입목모델을 규정하고 이 입목들의 식재간격 및 산림내 식생층위를 가변적으로 조절하여 가상의 산림모델들을 작성하였다. 아울러, 항공라이다 자료취득활동을 반영한 모델을 구현하고 주요 자료취득인자인 비행고도를 조절하여 다양한 취득밀도를 지닌 가상의 자료를 획득하였다. 이 자료들로부터 3차원 임관의 체적, 표준지 내 최대수고를 추정하여 자료취득밀도에 따른 추정결과의 차이를 비교분석하였다. 그 결과, 자료취득밀도가 높을수록 산림생장특성의 추정결과가 기대치에 근접하는 것으로 나타났다. 이러한 연구의 성과는 향후, 산림조사에서의 정확성 대비 항공라이터 취득비용에 관한 연구 등을 수행하면 다양한 산림생장특성의 정확성 수준에 따른 적정 예산수립 등에 도움을 줄 것으로 판단된다.

  • PDF