• 제목/요약/키워드: Large Dataset

검색결과 550건 처리시간 0.027초

패션 이미지 데이터를 활용한 딥러닝 기반의 의류속성 분류 (Deep learning-based clothing attribute classification using fashion image data)

  • 정혜선;이소영;이충권
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.57-64
    • /
    • 2024
  • 패션 이미지에 포함된 소재, 색상, 핏 등의 속성은 소비자가 의류를 구매하는 데 있어서 중요한 요인이다. 그러나 의류 속성을 분류하는 과정은 많은 인력을 필요로 하고, 작업자의 주관적인 판단에 의존하기 때문에 일관성이 떨어진다. 이러한 문제를 완화하기 위해 인공지능을 활용하여 패션 이미지의 의류 속성을 분류하는 연구가 필요하다. 기존 연구에서는 주로 상의 또는 하의 중 하나의 항목에 대한 의류 속성을 분류하는 것에 초점을 두고 있기 때문에 전신 패션 이미지의 경우에는 상의와 하의의 속성을 동시에 파악할 수 없다는 한계가 있었다. 본 연구는 패션 이미지의 상의와 하의를 구분하여 각 항목의 카테고리와 의류 소재의 속성을 분류할 수 있는 딥러닝 모델을 제안한다. 본 연구에서 딥러닝 모델 ResNet과 EfficientNet를 이용하였고, 학습에 활용한 데이터셋은 패션 이미지 1,002,718장과 의류 카테고리와 소재 속성을 포함한 라벨 총 125개를 사용하였다. Weighted F1-Score를 기준으로 ResNet은 0.800, EfficientNet는 0.781로 ResNet이 더 우수한 성능을 보였다.

개념계층구조를 기반으로 하는 다치 삼원 데이터집합의 지식 추출 (Knowledge Mining from Many-valued Triadic Dataset based on Concept Hierarchy)

  • 황석형;정영애;황세웅
    • Journal of Platform Technology
    • /
    • 제12권3호
    • /
    • pp.3-15
    • /
    • 2024
  • 지식 마이닝은 다종다양한 대량의 데이터로부터 데이터 모델링, 정보추출 및 분석, 가시화, 결과 해석 등과 같은 다양한 기법들을 적용하여 데이터로부터 유용하고 가치 있는 지식을 찾아내는 연구 분야로서, 비즈니스, 의료, 과학 연구 등 다양한 영역에서 원시 데이터를 유용한 지식으로 변환하기 위한 중요한 역할을 수행한다. 본 논문에서는 형식개념분석기법을 확장하여 다종다양한 데이터로부터 지식발견과 데이터 마이닝을 수행하기 위한 분석기법을 제안한다. 분석대상 데이터의 다양한 형식과 구조를 표현하기 위한 제반 모델들(다치데이터 테이블, 삼원데이터테이블)과 데이터처리(이진화 및 평탄화) 및 개념계층구조 구축과 연관규칙 추출을 위한 알고리즘들을 정의하고, 공공오픈데이터를 대상으로 본 논문에서 제안한 기법을 적용한 실험을 수행하여 제안 기법의 유용성을 실증하였다.

  • PDF

언어-기반 제로-샷 물체 목표 탐색 이동 작업들을 위한 인공지능 기저 모델들의 활용 (Utilizing AI Foundation Models for Language-Driven Zero-Shot Object Navigation Tasks)

  • 최정현;백호준;박찬솔;김인철
    • 로봇학회논문지
    • /
    • 제19권3호
    • /
    • pp.293-310
    • /
    • 2024
  • In this paper, we propose an agent model for Language-Driven Zero-Shot Object Navigation (L-ZSON) tasks, which takes in a freeform language description of an unseen target object and navigates to find out the target object in an inexperienced environment. In general, an L-ZSON agent should able to visually ground the target object by understanding the freeform language description of it and recognizing the corresponding visual object in camera images. Moreover, the L-ZSON agent should be also able to build a rich spatial context map over the unknown environment and decide efficient exploration actions based on the map until the target object is present in the field of view. To address these challenging issues, we proposes AML (Agent Model for L-ZSON), a novel L-ZSON agent model to make effective use of AI foundation models such as Large Language Model (LLM) and Vision-Language model (VLM). In order to tackle the visual grounding issue of the target object description, our agent model employs GLEE, a VLM pretrained for locating and identifying arbitrary objects in images and videos in the open world scenario. To meet the exploration policy issue, the proposed agent model leverages the commonsense knowledge of LLM to make sequential navigational decisions. By conducting various quantitative and qualitative experiments with RoboTHOR, the 3D simulation platform and PASTURE, the L-ZSON benchmark dataset, we show the superior performance of the proposed agent model.

벡터 심볼릭 구조의 부호화 및 복호화 성능 평가에 관한 연구 (Study on the Performance Evaluation of Encoding and Decoding Schemes in Vector Symbolic Architectures)

  • 이영석
    • 한국정보전자통신기술학회논문지
    • /
    • 제17권4호
    • /
    • pp.229-235
    • /
    • 2024
  • 최근 몇 년 동안 인공지능과 기계 학습 분야에서 대량의 데이터를 효율적으로 처리하고 해석하는 방법에 대한 연구가 활발히 진행되고 있다. 이러한 데이터 처리 기술 중 하나인 벡터 기호 아키텍처(Vector Symbolic Architecture, VSA)는 고차원 벡터를 이용하여 복잡한 기호와 데이터를 표현하는 혁신적인 접근법을 제시한다. VSA는 특히 자연어 처리, 이미지 인식, 로봇 공학 등 다양한 응용 분야에서 주목받고 있다. 본 연구는 VSA 방법론들의 특성과 성능을 정량적으로 평가하기 MNIST 데이터셋에 5가지 VSA 방법론을 적용하여 인코딩 속도, 디코딩 속도, 메모리 사용량, 복원 정확도와 같은 주요 성능 지표를 벡터 길이별로 측정하였다. 인코딩 속도와 디코딩 속도에서 BSC와 VT가 상대적으로 빠른 성능을 보였으며, MAP과 HRR은 상대적으로 느렸다. 메모리 사용량에서는 BSC가 가장 효율적이었고, MAP이 가장 많은 메모리를 사용하였다. 복원 정확도는 MAP이 가장 높았으며, BSC가 가장 낮았으며 연구 결과는 적용 영역에 따라 적절한 VSA 방법론을 선택할 수 있는 기준을 제시할 수 있다.

Random Forest 기법을 이용한 도심지 MT 시계열 자료의 차량 잡음 분류 (Classification of Transport Vehicle Noise Events in Magnetotelluric Time Series Data in an Urban area Using Random Forest Techniques)

  • 권형석;류경호;심익현;이춘기;오석훈
    • 지구물리와물리탐사
    • /
    • 제23권4호
    • /
    • pp.230-242
    • /
    • 2020
  • 201 6년 9월에 발생한 경주지진원 구역에 대한 정밀 지질구조 규명을 위해 MT 탐사를 적용하였다. 경주지역의 MT 측정자료는 조사지역 인근의 지하철, 전력선, 공장, 주택, 농경지에서 발생된 전기적 잡음과 철도, 도로에서의 차량잡음 등으로 인해 측정자료 왜곡이 심하게 발생되었다. 이 연구에서는 고속철도 및 고속도로와 인접한 4개소의 MT 탐사자료에 기계학습 기법을 적용하여 차량잡음이 포함된 시계열을 분류하였다. 고속열차 잡음이 포함된 시계열에 대해서는 확률적 경사 하강법, 서포트 벡터 머신과 랜덤 포레스트 3가지의 분류모델을 적용하여 그 결과를 비교하였다. 대형트럭 잡음이 포함된 시계열 자료에 대해서는 Hx 성분, Hy 성분과 Hx & Hy 합성성분 크기에 대한 3가지의 샘플 자료를 준비하였으며 랜덤 포레스트 분류모델을 구성하여 그 성능을 평가하였다. 마지막으로 차량잡음 제거 효과 분석을 위하여 차량잡음 제거 전후의 시계열, 진폭 스펙트럼과 겉보기비저항 곡선을 비교하였으며, 이를 통해 차량잡음이 영향을 미치는 주파수 대역과 차량잡음 제거 시 발생될 수 있는 문제점에 대해 고찰하였다.

Big Data Based Dynamic Flow Aggregation over 5G Network Slicing

  • Sun, Guolin;Mareri, Bruce;Liu, Guisong;Fang, Xiufen;Jiang, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.4717-4737
    • /
    • 2017
  • Today, smart grids, smart homes, smart water networks, and intelligent transportation, are infrastructure systems that connect our world more than we ever thought possible and are associated with a single concept, the Internet of Things (IoT). The number of devices connected to the IoT and hence the number of traffic flow increases continuously, as well as the emergence of new applications. Although cutting-edge hardware technology can be employed to achieve a fast implementation to handle this huge data streams, there will always be a limit on size of traffic supported by a given architecture. However, recent cloud-based big data technologies fortunately offer an ideal environment to handle this issue. Moreover, the ever-increasing high volume of traffic created on demand presents great challenges for flow management. As a solution, flow aggregation decreases the number of flows needed to be processed by the network. The previous works in the literature prove that most of aggregation strategies designed for smart grids aim at optimizing system operation performance. They consider a common identifier to aggregate traffic on each device, having its independent static aggregation policy. In this paper, we propose a dynamic approach to aggregate flows based on traffic characteristics and device preferences. Our algorithm runs on a big data platform to provide an end-to-end network visibility of flows, which performs high-speed and high-volume computations to identify the clusters of similar flows and aggregate massive number of mice flows into a few meta-flows. Compared with existing solutions, our approach dynamically aggregates large number of such small flows into fewer flows, based on traffic characteristics and access node preferences. Using this approach, we alleviate the problem of processing a large amount of micro flows, and also significantly improve the accuracy of meeting the access node QoS demands. We conducted experiments, using a dataset of up to 100,000 flows, and studied the performance of our algorithm analytically. The experimental results are presented to show the promising effectiveness and scalability of our proposed approach.

ADVANTAGES OF USING ARTIFICIAL NEURAL NETWORKS CALIBRATION TECHNIQUES TO NEAR-INFRARED AGRICULTURAL DATA

  • Buchmann, Nils-Bo;Ian A.Cowe
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1032-1032
    • /
    • 2001
  • Artificial Neural Network (ANN) calibration techniques have been used commercially for agricultural applications since the mid-nineties. Global models, based on transmission data from 850 to 1050 nm, are used routinely to measure protein and moisture in wheat and barley and also moisture in triticale, rye, and oats. These models are currently used commercially in approx. 15 countries throughout the world. Results concerning earlier European ANN models are being published elsewhere. Some of the findings from that study will be discussed here. ANN models have also been developed for coarsely ground samples of compound feed and feed ingredients, again measured in transmission mode from 850 to 1050 nm. The performance of models for pig- and poultry feed will be discussed briefly. These models were developed from a very large data set (more than 20,000 records), and cover a very broad range of finished products. The prediction curves are linear over the entire range for protein, fat moisture, fibre, and starch (measured only on poultry feed), and accuracy is in line with the performance of smaller models based on Partial Least Squares (PLS). A simple bias adjustment is sufficient for calibration transfer across instruments. Recently, we have investigated the possible use of ANN for a different type of NIR spectrometer, based on reflectance data from 1100 to 2500 nm. In one study, based on data for protein, fat, and moisture measured on unground compound feed samples, dedicated ANN models for specific product classes (cattle feed, pig feed, broiler feed, and layers feed) gave moderately better Standard Errors of Prediction (SEP) compared to modified PLS (MPLS). However, if the four product classes were combined into one general calibration model, the performance of the ANN model deteriorated only slightly compared to the class-specific models, while the SEP values for the MPLS predictions doubled. Brix value in molasses is a measure of sugar content. Even with a huge dataset, PLS models were not sufficiently accurate for commercial use. In contrast an ANN model based on the same data improved the accuracy considerably and straightened out non-linearity in the prediction plot. The work of Mr. David Funk (GIPSA, U. S. Department of Agriculture) who has studied the influence of various types of spectral distortions on ANN- and PLS models, thereby providing comparative information on the robustness of these models towards instrument differences, will be discussed. This study was based on data from different classes of North American wheat measured in transmission from 850 to 1050 nm. The distortions studied included the effect of absorbance offset pathlength variation, presence of stray light bandwidth, and wavelength stretch and offset (either individually or combined). It was shown that a global ANN model was much less sensitive to most perturbations than class-specific GIPSA PLS calibrations. It is concluded that ANN models based on large data sets offer substantial advantages over PLS models with respect to accuracy, range of materials that can be handled by a single calibration, stability, transferability, and sensitivity to perturbations.

  • PDF

불균형 데이터 집합에서의 의사결정나무 추론: 종합 병원의 건강 보험료 청구 심사 사례 (Decision Tree Induction with Imbalanced Data Set: A Case of Health Insurance Bill Audit in a General Hospital)

  • 허준;김종우
    • 경영정보학연구
    • /
    • 제9권1호
    • /
    • pp.45-65
    • /
    • 2007
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모델을 만들어 내기 위하여, 데이터 불균형 문제의 기본 해법인 Sampling과 오분류 비용의 다양한 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모델을 도출하였다.

데이터마이닝 기법을 활용한 대졸자 고용에 미치는 영향요인 분석 (The Factors that Affects the Employment Type of The Graduates by Data-mining Approach)

  • 김형래;전도홍
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권7호
    • /
    • pp.167-174
    • /
    • 2012
  • 데이터마이닝 기법은 대량 데이터로부터 유의미한 정보를 추출하기 위해 고용정보 분야 등 다양한 분야로 폭넓게 활용되고 있다. 대졸자 실업, 여성 재취업, 고령자 취업 등의 불안정한 고용형태가 사회적 문제로 등장함에 따라 고용 안정성을 높이려는 다양한 공공 고용서비스의 노력과 연구가 진행되고 있다. 대졸자의 고용형태(상용직, 무직자, 일용직 등)에 영향을 미치는 주요 요인을 개인생활 환경 또는 학교생활 측면에서 분석한 연구 결과는 효과적인 취업 지원과 대학생의 취업 준비를 지도하는 데에 사용될 수 있다. 이러한 사회 조사 분석은 다양한 요인과 방대한 데이터양으로 인해 일반적 통계적 분석만으로는 한계가 있다. 170여개의 속성들 간의 관계 분석과 2만여 개의 응답데이터를 다루기에는 데이터마이닝 기법이 유용하다. 본 연구는 고용형태에 영향을 미치는 요인을 학교생활 요인, 개인환경 요인, 또는 직장생활 요인으로 구분하고, 의사결정 알고리즘을 통해 연관 관계를 분석하였다. 분석결과 주요 부모님의 소득, 결혼 여부 속성과 같은 개인 환경요인이 개인의 고용형태에 큰 영향을 미치는 것으로 나타났고, 의사결정구조 모델은 87%정확성을 보였다. 학교생활 요인으로는 대학 소재 지역으로 추정되는 학교수준이 주요 요인으로 나타났다.

Estimation of Genetic Parameters and Trends for Weaning-to-first Service Interval and Litter Traits in a Commercial Landrace-Large White Swine Population in Northern Thailand

  • Chansomboon, C.;Elzo, M.A.;Suwanasopee, T.;Koonawootrittriron, S.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제23권5호
    • /
    • pp.543-555
    • /
    • 2010
  • The objectives of this research were the estimation of genetic parameters and trends for weaning-to-first service interval (WSI), and litter traits in a commercial swine population composed of Landrace (L), Large White (T), LT, and TL animals in Chiang Mai, Northern Thailand. The dataset contained 4,399 records of WSI, number of piglets born alive (NBA), litter weight of live piglets at birth (LBW), number of piglets at weaning (NPW), and litter weight at weaning (LWW). Variance and covariance components were estimated with REML using 2-trait analyses. An animal model was used for WSI and a sire-dam model for litter traits. Fixed effects were farrowing year-season, breed group of sow, breed group of boar (litter traits), parity, heterosis (litter traits), sow age, and lactation length (NPW and LWW). Random effects were boar (litter traits), sow, permanent environment, and residual. Heritabilities for direct genetic effects were low for WSI (0.04${\pm}$0.02) and litter traits (0.05${\pm}$0.02 to 0.06${\pm}$0.02). Most heritabilities for maternal litter trait effects were 20% to 50% lower than their direct counterparts. Repeatability for WSI was similar to its heritability. Repeatabilities for litter traits ranged from 0.15${\pm}$0.02 to 0.18${\pm}$F0.02. Direct genetic, permanent environment, and phenotypic correlations between WSI and litter traits were near zero. Direct genetic correlations among litter traits ranged from 0.56${\pm}$0.20 to 0.95${\pm}$0.05, except for near zero estimates between NBA and LWW, and LBW and LWW. Maternal, permanent environment, and phenotypic correlations among litter traits had similar patterns of values to direct genetic correlations. Boar genetic trends were small and significant only for NBA (-0.015${\pm}$0.005 piglets/yr, p<0.004). Sow genetic trends were small, negative, and significant (-0.036${\pm}$0.013 d/yr, p<0.01 for WSI; -0.017${\pm}$0.005 piglets/yr, p<0.007, for NBA; -0.015${\pm}$0.005 kg/yr, p<0.01, for LBW; -0.019${\pm}$0.008 piglets/yr, p<0.02, for NPW; and -0.022${\pm}$0.006 kg/yr, p<0.003, for LWW). Permanent environmental correlations were small, negative, and significant only for WSI (-0.028${\pm}$0.011 d/yr, p<0.02). Environmental trends were positive and significant only for litter traits (p<0.01 to p<0.0003). Selection based on predicted genetic values rather than phenotypes could be advantageous in this population. A single trait analysis could be used for WSI and a multiple trait analysis could be implemented for litter traits.