• Title/Summary/Keyword: 속성데이터

Search Result 1,594, Processing Time 0.032 seconds

Effective Feature Selection Algorithm by Extreme Learning Machine (ELM을 이용한 개선된 속성선택 기법)

  • Jo, Jae-Hun;Lee, Dae-Jong;Jun, Myeong-Geun
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.189-192
    • /
    • 2006
  • 본 논문에서는 ELM(Extreme Learning Machine)을 이용하여 계산속도 뿐만 아니라 성능면에서도 우수한 입력 속성선택 기법을 제안한다. 일반적으로 입력 속성 선택문제는 다양한 속성들의 영향을 고려함으로써 모든 입력속성들을 평가하는데 많은 계산량이 요구되는 단점이 있다. 이러한 문제점을 개선하기 위하여 학습속도가 기존의 신경회로망에 비하여 월등히 우수한 ELM 알고리즘을 적용한다. 입력속성 선택은 ELM으로부터 산출된 출력값을 이용하여 출력 오차에 영향이 큰 속성들 순으로 순위를 결정한 후, 전방향 선택이나 후방향 선택기법을 이용하여 입력속성을 선택한다. 제안된 방법은 다양한 데이터에 적용하여 타당성을 검증한다.

  • PDF

A Study on Improving Performance of Software Requirements Classification Models by Handling Imbalanced Data (불균형 데이터 처리를 통한 소프트웨어 요구사항 분류 모델의 성능 개선에 관한 연구)

  • Jong-Woo Choi;Young-Jun Lee;Chae-Gyun Lim;Ho-Jin Choi
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.7
    • /
    • pp.295-302
    • /
    • 2023
  • Software requirements written in natural language may have different meanings from the stakeholders' viewpoint. When designing an architecture based on quality attributes, it is necessary to accurately classify quality attribute requirements because the efficient design is possible only when appropriate architectural tactics for each quality attribute are selected. As a result, although many natural language processing models have been studied for the classification of requirements, which is a high-cost task, few topics improve classification performance with the imbalanced quality attribute datasets. In this study, we first show that the classification model can automatically classify the Korean requirement dataset through experiments. Based on these results, we explain that data augmentation through EDA(Easy Data Augmentation) techniques and undersampling strategies can improve the imbalance of quality attribute datasets, and show that they are effective in classifying requirements. The results improved by 5.24%p on F1-score, indicating that handling imbalanced data helps classify Korean requirements of classification models. Furthermore, detailed experiments of EDA illustrate operations that help improve classification performance.

Design and Implementation of Spatial Association Rule Discovery System for Spatial Data Analysis (공간 데이터 분석을 위한 공간 연관 규칙 탐사 시스템의 설계 및 구현)

  • Ahn, Chan-Min;Lee, Yun-Seok;Park, Sang-Ho;Lee, Ju-Hong
    • Journal of the Korea Society of Computer and Information
    • /
    • v.11 no.1 s.39
    • /
    • pp.27-34
    • /
    • 2006
  • Recently, the study about the technology which effectively manage spatial information is actively conducted. For the effective knowledge inquiry, various extended data mining methods are applied in spatial data mining. However, former spatial association rule system appears the problem that does not reflect various non-spatial property along the inquiries because it searches the rule from the calculation among predicates. To resolve the problem, present study suggests the system that extends the inquiries using in spatial database, searches the association rule among non-spatial object property after setting the data based on space information. Especially, the model which is applicable to geographical information system is embodied. Embodied system with this method enables to search more useful spatial association rule in real life since it shows high migration property with extended spatial database and considers spatial property and various non-spatial property.

  • PDF

An Data Transmission Between Databases Using Intelligent Transformation of XML Documents (XML 문서 변환 지능형 시스템을 이용한 데이터베이스 간의 자료 전송)

  • Kim, Ho-Yoon;Lee, Jae-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1785-1788
    • /
    • 2002
  • 웹상의 데이터베이스 간의 서로 다른 속성 이름이 동일한 속성 값을 가진 경우에, 속성값의 전송이 필요한 경우가 있다. 본 논문은 이를 위해 XSL 스타일시트를 자동 생성하여 이용하며, XSL 스타일시트의 생성은 규칙 기반의 지능형 방법을 이용한다. 이 방법을 통하여 서로 다른 속성 이름을 갖는 다양한 데이터베이스 간의 데이터 전송이 유연하게 처리될 수 있다.

  • PDF

Deep learning-based clothing attribute classification using fashion image data (패션 이미지 데이터를 활용한 딥러닝 기반의 의류속성 분류)

  • Hye Seon Jeong;So Young Lee;Choong Kwon Lee
    • Smart Media Journal
    • /
    • v.13 no.4
    • /
    • pp.57-64
    • /
    • 2024
  • Attributes such as material, color, and fit in fashion images are important factors for consumers to purchase clothing. However, the process of classifying clothing attributes requires a large amount of manpower and is inconsistent because it relies on the subjective judgment of human operators. To alleviate this problem, there is a need for research that utilizes artificial intelligence to classify clothing attributes in fashion images. Previous studies have mainly focused on classifying clothing attributes for either tops or bottoms, so there is a limitation that the attributes of both tops and bottoms cannot be identified simultaneously in the case of full-body fashion images. In this study, we propose a deep learning model that can distinguish between tops and bottoms in fashion images and classify the category of each item and the attributes of the clothing material. The deep learning models ResNet and EfficientNet were used in this study, and the dataset used for training was 1,002,718 fashion images and 125 labels including clothing categories and material properties. Based on the weighted F1-Score, ResNet is 0.800 and EfficientNet is 0.781, with ResNet showing better performance.

A Window-Based Classification of Stream Data (스트림 데이터의 윈도우 기반 분류)

  • Kim, Sung-Hyun;Lee, Yong-Mi;Jin, Long;Seo, Sung-Bo;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.47-50
    • /
    • 2005
  • 센서와 모바일 기술의 발달로 인해 다양한 센서에서 수집된 스트림 데이터를 처리하는 연구들이 많이 수행되고 있다. 다차원 속성의 스트림 데이터는 센서에서 주기적으로 수집되어 버퍼링 후 처리되기 때문에 기존의 투플 기반의 데이터 분류 기법에 적합하지 않다. 따라서 이 논문에서는 윈도우 기반의 스트림 데이터 분류를 위해 각 속성의 평균과 표준편차 값을 이용하여 투플 기반으로 변환하는 기법을 제안한다. 제안된 기법의 타당성은 투플 기반 데이터 분류 기법(의사결정트리, 단순 베이지안 분류기, 베이지안 신뢰 네트워크)에 의한 정확도 측정에 기반 한다. 로봇에서 수집된 센서 데이터를 이용한 실험 결과, 높은 정확도로 제안된 기법이 타당함을 증명하였으며 베이지안 신뢰 네트워크 기법이 다른 기법에 비해 우수함을 발견하였다.

  • PDF

The Design and Implementation of a Web-Based Search Engine for GenBank Patent Data (웹기반의 GenBank 특허 데이터 검색 시스템의 설계 및 구현)

  • 양진옥;김상수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.43-45
    • /
    • 2001
  • NCBI 의 GenBank 데이터베이스는 전세계에서 수집된 염기 서열 데이터들의 집합이며, 그 중 특허로 등록되어 있는 데이터들을 GenBank 특허 데이터라 부른다. 본 논문에서는 한국생명공학연구원의 유전체 사업단에서 개발해 오고 있는 웹기반 GenBank 특허 데이터 검색 시스템의 설계와 구현에 대해서 설명한다. 본 시스템은 일반 속성(attribute)을 저장하고 검색하기 위해 DBMS 를 사용하고, DNA 시퀸스 검색을 위해 BLAST를 사용한 약결합 아키텍쳐(loosely-coupled architecture)를 채택하고 있다. 즉, 일반 속성으로 저장될 수 있는 데이터들은 데이터베이스의 테이블들의 컬럼 값으로 저장하고 SQL 언어를 통해 검색할 수 있도록 하였으며, DNA 시퀸스 검색을 위해서는 BLAST 에서 제공하는 인덱스를 구축하고 BLAST 명령어를 사용하여 검색할 수 있도록 하였다. 또한, 검색 결과들이 기존의 외부 특허 시스템과 연동하도록 하기 위해, 결과 분석 모듈을 구현하여 검색 결과들이 다른 웹 사이트의 데이터를 가리키도록 하였다. 마지막으로, 이러한 DNA 검색 시스템을 구현할 때에 고려해 되야 되는 이슈들을 설명한다.

  • PDF

Comparative Analysis on the Attributes of NHPP Software Development Cost Model Applying Gamma Family Distribution (감마족 분포을 적용한 NHPP 소프트웨어 개발비용 모형의 속성에 관한 비교 분석)

  • Hyo-Jeong Bae
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.18 no.5
    • /
    • pp.867-876
    • /
    • 2023
  • In this study, the attributes of the NHPP software development cost model applying the Gamma family distribution (Erlang, Log-Logistic, Rayleigh) were newly analyzed, and after comparing with the Goel-Okumoto basic model to verify the properties of the model, the optimal model was also presented based on this. To analyze software reliability, failure time data that occurred randomly during system operation was used, and the calculation of the parameters was solved using the maximum likelihood estimation. As a result of comprehensive evaluation through various attribute analysis (mean value function, development cost, optimal release time), it was confirmed that the Rayleigh model had the best performance. Through this study, the attributes of the software development cost model applying the Gamma family distribution, which has no previous research case, were newly identified. Also, basic design data could also be presented so that developers can efficiently utilize this research data at an early stage.