• Title/Summary/Keyword: 속성데이터

Search Result 1,594, Processing Time 0.028 seconds

DB강좌(1) - 메타데이터의 개요

  • An, Gye-Seong
    • Digital Contents
    • /
    • no.9 s.64
    • /
    • pp.63-69
    • /
    • 1998
  • 메타데이터는 일반적으로 데이터에 관한 데이터로서 자원의 속성을 기술하는 데이터를 의미한다. 표제, 저자, 주제명 분류 기호 등이 포함되는 기존 도서관의 목록 레코드, 초록, 색인에 의해 생성된 데이터베이스 레코드는 이러한 의미에서 메타데이터라고 할 수 있다.

  • PDF

Extended Information Entropy via Correlation for Autonomous Attribute Reduction of BigData (빅 데이터의 자율 속성 감축을 위한 확장된 정보 엔트로피 기반 상관척도)

  • Park, In-Kyu
    • Journal of Korea Game Society
    • /
    • v.18 no.1
    • /
    • pp.105-114
    • /
    • 2018
  • Various data analysis methods used for customer type analysis are very important for game companies to understand their type and characteristics in an attempt to plan customized content for our customers and to provide more convenient services. In this paper, we propose a k-mode cluster analysis algorithm that uses information uncertainty by extending information entropy to reduce information loss. Therefore, the measurement of the similarity of attributes is considered in two aspects. One is to measure the uncertainty between each attribute on the center of each partition and the other is to measure the uncertainty about the probability distribution of the uncertainty of each property. In particular, the uncertainty in attributes is taken into account in the non-probabilistic and probabilistic scales because the entropy of the attribute is transformed into probabilistic information to measure the uncertainty. The accuracy of the algorithm is observable to the result of cluster analysis based on the optimal initial value through extensive performance analysis and various indexes.

Exploring the Performance of Multi-Label Feature Selection for Effective Decision-Making: Focusing on Sentiment Analysis (효과적인 의사결정을 위한 다중레이블 기반 속성선택 방법에 관한 연구: 감성 분석을 중심으로)

  • Jong Yoon Won;Kun Chang Lee
    • Information Systems Review
    • /
    • v.25 no.1
    • /
    • pp.47-73
    • /
    • 2023
  • Management decision-making based on artificial intelligence(AI) plays an important role in helping decision-makers. Business decision-making centered on AI is evaluated as a driving force for corporate growth. AI-based on accurate analysis techniques could support decision-makers in making high-quality decisions. This study proposes an effective decision-making method with the application of multi-label feature selection. In this regard, We present a CFS-BR (Correlation-based Feature Selection based on Binary Relevance approach) that reduces data sets in high-dimensional space. As a result of analyzing sample data and empirical data, CFS-BR can support efficient decision-making by selecting the best combination of meaningful attributes based on the Best-First algorithm. In addition, compared to the previous multi-label feature selection method, CFS-BR is useful for increasing the effectiveness of decision-making, as its accuracy is higher.

Service Distribution Method of Big Data for Smartphone User (스마트폰 사용자를 위한 빅 데이터 서비스 분배 방법)

  • Jeong, Yoon-Su
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2014.11a
    • /
    • pp.275-276
    • /
    • 2014
  • 스마트폰 기술이 발달함에 따라 사용자는 언제, 어디서나 원하는 정보를 서비스 받고 있다. 그러나 스마트폰 사용자가 많아지면서 서버에서 제공하는 서비스 속도가 떨어지고 있다. 본 논문에서는 스마트폰 사용자가 빅데이터 서비스를 요청할 경우 서비스 속성 및 특징에 따라 해당 서비스를 제공하는 분배 방법을 제안한다. 제안 방법은 서비스 목적, 데이터 속성, 시간과 접속 횟수 등의 정보를 이용하여 서비스를 분할하여 서비스 제공을 자제하도록 함으로써 사용자의 서비스 질을 향상시키는 것을 목표로 하고 있다. 또한, 스마트폰 사용자가 서비스를 제공받고 있는 경우 서비스 정보를 서버에 보관하여 추후 사용자가 스마트폰으로 서비스를 요청할 경우 서버에 저장된 정보를 이용하여 사용자에게 제공하려는 서비스의 질과 정확성을 향상시킨다.

  • PDF

시공간 데이터를 위한 클러스터링 기법의 성능 비교

  • 강주영;이봉재;송재주;신진호;용환승
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.49-51
    • /
    • 2004
  • 최근 GPS시스템, 감시 시스템, 기상 관측 시스템과 같은 다양한 응용 시스템으로부터 수집된 시공간 속성을 가진 데이터를 분석하고자 하는 시공간 데이터 마이닝에 대한 관심이 더욱 높아지고 있다. 기존의 시공간 데이터 마이닝에 대한 연구는 문자.숫자 데이터를 기반의 마이닝 기법을 그대로 적용하고 있기 때문에 데이터의 시공간 속성을 충분히 고려한 분석으로는 한계가 많은 것이 사실이다. 본 논문에서는 패턴 인식과 클러스터링 능력이 뛰어나다고 알려진 SOM을 기반으로 시공간 클러스터링 모듈을 개발하고, 개발된 모듈의 성능과 클러스터링 정확성에 대하여 K-means, 응집 계층 알고리즘(Average Linkage, Ward)과 비교함으로써 시공간 데이터 마이닝을 위한 각 알고리즘들의 성능을 분석하였다 또한 입력 데이터의 특성과 클러스터링 결과를 더욱 정확하게 나타내어 가시적인 분석을 도울 수 있도록 시공간 데이터 클러스터링을 위한 가시화 모듈을 개발하였다.

  • PDF

A Method Processing Missing Values for Data Mining based on Artificial Neural Network (데이터 마이닝을 위한 신경망 이용 결측 값 처리 방법)

  • 성지애;류정우;김명원
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.446-448
    • /
    • 2003
  • 실세계의 많은 데이터는 결측 값들을 포항하고 있기 때문에 데이터 마이닝 시스템에 완벽한 데이터를 제공하기는 불가능하다. 또한 결측 값이 존재하는 대용량의 데이터를 추천시스템에 적용하여 분석하고자 할 경우, 정확성이 떨어지는 결과를 초래할 수 있다. 따라서 데이터에 결측 값이 존재할 경우 입력 데이터를 사전에 보간하는 전처리 방법이 필요하다. 이러한 기존의 보간 전처리 방법에는 결측 값 속성을 삭제하거나 대치하는 방범이 대표적이나. 삭제 방법은 결측 값이 존재하는 데이터를 제거하는 방법으로 중요속성 삭제 및 데이터 손실을 유발하는 단점이 있어 일반적으로 결측 값을 다른 값으로 처리하는 대치 방범이 널리 사용된다. 본 논문에서는 전처리 방법 중 결측 값을 처리하는 가장 일반적인 대치 방법과 신경망을 이용한 평가 예측 처리 방법을 소개한다. 또한 신경망을 이용 결측 값을 대치하는 새로운 모델을 제안하고, 각각의 결측 값 처리방법을 비교 분석한다.

  • PDF

연구개발 효과성에 대한 기업 속성 및 기술경영 전략의 영향 분석

  • Im, Hyo-Jeong;Lee, Won-Yeong;Park, Yong-Tae
    • Proceedings of the Technology Innovation Conference
    • /
    • 2009.02a
    • /
    • pp.435-452
    • /
    • 2009
  • 기업의 지속적 성장을 위해 기술혁신은 필수적이다. 그 동안 기술혁신 성과에 영향을 미치는 기업 속성을 파악하는 연구가 다양하게 진행되었는데, 기업의 전략적 관심사인 연구개발 효과성의 측면에서 분석한 연구는 많지 않다. 또한 데이터의 한계로 인해 기업의 기술경영 전략의 영향은 고려되지 못했다. 본 연구는 연구개발과 특허라는 투입-산출 관계의 연구개발 효과성에 대한 기업 속성 및 기술경영 전략의 영향을 계량적으로 분석했다. 통계청의 "기업활동실태 조사" 데이터를 이용해 국내 4,722개 연구개발 기업을 대상으로, '특허수/연구개발 투자'를 종속변수로 하는 토빗 회귀분석을 수행했다. 가설검정의 결과는 다음과 같다. 첫째, 기업 규모, 다각화 등 기업 속성 뿐 아니라 기업은 전략적 제휴, e비즈니스시스템 도입 등 기술경영 전략을 통해 연구개발 효과성을 높일 수 있다. 둘째, 외국인자본비중이 높을수록 연구개발 효과성은 낮다 셋째, 연구개발 외주비중은 연구개발 효과성과 역U자형의 관계로, 연구개발 외주 비중이 31%인 수준에서 연구개발 효과성이 극대화된다. 본 연구는 기업 속성 뿐 아니라 기술경영 전략이 기업의 연구개발 효과성이라는 기술혁신의 성과에 중요함을 밝힘으로써 기업의 연구개발 전략에 대한 시사점을 제시했다.

  • PDF

Prediction of Yeast Protein-Protein Interactions by Neural Feature Association Rule (Neural Feature Association Rule을 이용한 효모 단백질-단백질 상호작용의 예측)

  • Eom Jae-Hong;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.277-279
    • /
    • 2005
  • 단백질들은 서로 다른 단백질들과 상호작용하거나 복합물을 형성함으로써 생물학적으로 중요한 기능을 한다고 알려져 있다. 때문에 대부분의 세포작용에 있어 중요한 역할을 하는 단백질들 간의 상호작용 분석 및 예측에 대한 연구는 여러 연구그룹으로부터 풍부한 데이터가 산출된 후게놈시대(post-genomic era)에서 또 하나의 중요한 이슈가 되고 있다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터들에서 속성들 간의 연관규칙 학습을 통해 잠재적 단백질 상호작용들을 예측하기 위한 연관규칙 기반의 상호작용 예측 방법을 제시한다. 단백질들 간의 상호작용 예측을 위해 고려되는 각 단백질의 다수의 속성차원은 정보이론 기반의 속성선택 알고리즘을 이용하여 효율적으로 줄이며 상호작용의 속성집합을 이용하여 신경망을 훈련시키고 이렇게 훈련된 신경망에서 속성들 간의 연관규칙을 디코딩하여 연관규칙 기반의 상호작용 예측에 활용한다. 연관속성 발굴을 통한 상호작용 예측을 위한 마이닝 방법으로는 연관규칙 발견 알고리즘을 사용하였으며 예측 정확도를 높이기 위하여 신경망 예측 모델의 학습 결과를 디코딩한 규칙들이 추가적으로 사용하였다. 논문에서 제안한 방법을 발견된 연관규칙을 통한 단백질 상호작용 예측문제에 있어 평균 약 $94.5\%$의 예측 정확도를 보였다.

  • PDF

Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions (한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안)

  • Jaemin Kim;Dong-Kyu Chae
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.558-562
    • /
    • 2023
  • 최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.

  • PDF

Updating Building Data in Digital Topographic Map Based on Matching and Generation of Update History Record (수치지도 건물데이터의 매칭 기반 갱신 및 이력 데이터 생성)

  • Park, Seul A;Yu, Ki Yun;Park, Woo Jin
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.32 no.4_1
    • /
    • pp.311-318
    • /
    • 2014
  • The data of buildings and structures take over large portions of the mapping database with large numbers. Furthermore, those shapes and attributes of building data continuously change over time. Due to those factors, the efficient methodology of updating database for following the most recent data become necessarily. This study has purposed on extracting needed data, which has been changed, by using overlaying analysis of new and old dataset, during updating processes. Following to procedures, we firstly searched for matching pairs of objects from each dataset, and defined the classification algorithm for building updating cases by comparing; those of shape updating cases are divided into 8 cases, while those of attribute updating cases are divided into 4 cases. Also, two updated dataset are set to be automatically saved. For the study, we selected few guidelines; the layer of digital topographic map 1:5000 for the targeted updating data, the building layer of Korea Address Information System map for the reference data, as well as build-up areas in Gwanak-gu, Seoul for the test area. The result of study updated 82.1% in shape and 34.5% in attribute building objects among all.