• Title/Summary/Keyword: 데이터 편중

Search Result 101, Processing Time 0.027 seconds

미국 ESCO 시장에 대한 통계 분석 보고서

  • 전미ESCO협회
    • The Magazine for Energy Service Companies
    • /
    • s.19
    • /
    • pp.64-67
    • /
    • 2002
  • 보고서에 따르면, 에너지 효율화 산업은 지난 10년 동안 매년 $24\%$의 총수익 증가율을 기록하며 급속히 성장했다. 데이터 베이스에 포함된 프로젝트 중 대략 $73\%$가 공공부문 시장으로부터 얻어진 것인데 이는 자료수집 과정에서 있었던 편중 때문이다. 미국의 ESCO시장은 매년 20억불에 달하고 있다.

  • PDF

Adaptive Euclidean Distance Measure Method for Numeric Data Distribution (수치 데이터 분포에 적응적 유클리드 거리 측정 기법)

  • Choi, You-Hwan;Joo, Bum-Joon;Jung, Sung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.67-69
    • /
    • 2011
  • 데이터의 군집 분석에서 두 개의 서로 다른 데이터에 대한 유사도(거리)를 어떻게 정의하는가는 매우 중요한 문제이다. 수치속성에 대한 거리 측정 방법에는 다양한 기법이 존재하지만 각 속성의 크기와 범위가 서로 크게 다를 경우 이들을 동일한 인자로 여기고 거리 측정을 하게 되면 논리적인 오류를 범할 수 있다. 기존의 군집 분석 연구에서 사용된 거리 측정 기법은 데이터의 정규화 과정을 통해 이 문제를 해결하려고 노력하지만 일반적인 정규화는 이상치의 존재나 데이터의 편중된 분포 등의 이유로 속성별 거리가 왜곡될 수 있다. 본 논문은 이러한 문제점을 해결하기 위해 정규화된 데이터에서 각 속성의 비중을 고려한 적응적 유클리드 거리 측정 기법(AEDM: Adaptive Euclidean Distance Measure)을 제안한다. AEDM은 유클리드 거리를 기반으로 정규화 된 데이터의 형태에 따라 가중치를 부여하여 데이터의 분포에 관계없이 각 속성간의 거리를 충분히 반영하기 때문에 더욱 정확한 군집 분석을 가능하게 한다.

A Design Method of Storage Structures for MOLAP Systems (MOLAP 시스템을 위한 다차원 저장구조의 설계기법)

  • Lee Jong-Hak;Lee Seong-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.130-132
    • /
    • 2005
  • 다차원 온라인 분석처리 시스템(MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열구조를 기반으로 한 파일구조에 대해서 연구되어 왔다. 다차원 배열구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 MOLAP 저장구조의 물리적 설계기법을 제안한다. 실험결과에 의하면 이차원 파일구조의 경우 집계 연산처리를 위한 저장구조의 성능이 일곱 배 이상까지 향상됨을 확인하였다. 삼차원 이상의 파일구조에 대해서는 더욱더 큰 성능향상이 예상된다. 이러한 성능의 향상은 제안된 MOLAP 저장구조의 물리적 설계기법이 매우 유용함을 나타내는 것이다.

  • PDF

Online Scaling Consious Online Reorganization of $CSB^+$ tree Index in a Database Cluster (클러스터링 데이터베이스에서 온라인 확장을 고려한 $CSB^+$ 트리 색인의 온라인 재구성 기법)

  • 심태정;이충호;이순조;배해영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.196-198
    • /
    • 2002
  • 클러스터링 데이터베이스는 높은 가용성과 확장성을 갖으며, 예상치 못한 클라이언트 질의의 증가나 질의 패턴의 변경에 따른 작업부하의 편중에 효율적으로 대처할 수 있는 구조이다. 특히 온라인 확장 기법은 트랜잭션 처리를 중지하지 않고 새로운 노드를 클러스터에 추가하여 데이터를 재구성함으로써 임의의 노드에 질의가 집중되는 문제를 해결할 수 있다. 정적으로 구성된 시스템만으로는 두 대 이상의 서버에 작업량이 집중될 경우 재배치 시 서버 간의 데이터 이동의 반복 현상이 발생되며. 이로 인해 네트웍의 부하와 함께 실시간 트랜적션의 처리에 있어서 응답 시간이 지연되는 문제점이 발생한다. 따라서 본 논문에서는 데이터 이동의 반복 현상을 해결하기 위해 클러스터링 데이터베이스에서 온라인 확장을 고려한 CSB+ 트리 색인의 온라인 재구성 기법을 제안한다. 제안된 기법은 온라인 확장을 통한 동구 노드의 확장으로 데이터 이동의 반복을 막고 새롭게 추가된 노드를 통해 빠르고 효율적인 데이터의 분산을 수행한다 또한 각 시스템의 내부를 CS$B^{+}$ 트리로 구성하여 데이터의 재주성시에도 실시간 트랜잭션에 대한 빠른 응답 시간을 보장한다.

  • PDF

Data Augmentation of English Reading Comprehension Tutoring Dialogs using ChatGPT (ChatGPT 를 이용한 독해 튜터링 대화 데이터 확장)

  • Hyunyou Kwon;Sung-Kwon Choi;Jinxia Huang;Oh-Woog Kwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.43-44
    • /
    • 2023
  • 대화형 독해 튜터링 시스템을 위한 학생주도 대화 데이터셋 생성 및 확장에 ChatGPT 의 활용 가능성을 평가하였다. 단순히 수동으로만 구축한 기존의 데이터셋과 ChatGPT 에 의해 반자동으로 확장된 데이터셋을 비교한 결과, 구축량, 소요 시간, 비용 및 반복 작업 측면에서 ChatGPT 가 가진 유용성을 알 수 있었다. 그러나, 유형별 배분의 편중과, 부적절한 데이터 생성 등의 한계도 나타났다. Chat GPT 의 빠른 발전이 예상됨에 따라 대화형 튜터링 분야에 ChatGPT 에 의한 반자동 데이터 확장 방법이 널리 활용될 것으로 기대된다.

A Model of Speech Database in Korean in consideration of its segmental phonology (국어 분절음 특성에 맞는 음성 데이터 베이스의 모형)

  • 김종미
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.297-302
    • /
    • 1994
  • 본 논문에서는 국어 분절음 특성에 맞는 음성 데이터베이스의 모형을 제시하고자 한다. 음성 데이터 베이스는 1) 각 음의 고유음가정보, 2) 인접음 정보, 3) 빈도수에 따른 확률정보를 포함해야 한다. 이 요건을 충족시키기 위해 본 모형은 1) 음운 단위별로 Labeling 하여, 고유음과 인접음 정보를 편집하고, 2) 음운 규칙과 제약정보에 의해 Phoneme Balanced Words를 작성하여, 허용되는 인접음을 취하고, 허용되지 않는 인접음을 탈락시키며 3) 시스템 평가시, 빈도수가 shb은 음과 음소열의 우선적인 인식 및 합성을 우월하게 평가한다는 고정서, 4) 데이터 집적시, 데이터의 음운기능의 중복과 편중을 피함으로서 데이터량을 간소화할 수 있다는 경제성을 들 수 있다.

  • PDF

Design of Aggregate Function for Spatiotemporal (시공간지원 집계 함수 설계)

  • Shin, Hyun-Ho;Choi, Bo-Yoon;Chi, Jeong-Hee;Kim, Sang-Ho;Ryu, Keun-Ho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1503-1506
    • /
    • 2003
  • 시공간 데이터베이스는 실세계에 존재하는 다양한 유형의 객체에 대한 공간 관리와 이력정보를 동시에 제공함으로써 사용자에게 시공간 데이터에 대한 저장 및 질의 수단을 제공한다. 질의 연산 중 집계 연산은 특정한 조건을 만족하는 데이터에 대하여 계산을 수행한 결과 값을 반환하는 연산으로, 다양한 분야에서 데이터의 분석을 위해 사용된다. 그러나 기존의 집계에 대한 연구는 시간 또는 공간에만 편중되어 시간과 공간 제약을 모두 가진 실세계의 응용에 직접 적용할 수 없다. 따라서 이 논문에서는 실세계 응용들의 분석을 위한 시공간 집계함수를 제안하고, 실제 응용에서의 분석을 위한 질의 예를 보인다. 제안된 시공간 집계함수에 의해 사용자는 응용시스템에 따른 시공간데이터 분석을 위해 간략하고 편리한 질의 할 수 있다.

  • PDF

Cluster-based Energy-Efficient Routing Protocol using Message Reception Success Rate (메시지 수신 성공률을 이용한 클러스터 기반의 에너지 효율적인 라우팅 프로토콜)

  • Jang, You-Jin;Choi, Young-Ho;Jang, Jae-Woo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.12
    • /
    • pp.1224-1228
    • /
    • 2010
  • The existing cluster-based routing protocols have some problems. Firstly, because of selecting cluster head at random, they occur a node concentration problem. Secondly, they have a low reliability for data communication due to the less consideration of node communication range. Finally, data communication overhead is greatly increased because of sending all sensor node information to sink node for constructing clusters. To solve these problems, we in this paper, propose a cluster-based routing protocol using message reception success rate. Firstly, to solve the node concentration problem, we design a cluster head selection algorithm based on node connectivity and devise cluster spliting/merging algorithms. Secondly, to guarantee data communication reliability, we use message reception success rate. Finally, to reduce data communication overhead, we use only neighbor nodes information at both cluster construction and cluster head selection.

K-Nearest Interest Management in Onlina Game Server (온라인 게임서버에서의 k-최근접 관심영역 관리기법)

  • 박일규;심광현;김종성
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.547-549
    • /
    • 2001
  • 대규모 온라인 게임과 같이 수많은 사용자를 수용하는 클라이언트/서버 방식 응용에서는 네트워크의 대역폭을 효율적으로 사용하는 것이 중요하다. 각 클라이언트의 관심영역에 해당하는 데이터만을 보내어 트래픽을 줄이는 방법을 관심영역 관리라 하며, 클래스기반, 영역 기반, 격자기반 등 여러 가지의 방법이 제안되어 있다. 본 논문에서는 작은 영역에서 거리 기반으로 관심영역을 정하는 관심영역 관리 기법을 제안하고, 이를 이용하여 참가자가 편중된 영역에서 생기는 트래픽 집중 현상을 해소하는 방법을 제안한다.

  • PDF

A Development Study of The VPT for the improvement of Hadoop performance (하둡 성능 향상을 위한 VPT 개발 연구)

  • Yang, Ill Deung;Kim, Seong Ryeol
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.9
    • /
    • pp.2029-2036
    • /
    • 2015
  • Hadoop MR(MapReduce) uses a partition function for passing the outputs of mappers to reducers. The partition function determines target reducers after calculating the hash-value from the key and performing mod-operation by reducer number. The legacy partition function doesn't divide the job effectively because it is so sensitive to key distribution. If the job isn't divided effectively then it can effect the total processing time of the job because some reducers need more time to process. This paper proposes the VPT(Virtual Partition Table) and has tested appling the VPT with a preponderance of data. The applied VPT improved three seconds on average and we figure it will improve more when data is increased.