• 제목/요약/키워드: 데이터 밀도

검색결과 916건 처리시간 0.033초

밀도 기반 클러스트링을 적용한 공간 특성화 시스템 (Spatial Characterization System using Density-Based Clustering)

  • 유재현;이주홍;전석주;박상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.101-104
    • /
    • 2005
  • 최근 GIS 시스템, 위성사진, 원격 탐사 시스템과 같은 다양한 응용 시스템으로부터 수집된 방대한 양의 공간 데이터에서 지식을 발견하는 공간 데이터 마이닝에 대한 관심이 더욱 높아지고 있다. 기존의 공간 데이터마이닝에 대한 연구들은 방대한 비공간 데이터들의 지식을 효율적으로 탐사하고자 하였다. 그러나 기존의 시스템은 발견된 지식의 효과성을 보장하지 못하는 문제점을 가진다. 따라서 본 논문은 공간 데이터 타입을 포함하는 대용량의 데이터들로부터 효과성을 보장하는 특성화 지식 탐사시스템을 제안한다. 본 논문에서 제안하는 공간 특성화 지식 탐사시스템은 밀도 기반의 클러스터링 기법을 적용하여 탐사된 특성화 지식의 효과성을 높였다.

  • PDF

밀도 기반 클러스터링을 이용한 효과적인 공간 특성화 방법의 설계 및 구현 (Design and Implementation of Effective Spatial Characterization using Density-Based Clustering)

  • 유재현;이주홍;전석주;박상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.148-150
    • /
    • 2005
  • 최근 유비쿼터스 컴퓨팅의 관심이 증대되면서, 방대하고 다양한 형태의 데이터에 대한 효율성과 효과성을 고려한 지식 탐사방법연구의 필요성이 제기되었다. 기존의 지식 탐사방법에 대한 연구들은 방대한 비공간 데이터들의 지식을 효율적으로 탐사하고자 하였다. 그러나 기존의 연구는 탐사된 지식의 효율성안을 고려하여 유용한 지식탐사를 보장하지 못하는 문제점을 가진다. 따라서 본 논문은 공간 데이터 타입을 포함하는 대용랑의 데이터들로부터 효과성을 보장하는 특성화 지식 탐사방법을 제안한다. 본 논문에서 제안하는 특성화 지식 탐사기법은 공간 및 비공간 데이터들의 특성을 나타내는 요약된 지식을 제공하며, 밀도 기반의 클러스터링 기법을 적용하여 특성화 지식 탐사의 효과성을 높인다.

  • PDF

하천에서 유사의 침전 위치에 대한 확률밀도함수 분석 (Analysis of Probability Density Function of Deposition Spot in Open Channel Flow)

  • 오정선;최성욱
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.50-50
    • /
    • 2016
  • 하천에서 유사 및 오염물질의 이동을 예측하기 위하여 초점을 두는 것에는 두 가지 요소가 있다. 입자의 농도로 나타낼 수 있는 양의 개념과 입자의 위치로 나타낼 수 있는 공간의 개념이 그것이다. 유사 입자와 같이 그 비중이 물보다 큰 경우, 흐름 내에서 침전과 부상의 메커니즘을 반복하게 되는데 최종적으로 바닥에 침적하는 위치는 하상변동, 서식처 등 하천관리의 다양한 측면에서 매우 중요하다. 유사 입자가 바닥에 침적하는 위치를 예측하는 데에는 난류와 지형 같은 많은 불확실한 요소가 내포되어 있어, 같은 크기의 유사 입자라 하여도 하나의 exact point로 도달하지 않는다. 이러한 불확실한 요소를 고려하여 침전 위치를 산정하는 방법에 대한 연구가 필요하다. 따라서 본 연구에서는 침전 위치를 확률밀도함수로 나타내어 분석하고자 한다. 입자의 침전 위치를 확률밀도함수로 나타내기 위하여 입자 기반의 추적 모형을 사용하여 위치 데이터를 얻었으며, 이를 실험데이터와 비교하여 검증 후 확률밀도함수로 나타내었다. 그 결과 입자의 침적 위치에 대한 확률밀도함수는 로그정규분포를 띠고 있음을 확인하였으며, 확률밀도함수를 나타내는 매개변수를 물리 기반 회귀모형식으로 일반화 하여 나타낼 수 있었다.

  • PDF

고속도로 대기행렬 길이 산정모형 개발을 위한 연속류 특성 분석 (A Study of Traffic Flow Characteristics for Estimating Queue-Length in Highway)

  • 노재현
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1998년도 제34회 추계 학술발표회
    • /
    • pp.297-297
    • /
    • 1998
  • 고속도로의 교통혼잡을 관리하기 위해서는 근본적으로 혼잡지점 상류부의 진입교통량을 제어해야 한다. 이를 위한 효과적인 램프미터링 운영전략이나 고속도로 교통정보제공방안을 수립하기 위해서는 혼잡영향권(대기행렬길이)에 관한 신뢰성 있는 데이터가 반드시 필요하다. 고속도로의 대기행렬길이를 산정하기 위해 일반적으로 충격파이론과 Queueing이론을 제시하고 있다. 그러나, 기존의 충격파 이론을 포물선형의 교통량-밀도관계식을 근거로 하고 있어 충격파간에 발생하는 부수적인 충격파를 해석하는 과정이 수학적으로 불가능하여 실질적인 목적으로 사용할 수 없음은 이미 잘 알고 있는 사실이다. 최근에 이러한 한계를 극복할 수 있는 새로운 방법으로 교통량 밀도간의 관계식을 삼각형으로 가정하고 교통량 대신에 누적교통량을 사용하는 Simplified Theory of Kinematic Waves In Highway Traffic이 개발(Newell, 1993)되었지만, 이 방법을 적용하기 위해서는 기본적으로 대상 고속도로 구간의 교통량-밀도관계식을 규명해야 하는 어려움이 있다.(사실 실시간으로 밀도데이터를 수집하기란 불가능하다.) Queueing이론에서 제시하는 대기행렬은 모두 대기차량이 병목지점에 수직으로 정렬하여 도로를 점유하지 않는 Point Queue(혹은 Vertical stack Queue)로서 실제로 도로상에 정렬된 대기행렬(Real Physical Queue)과는 전혀 다르다. 이미 입증된 바 있어, Queueing이론을 이용함은 타당성이 없다. 이러한 사실에 근거하여 본 연구는 고속도로 대기행렬길이를 산정할 수 있는 모형개발을 위한 기초연구로서 혼잡상태의 연속류 특성을 분석하는데 목적이 있다. 이를 위해, 본 연구에서는 서울시 도시고속도로에서 수집한 실제 데이터를 이용하여 진입램프지점의 혼잡상태에서 대기행렬의 증가 또는 감소하는 과정을 분석하였다. 주요 분석결과는 다음과 같다. 1. 혼잡초기의 대기행렬은 다른 혼잡시기에 비해 상대적으로 급속한 속도로 증가함. 2. 혼잡초기의 대기행렬의 밀도는 다른 혼잡시기에 비해 비교적 낮음. 3. 위의 두 결과는 서로 관계가 있으며, 혼잡시 운전자의 행태(차두간격)과 혼잡기간중에도 변화함을 의미함. 4. 교통변수 중에서 대기행렬길이를 산정하는데 적합한 교통변수를 교통량과 밀도로 판단됨. 5. Queueing이론에서 제시하는 대리행렬길이 산정방법인 대기차량대수$\times$평균차두간격은 대기행렬내 밀도가 일정하지 않아 부적합함을 재확인함. 6. 혼잡초기를 제외한 혼잡기간 중 대기행렬길이는 밀도데이터 없이도 혼잡 상류부의 도착교통량과 병목지점 본선통과교통량만을 이용하여 추정이 가능함. 7. 이상에 연구한 결과를 토대로, 고속도로 대기행렬길이를 산정할 수 있는 기초적인 도형을 제시함.

  • PDF

벤처기업정밀실태조사와 한국기업혁신조사 데이터를 활용한 통계적 매칭의 타당성 검증 (The Validity Test of Statistical Matching Simulation Using the Data of Korea Venture Firms and Korea Innovation Survey)

  • 안경민;이영찬
    • 지식경영연구
    • /
    • 제24권1호
    • /
    • pp.245-271
    • /
    • 2023
  • 최근 데이터 경제가 가속화되면서 경영학 분야에서는 데이터 매칭이라는 새로운 기법이 주목받고 있다. 데이터 매칭은 모집단이 같지만 서로 다른 표본에서 수집된 데이터셋을 합치는 기법 또는 처리 과정을 의미한다. 그중에서 통계적 매칭은 서로 다른 데이터를 결합하는데 있어서 사업자 번호와 같이 기준이 되는 변수가 없는 경우 통계적 함수를 활용하여 데이터를 매칭하는 방법이다. 선행연구 검토결과 경제학, 교육학, 보건, 의료 등 다양한 분야에서 통계적 매칭이 많이 사용되고 있는데 반해 경영학 분야는 제한적임을 확인할 수 있었다. 본 연구는 기존 경영학 분야에서 충분히 연구되지 않았던 통계적 매칭의 유용성을 검증하고 활용도를 높이는 방안을 연구하고자 한다. 연구목적을 달성하기 위해 본 연구에서는 2020 벤처기업정밀실태조사와 2020 한국기업혁신조사 자료를 활용하여 통계적 매칭 시뮬레이션을 수행하였다. 먼저, 선행연구를 바탕으로 통계적 매칭에 사용되는 변수를 선정하였다. 공통변수는 업종, 종업원수, 지역, 업력, 상장시장, 매출로 설정하였고, 검증을 위한 고유변수와 제공변수는 중소기업 혁신에서 가장 중요한 연구인력 비율과 R&D 비용으로 각각 설정하였다. 사전 검증을 위해 2020 벤처기업정밀실태조사 자료를 수여자 데이터 30%와 기여자 데이터 70%로 분할하였다. 통계적 매칭에는 마할라노비스 거리와 랜덤 핫덱을 결합한 방식을 사용하였고, 성능평가는 수여자 데이터와 원시 데이터의 평균값 비교와 커널 밀도 함수(Kernel Density Estimation)를 통해 데이터 분포를 비교하였다. 검증결과, 수여자 데이터 30%와 기여자 데이터 70%에서 추출된 매칭 데이터의 평균값이 통계적으로 유의한 차이가 없는 것으로 나타나 유사한 데이터가 매칭된다는 것을 확인하였다. 또한, 두 데이터의 커널 밀도 함수로 도출한 데이터 분포 역시 유사한 형태가 나타나는 것을 확인할 수 있었다. 사후 검증에는 2020 벤처기업정밀실태조사에서 임의로 30%를 수여자 데이터로 추출하고 2020 한국기업혁신조사 자료를 기여자 데이터로 설정하여 통계적 매칭을 수행하고 검증하였다. 사전 검증과 마찬가지로 공통변수는 업종, 종업원수, 지역, 업력, 상장시장, 매출로 설정하였고, 검증을 위한 고유변수는 연구 인력 비율과 R&D 비용으로 정의하였다. 분석 결과, 수여자 데이터의 연구인력 비율의 평균과 기여자 데이터의 평균은 예상과 다르게 통계적으로 차이가 있는 것으로 나타났다. 하지만 커널 밀도 함수에 따른 두 데이터의 분포는 유사한 형태를 보이는 것으로 조사되어 통계적 매칭의 적절성을 확인할 수 있었다. R&D 비용은 통계적 매칭 수행 결과, 수여자 데이터의 R&D 비용 평균과 기여자 데이터의 평균이 통계적으로 차이가 없었고, 커널 밀도 함수도 유사한 분포를 보이는 것으로 조사되었다. 이러한 결과는 모집단은 동일하지만 서로 다른 표본에서 수집된 자료를 통계적으로 결합하여 신뢰할 수 있는 새로운 데이터를 확보할 수 있다는 측면에서 큰 의의가 있다. 또한, 경영학 분야에서 많이 사용되지 않았던 데이터 매칭 방법론을 모의실험을 통해 타당성을 검증함으로써 연구용 데이터 확보와 연구방법론의 확장에 기여했다는 점에서 시사점을 가진다.

움직임 인식응용을 위한 커널 밀도 추정 기반 학습용 데이터 증폭 기법 (Data Augmentation using a Kernel Density Estimation for Motion Recognition Applications)

  • 정우순;이형규
    • 한국산업정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.19-27
    • /
    • 2022
  • 머신러닝(ML, Machine Learning)기반 응용에서의 인식성능은 적용된 모델의 종류와 크기, 학습환경 및 학습에 사용되는 데이터 등 다양한 요인에 따라 결정된다. 특히 학습에 사용되는 데이터가 충분치 않을 경우 인식성능이 저하되거나 과적합(Overfitting)등의 문제가 발생하기도 한다. 이미지 인식을 주요 대상으로 하는 기존 연구들은 학습을 위한 데이터셋이 풍부하고 검증된 데이터셋을 사용하여 학습 및 인식성능을 평가할 수 있다. 하지만 사용된 센서, 인식의 대상, 인식 상황이 다른 특정 응용들의 경우 데이터셋을 직접 구축해야 한다. 이런 경우, ML모델의 성능은 데이터의 양과 품질에 따라 달라진다. 본 논문에서는 이용 가능한 학습용 데이터가 충분치 않은 움직임 인식응용에 효율적으로 사용될 수 있는 비모수 추정 방식의 일종인 커널 밀도 추정 알고리즘을 사용하여 학습용 데이터를 증폭한 후, 사용된 커널의 종류에 따라, 원본 데이터의 수 및 증폭 비율에 따라 증폭된 데이터가 원본 데이터의 특징을 잘 반영하는지 인식 정확도 변화를 토대로 비교 분석한다. 실험결과, 본 연구에서 사용한 움직임 인식응용에서는 좁은 대역폭을 가진 Tophat 커널로 증폭된 데이터셋에서 최대 14.31%의 인식 정확도 향상을 확인하였다.

대용량 공간데이터베이스를 위한 확장된 밀도-격자 기반의 공간 클러스터링 알고리즘 (An Enhanced Density and Grid based Spatial Clustering Algorithm for Large Spatial Database)

  • ;김호석;;김경배;배해영
    • 정보처리학회논문지D
    • /
    • 제13D권5호
    • /
    • pp.633-640
    • /
    • 2006
  • 공간 데이터마이닝 분야에서 객체간의 거리, 연결성, 상대적인 밀도를 기반으로 비슷한 객체들을 하나의 그룹으로 묶는 공간 클러스터링은 중요한 컴포넌트이다. 공간 클러스터링 알고리즘은 밀도 기반 클러스터링과 격자 기반 클러스터링 알고리즘 등으로 나눌 수 있다. 밀도 기반 클러스터링 알고리즘은 다양한 모양과 크기의 클러스터를 구분할 수 있으며, 잡음을 제거할 수 있는 장점을 가지고 있는 반면에, 격자 기반 클러스터링 처리속도가 빠르다는 장점을 가지고 있다. 하지만, 대량의 공간 데이터 집합을 클러스터링 하는 것은 데이터 처리 비용이 급격하게 증가하기 때문에 클러스터링 처리 결과에 큰 영향을 준다. 본 논문은 대용량의 공간 데이터베이스에서 공간 객체간의 고밀도 영역을 식별하여 잡음을 제거하기 위한 수치데이터 값과 기본 격자간격 개수를 정의하는 확장된 밀도-격자 기반 클러스터링 알고리즘을 제안한다. 제안 알고리즘은 고밀도 영역 식별을 위하여 threashold(DT)를 정의하였으며, 격자 및 밀도 기반 기법의 장점을 이용하여 임의의 객체 클러스터링을 식별할 수 있는 성능을 향상시켰다. 성능평가에서 기존의 클러스터링 알고리즘과의 다양한 비교 평가 실험을 통하여, 제안 알고리즘이 빠르고 정확한 데이터 클러스터링 결과를 나타냄을 보인다.

고속 버스트 모드 광 송신기에 적합한 자동 전력 제어 회로 (An Automatic Power Control Circuit suitable for High Speed Burst-mode optical transmitters)

  • 기현철
    • 대한전자공학회논문지SD
    • /
    • 제43권11호
    • /
    • pp.98-104
    • /
    • 2006
  • 기존의 버스트 모드 자동전력제어 회로는 저 전력과 단일 칩화에 적합한 효율적인 구조인 반면에 데이터 율(data rate)이 높아짐에 따라 영의 밀도(zero density) 영향을 심하게 받아 에러를 야기하였다. 본 논문에서는 더블 게이트 MOS와 MOS다이오드를 이용하여 주입전류의 불균형을 보상하는 할 수 있는 새로운 구조의 첨두 비교기를 고안하고 이를 자동전력제어 회로에 적용하여 높은 데이터 율에서도 영의 밀도 변화에 강한 버스트 모드 자동전력제어 회로를 제안하였다. 제안한 자동전력제어 회로 내의 첨두 비교기는 높은 데이터 율에서 영의 밀도 변화에도 불구하고 정확한 전류비교 기준점을 견지하며 에러 없이 정상동작 하였다. 또한 제안한 첨두 비교기는 저전력 구조이고 대용량의 커패시터가 사용되지 않아 단일 칩화에도 적합하였다.

마크 밀도 변화에 강한 버스트 모드 자동 전력 제어 회로 (A Burst-mode Automatic Power Control Circuit Robust io Mark Density Variations)

  • 기현철
    • 대한전자공학회논문지SD
    • /
    • 제41권4호
    • /
    • pp.67-74
    • /
    • 2004
  • 기존의 버스트 모드 자동전력제어 회로는 데이터 율이 증가함에 따라 마크밀도 변화 영향을 심하게 받아 에러를 야기하였다. 이 문제를 해결하기 위해 높은 데이터 율에서도 마크밀도의 영향을 배제시킬 수 있는 새로운 구조의 첨두 비교기를 고안하고 이를 자동전력제어 회로에 적용하여 마크밀도 변화에 강한 버스트 모드 자동전력제어 회로를 제안하였다. 제안한 자동전력제어 회로 내의 첨두 비교기는 높은 데이터 율에서 뿐만 아니라 광범위한 기준전류 및 차 전류 변화에서도 미소한 마크밀도 변화 영향만을 보여 마크밀도 변화에 매우 강한 특성을 확인 할 수 있었다.

클러스터 밀도에 무관한 향상된 클러스터링 기법 (An Improved Clustering Method with Cluster Density Independence)

  • 유병현;김완우;허경용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.248-249
    • /
    • 2015
  • 클러스터링은 대표적인 비교사 학습 방법의 하나로 균일한 특성을 가지는 데이터를 클러스터로 묶기 위해 사용된다. 하지만 클러스터링은 기본적으로 클러스터의 중심에서 데이터까지의 거리에 기반하고 있으므로 클러스터의 중심이 밀도가 높은 클러스터 쪽으로 쏠리는 현상이 발생한다. 이 논문에서는 클러스터의 중심을 가능한 멀리 떨어져 있도록 하는 항을 Fuzzy C-Means의 목적함수에 추가함으로써 클러스터 사이의 밀도 차이가 심한 데이터의 클러스터링 문제에서 정확한 결과를 얻을 수 있는 클러스터링 방법을 제안한다. 제안한 방법은 FCM에 비해 실제 클러스터 중심으로 수렴하는 경우가 더 많으며 수렴 속도 역시 FCM 보다 빠른 것을 실험 결과를 통해 확인할 수 있다.

  • PDF