• 제목/요약/키워드: Data 누락

검색결과 261건 처리시간 0.025초

AMI시스템에서 유사도를 활용한 누락데이터 보정 방법 (Estimate method of missing data using Similarity in AMI system)

  • 권혁록;홍택은;김판구
    • 스마트미디어저널
    • /
    • 제8권4호
    • /
    • pp.80-84
    • /
    • 2019
  • AMI가 확대보급이 빠르게 진행되고 있고, 이에 따라 전력사용 데이터를 활용한 다양한 서비스들이 늘어나고 있다. 이러한 서비스를 효용성을 높이기 위해서 누락된 계량데이터들을 보정할 필요가 있다. 본 논문에서는 누락된 계량데이터의 보정을 위해서 유클리디안 유사도를 이용하여 사용량 패턴이 유사한 고객을 찾아 누락데이터를 보정하는 방식을 제안하고 선행 방식과의 비교자료를 제공한다.

누락교통량자료 보정방법에서 강우의 영향 고려 (Considering of the Rainfall Effect in Missing Traffic Volume Data Imputation Method)

  • 김민현;오주삼
    • 한국ITS학회 논문지
    • /
    • 제14권2호
    • /
    • pp.1-13
    • /
    • 2015
  • 교통량자료는 매우 다양한 분야에서 사용되는 기초자료이다. 교통량자료는 도로교통량조사를 통하여 수집되며, 도로교통량조사 중 기계식 장비를 사용하여 365일 24시간 지속적으로 수집되는 자료를 상시교통량자료라고 한다. 상시교통량자료는 장비의 오작동 및 여러 원인으로 교통량자료누락이 발생하는 경우가 있다. 누락된 교통량자료는 여러 누락보정방법을 적용하여 보정을 수행하고 있다. 하지만, 기존의 누락보정방법론들은 기상에 대한 영향을 전혀 고려하지 않은 실정이다. 따라서 본 연구에서는 기상 중 강우의 영향을 고려한 누락교통량자료 보정방법에 대한 연구를 수행하였다. 이를 위해 우선 일반국도에서 수집한 교통량자료와 기상청의 기상자료의 매칭을 수행하였으며, 이후 일반국도의 특성별로 군집분석 수행 및 분석대상지점 선정을 진행하였다. 세 가지 보정 기법들(평균대체법/자기회귀모형/EM 기법)을 사용하여 전체 자료에서 누락보정을 수행하는 것과 강우일의 자료만을 가지고 누락보정을 수행하여 보정값의 정확도를 평가하였다. 분석 결과 모든 보정방법 및 분석지점에서 과거 강우일의 교통량자료만을 가지고 보정한 경우가 더 정확한 보정값을 산출하는 것으로 분석되었다.

NPR기반 누락 교통자료 추정기법 개발 및 적용 (Development and Application of Imputation Technique Based on NPR for Missing Traffic Data)

  • 장현호;한동희;이태경;이영인;원제무
    • 대한교통학회지
    • /
    • 제28권3호
    • /
    • pp.61-74
    • /
    • 2010
  • 지능형 교통체계는 실시간 교통자료를 수집하고 방대한 양의 이력자료를 축적한다. 그러나 방대한 이력자료는 효율적으로 관리/이용되지 않고 있는 실정이다. ADMS와 같은 자료관리시스템이 도입되면서, 이력자료의 잠재적 활용성은 급격히 증대되고 있다. 그러나 자료관리스템의 교통자료는 다량의 누락자료를 포함하고 있다. 누락자료는 장기간에 걸쳐 빈번하게 교통자료를 이용할 수 없게 하기 때문에, 이력자료를 활용하는데 있어 주된 장애요인 중 하나이다. 따라서 누락자료 추정기법은 자료관리시스템에서 주요한 역할을 수행하게 된다. 이러한 한계를 극복하기 위하여, 본 연구에서는 자료관리스템에 탑재가 용이하며 이력자료에 포함된 누락자료를 추정하기 위한 누락자료 추정모형을 개발하였다. 개발모형은 비모수회귀식(NPR)을 기반으로 개발되었으며, 이력자료의 다양한 교통자료 패턴을 이용하고 현실적인 요구사항(변수 최소화, 연산속도, 다양한 형태의 누락자료 보정, 다중대체)을 충족하도록 설계되었다. 모형의 평가는 다양한 누락자료 형태의 상태에서 수행되었으며, 자료관리시스템에 탑재되기 위해 요구되는 정확도, 연산 수행속도에서 기존에 보고된 모형보다 우수한 성능을 보였다.

암시적 피드백 데이터의 행렬 분해 기반 누락 데이터 모델링 (Missing Data Modeling based on Matrix Factorization of Implicit Feedback Dataset)

  • 기가기;정영지
    • 한국정보통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.495-507
    • /
    • 2019
  • 데이터 희소성은 추천 시스템의 주요 과제 중 하나이다. 추천 시스템에서는, 일부분만 관찰된 데이터이고 다른 부분은 데이터가 누락된 대용량 데이터를 포함하고 있다. 대부분의 연구에서는, 데이터 세트에서 무작위로 데이터가 누락되었다고 가정하고, 관찰된 데이터만을 사용하여 추천 모델을 학습함으로써 사용자에게 항목을 추천하고 있다. 그러나, 실제로는 누락된 데이터는 무작위로 손실되었다고 볼 수 없다. 본 연구에서는, 누락 된 데이터를 사용자적 관심의 부정적인 예라고 간주하였다. 또한, 3가지 샘플 접근 방식을 SVD++ 알고리즘과 결합하여 SVD++_W, SVD++_R 그리고 SVD++_KNN 알고리즘을 제안하였다. 실험결과를 통하여, 제안한 3가지 샘플 접근 방식이 기존의 기본적인 알고리즘 보다 Top-N 추천에서 정확성과 회수율을 효과적으로 향상시킬 수 있다는 것을 보였다. 특히, SVD++_KNN 가 가장 우수한 성능을 보였는데, 이는 KNN 샘플 접근 방식이 사용자적 관심의 부정적인 예를 추출하는데 가장 효율적인 방법이라는 것을 보여주었다.

품질 및 조건 기반 시계열 데이터 선별 활용 방법 (Methods for screening time series data according to data quality and statistical status)

  • 문재원;유미선;오승택;금승우;황지수;이지훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.399-402
    • /
    • 2022
  • 본 논문에서는 불완전한 시계열 데이터를 활용하기 전 데이터를 선별하여 활용하는 방법을 소개한다. 시계열 데이터의 품질은 수집 네트워크와 수집 기기의 시간적 변화와 같은 가변적 상황에 의존적이므로 불규칙적으로 이상 혹은 누락 데이터가 발생한다. 이때 에러를 포함하였다는 이유로 일괄적으로 데이터를 제거하여 활용하지 않거나, 혹은 누락 데이터의 구간을 조건 없이 복원하여 활용한다면 원하지 않는 결과를 초래할 수 있다. 제안하는 방법은 시계열 데이터의 구간에 대한 누락 데이터의 통계적 정보를 축출하고 이에 기반하여 활용 목적과 활용 가능한 품질의 기준에 부합하지 않는다면 활용 불가능한 데이터라고 판별하고 미리 분석 등의 데이터 활용 시 자동 제외하는 구조를 제안하고 실험하였다. 제안하는 방법은 활용 목적과 상황에 적응적으로 누락 값을 포함하는 데이터의 빠른 활용 판단이 가능하며 보다 나은 분석 결과를 얻을 수 있다.

  • PDF

원격방사선치료 기록부의 QA 에서 물리적 측면의 고찰 (A Cosideration on Physical Aspects in Teleradiotherapy Chart QA)

  • 강위생;허순녕
    • 한국의학물리학회지:의학물리
    • /
    • 제10권2호
    • /
    • pp.95-101
    • /
    • 1999
  • 원격방사선치료 기록부의 QA 과정에서 관찰된 환자에 대한 부정확한 자료나 방사선치료 기록부에 기록이나 이기의 오류로 인한 선량이나 선량분포의 오류의 종류와 빈도를 분석하는 것이다. 서울대학교병원 치료방사선과에서는 수치 오류을 시정하기 위해 의학물리학자가 치료개시전과 일주일에 일회 이상 방사선치료 기록부의 병록지와 배치도면, MU 계산용지나 치료계획 요약지, 일일 치료기록지를 점검하고 있다. 관찰된 오류를 다음과 같이 분류하였다. 1) 환자신원 확인, 2) 물리적인 요소를 포함하지 않지만 병록지의 누락이나 미기재, 3) 배치도면의 누락이나 setup 에 필요한 자료의 누락과 착오, 4) MU와 점선량 계산용지에서는 MU의 오류의 중요 원인별로 구분 및 점선량의 오류, 5) 치료계획 요약지의 분실여부와 환자자료의 오류, 6) 일일 치료기록지에서는 치료사실의 기재누락, 치료일정 착오, 처방선량 착오, setup 착오, MU 착오, 누적선량착오, 7) 선량이나 선량분포의 부정확성을 초래한 오류와 그런 가능성은 있지만 실제 실현되지 않은 오류, 단순히 기록상의 오류 , 8) 서명의 누락에 대해 검사하였으며, 결과는 환자의 수 대신 오류 건수별로 분석하였다. 1996년 6월 17일부터 1999년 7 월 31 일까지 방사선치료 기록부의 QA 에서 환자신원의 불일치는 한건도 없었으며 ,399명의 환자에 대해 431건의 오류가 관찰되었다. 물리적인 오류는 405건, 병록지의 누락 또는 미기재가 9 건, 서명누락이 17건이었다. 배치도면이 없는 경우 23 건 (5.7%), 자료의 누락 21건 (5.2%), 자료의 오기 73건(18.0%) 이었으며, MU의 계산용지가 없거나 계산 없이 치료가 시행된 경우는 13건 (3.2%), MU 계산의 착오 68 건 (16.3%), 점선량의 계산착오 8 건(2.0%), 방사선치료계획 결과 용지의 분실이 1건 (0.2%), 환자자료의 입력 오류가 11건(2.7%), 치료기록의 누락이나 치료의 누락이 8건(2.0%), 치료일정의 오류 13건 (3.2%), MU 계산이나 치료계획의 처방선량과 일일 치료기록지 처방선량의 불일치 20건(4.9%), 치료 setup 의 착오 33건(8.1%), MU의 설정 착오 52건(12.8%), 누적선량 착오 61건(15.1%) 이었다. 선량이나 선량분포의 부정확성을 초래한 오류는 239건(59.0%) 이었으며, 그런 가능성은 있지만 실제 실현되지 않은 오류 142건(35.1%), 단순히 기록상 오류는 24건 (5.9%) 이었다. 관찰된 수치 오류는 다양한 분야에 걸쳐 있었다. 나타난 대부분의 오류는 선량이나 선량분포의 오류에 직접 기여하거나 기여할 우려가 있기 때문에 방사선치료 기록부에서 물리적인 면의 QA를 철저하게 할 필요가 있다.

  • PDF

2차원 전기비저항 탐사에 사용되는 ROLL-ALONG 기법에 대한 고찰 (A STUDY ON THE ROLL-ALONG TECHNIQUE USED IN 2D ELECTRICAL RESISTIVITY SURVEYS)

  • 한원석;윤종렬
    • 지구물리
    • /
    • 제6권3호
    • /
    • pp.155-164
    • /
    • 2003
  • 차원 전기비저항 탐사자료의 획득에 널리 사용되는 roll-along 기법의 타당성과 효율성을 현재 통용되고 있는 쌍극자-쌍극자 배열법(dipole-dipole array) 과 베너 슐럼버저 (Wenner-Schlumberger array)배열법 의 경우에 대하여 수치 모델링을 통해 분석하였다 천부 정보를 상대적으로 많이 포함하고 있는 가단면도 상부에 위치한 자료들은 기법에 의한 자료의 누락이 없으므로 천부의 전기비저항 이상대는 두 배열법에서 모두 성공적으로 영상화되었다 그러나 비교적 심부에 위치한 이상대는 roll-along기법으로 야기되는 자료의 누락으로 인해 왜곡된 형태로 나타날 수 있으며 이 현상은 자료획득의 수평 범위가 상대적으로 빈약한 베너 슐럼버저 배열법에서 더 크게 나타나는 것으로 확인되었다 또한 실제 탐사에서 쌍극자 쌍극자 배열법은 S/N비가 낮아 유한한 전극 개수로 구현할 수 있는 최대전극전개계수($n_max$) 까지 전극을 전개할 수 없는 경우가 많은 이유로 roll-along기법으로 인한 자료의 누락이 적게 나타나지만 베너 슐럼버저 배열법의 경우에는 S/N비가 높아 ($n_max$)까지 전극을 전개하게 되어 자 료의 누락이 커지므로 역산 단면의 왜곡이 야기될 수 있는 것으로 분석되었다 따라서 동일한 기본전극간격 ($a$)과($n$)을 사용하였을 때 쌍극자 쌍극자 배열법보다 깊은 median depth(Edwards, 1977)를 제공하는 베너 슐럼버저 배열 법의 경우 roll-along기법에 의한 자료의 왜곡을 줄이고 효율적인 현장 작업을 위하여 ($n_max$)보다는 자료의 누락이 무시될 수 있는 ($n_prob$)을 기준으로 가탐심도에 적합한 를 결정한 후 측선 중첩구간이 전체 측선 길이의 3/4이 되도록 전극을 전진 배치하는 전극배열 방식이 추천되며 이는 수치 모델링을 통해 확인되었다.

  • PDF

결측 택시 Probe 통행속도 예측기법 개발에 관한 연구 (A Study on the Development of a Technique to Predict Missing Travel Speed Collected by Taxi Probe)

  • 윤병조
    • 대한토목학회논문집
    • /
    • 제31권1D호
    • /
    • pp.43-50
    • /
    • 2011
  • 택시 프로브(Probe)를 이용한 구간통행속도 모니터링체계는 지능형교통체계(ITS)의 핵심적인 하부시스템 중 하나이다. 택시 프로브기법을 통해 수집되는 구간통행속도는 도시가로망의 교통상태 모니터링과 통행시간 정보제공에 널리 활용되고 있다. 그러나 택시 Probe기법은 표본수가 적고 교통혼잡으로 인하여 구간통행시간이 자료수집 주기보다 큰 경우, 실시간으로 자료가 수집되지 않는 누락상태가 발생하게 된다. 이러한 누락상태는 단일시간대에서 다중시간대에 걸쳐 발생하게 되며, 기존의 단일시간대 예측기법으로는 다중시간대의 상태를 예측하지 못하는 단점이 있다. 따라서 다중시간대 누락상태에서 실시간 구간통행속도를 예측하기위한 기법이 요구된다. 본 연구에서는 기존의 단일시간대 예측기법의 한계를 극복하면서 단일 및 다중시간대 통행속도를 예측하기위한 기법을 개발하였다. 개발된 모형은 비모수회귀(NPR)을 기반으로 개발되었으며, 다중시간대 예측에도 불구하고 기존의 단일시간대 예측기법보다 우수한 정확도를 보였다.

GPS 교통 정보 누락 구간의 실시간 처리 기법에 관한 연구 (A Study on the Technique of Real-time Process for the Sections with Missed GPS Traffic Data)

  • 최진우;김태민;박원식;양영규
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2007년도 GIS 공동춘계학술대회 논문집
    • /
    • pp.177-182
    • /
    • 2007
  • 최근 텔레매틱스 분야에서 GPS 수신기를 장착한 probe car를 통해 교통 정보를 수집하는 방법에 대한 연구가 활발히 진행되고 있다. 이 방법은 기존에 교통 정보를 수집하기 위해 활용되고 있던 고정식 검지기들에 비해 수집되는 정보가 높은 신뢰성을 가지고, 도로 환경에 민감하지 않으며, 낮은 유지비용으로 운용할 수 있다는 장점을 가지고 있다. 하지만, probe car는 자신의 위치 정보를 교통 정보 센터로 전송해 주어야 하기 때문에 프라이버시가 노출될 수 있고, 주차되어 있는 시간에는 통행 정보를 보내줄 수가 없다. 이런 이유로 대중 교통차량이나 상업용 차량이 주로 probe car로 활용되어지게 되는데, 그 수가 많지 않을뿐더러 운행 구간이 고르게 분포되지 않아 probe car가 지나지 않는 구간, 즉 교통 정보 누락 구간이 존재할 수 있는 문제점을 가지고 있다. 본 논문에서는 교통 정보 누락 구간의 처리를 위해 과거의 이력 정보로 대체하는 방법, 주변 도로의 구간 정보로 예측하는 방법, 회귀 분석을 통한 예측 방법 등을 기술하고 실제 probe car들로 수집된 서울시 강남대로 구간의 자료로 각 방법에 대한 실험을 실시하여 각각의 방법에 대한 결과를 비교 분석한다.

  • PDF

도시홍수 모의를 위한 하수관망 자료 보정 알고리즘 개발 (Development of data supplementation algorithm of sewerage system for urban inundation modelling)

  • 이승수;안현욱
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.63-63
    • /
    • 2019
  • 최근 기후변화로 인한 도시지역 침수 피해를 저감하기 위한 다양한 연구가 수행되고 있으며 침수해석을 위한 기초자료로써 GIS 기반 하수관망 자료 활용의 중요성이 증대되고 있다. 그러나 이러한 하수관망 자료의 대부분은 지자체 수준의 행정단위에 의해 작성/관리 되고 있으며 하수관 망의 유지보수에 중점을 두어 제작되었기 때문에 침수해석을 위한 속성자료가 누락되어 있는 경우가 상당수 존재한다. 따라서 고유의 제작 목적과 침수해석이라는 활용 목적이 일치 하지 않아 속성 데이터 값이 존재하지 않거나 침수 모델링에 필요한 필수 정보가 누락되어 개별 연구자들이 별도의 보완작업을 수행한 후 침수해석에 활용하고 있는 실정이다. 이러한 개인연구자들의 주관적 판단에 의한 하수관망의 단순화 또는 보완작업은 상황에 따라 자료의 불확실성을 증대시키며 연구자의 숙련도와 배경지식에 따라 침수 해석 결과에 많은 영향을 미치고 있다. 따라서 GIS기반 하수관망 자료를 침수 모의에 활용 가능한 입력 자료로 변환 하는 경우 개별 연구자들의 주관적 개입이 최대한 배제된 형태의 자료를 만들기 위한 기본 알고리즘 개발이 시급한 상태이다. 본 연구에서는 서울시 사당역 인근 유역과 부산시 온천천 유역의 GIS 기반 하수관망 자료의 형식에 대해서 알아보고 누락 자료를 보완하기 위한 알고리즘을 개발하였다. 개발된 알고리즘을 활용하여 누락자료가 보완된 하수관망 자료는 향후 개별 연구자들의 주관적 판단을 배제하여 도시침수 해석 시 하수관망 자료의 불확실성을 최소화 하는데 기여할 수 있을 것으로 판단된다.

  • PDF