• 제목/요약/키워드: 데이터 비만도

검색결과 10,519건 처리시간 0.034초

통계모형의 정확도에 기반한 비식별화 데이터의 품질 측정 (Data Quality Measurement on a De-identified Data Set Based on Statistical Modeling)

  • 전희주;이현지;연규필;김동례
    • 한국콘텐츠학회논문지
    • /
    • 제19권5호
    • /
    • pp.553-561
    • /
    • 2019
  • 본 연구에서는 개인정보 비식별화 데이터의 통계적 유용성에 대한 품질 측정 방안에 대하여 통계 모형화에 따른 예측 정확도 측면에서 고찰하였다. 4차 산업혁명 시대에서 정보통신기술을 통한 혁신에는 반드시 빅데이터의 효과적인 활용이 필수적이지만, 개인정보 이슈는 적극적인 빅데이터 활용에 제약이 되고 있다. 이를 해결하기 위해 비식별화 가이드라인이 제정되었으며 다양한 개인정보 비식별화 방법이 활용되면서 개인정보의 실질적인 재식별 가능성은 매우 낮아졌다. 반면에 강력한 비식별화는 데이터의 유용성을 떨어뜨리는 부작용이 나타날 수 있다. 그 동안은 재식별 불가능한 비식별화 방법이 연구의 주를 이루어 왔다면 본 연구에서는 대표적인 비식별 방법인 KLT 모형에 의한 비식별화 데이터에 대한 통계적 유용성 측면의 품질 측정에 대하여 연구하였다. 비식별화 데이터에 대한 통계적 예측모형의 정확도에 기반하여 비식별화 된 데이터의 통계적 유용성이 어느 정도 훼손되는지에 대하여 사례분석을 수행하였다. 또한, 비식별 자료에 어느 정도의 비식별화 되지 않은 자료가 추가되어야 예측모형의 정확도를 회복하는 지를 살펴봄으로써 비식별화된 자료의 데이터 유용성 정도에 대한 새로운 측정지표를 제안하였다.

iSTORM에서의 공간 객체-관계 데이터 모델 (Spatial Object-Relational Data Model in iSTORM)

  • 박경현;남광우;박성희;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.24-26
    • /
    • 2000
  • 공간 데이터는 복합적인 속성들의 조합으로 이루어지며 연산 또한 복합적이라는 점에서 일반 데이터와 다른 특성을 갖는다. 따라서 공간 데이터는 일반 속성 데이터와 구별되는 파일이나 별도의 저장 구조를 사용하여 관리되어야 한다. 이것은 비공간 데이터와 공간 데이터간의 상호 동기화 문제와 트랜잭션의 처리 등에서 많은 문제점을 발생시키며 이를 해결하기 위해서는 공간 데이터와 비공간 데이터를 단일 데이터베이스화하여야 한다. 이 논문에서는 이러한 단일화된 데이터베이스 시스템을 지원하기 이한 공간 객체-관계 데이터 모델을 정의하고 이 모델을 구현하기 위한 타입 저장 방법들에 대해 기술한다.

  • PDF

NOD 데이터를 위한 새로운 버퍼링 기법 (New Data Buffering Scheme for News On Demand)

  • 박용운;백건효;서원일;김영주;정기동
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1997년도 학술대회
    • /
    • pp.173-179
    • /
    • 1997
  • 본 연구에서는 실시간 데이터와 비 실시간 데이터가 복합적으로 존재하는 뉴스 데이터에 적합하도록 버퍼 캐쉬를 실시간 데이터와 비 실시간 데이터 영역으로 분할 한 후, 로그 데이터를 이용하여 접근 가능성이 높은 실시간 뉴스데이터를 프리팻칭하여 둠으로써 실시간 뉴스 데이터의 운영을 효과적으로 할 수 있는 새로운 버퍼 캐쉬 알고리즘을 제안한다. 이 방식을 이용함으로써 전체 뉴스 요청 건수 중 30% 이상의 요청 건수들이 디스크를 접근하지 않고 버퍼의 데이터를 접근함으로써 버퍼링 기법을 사용하지 않은 경우보다 실시간 지원에 필요한 디스크 접근 수를 줄일 수 있다.

  • PDF

대학 취업정보시스템에서 데이터모델링 기본이론 경시에 관한 연구 (A Study on Negligence of Data Modeling Fundamentals at the University Job Information System)

  • 이혜경;김희완
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권8호
    • /
    • pp.139-150
    • /
    • 2014
  • 본 논문은 대학 취업정보시스템에서 데이터베이스 시스템이 얼마나 잘 운용되지 않는지 살펴보고자 하였다. 왜냐하면 현업에서는 데이터 디자인 기본 원칙에 미달하는 점들이 보이고 있기 때문이다. 다행히도 우리의 연구를 위해 대학취업지원 데이터베이스를 선택할 수 있었다. 본 연구에서는 현행 시스템으로써 대학 취업프로그램 이수시스템을 선택하였고 데이터 모델링에 있어서 기본 원칙을 엄격하게 따르는 새로운 대학취업지원 데이터베이스라는 이름으로 개발해 보았다. 기존의 대학취업지원 데이터베이스가 새로운 대학취업지원 데이터베이스에서 발견할 수 있는 표준 균형성으로부터 얼마나 기준에서 벗어나 있는지 비교해 볼 수 있었다. 데이터 비만도 관점에서 볼 때 기존의 대학취업지원 데이터베이스가 얼마나 많은 불필요한 데이터를 내포하고 있는지 계산해 보았다. 새로운 대학취업지원 데이터베이스는 불필요한 데이터를 전혀 포함하지 않았다. 즉, 데이터 모델을 형성하기 위해 필요한 데이터들만으로 구성되어 있다는 것을 의미한다. 그러나 기존의 대학취업지원 데이터베이스 시스템의 비만도는 50%가 넘었다. 그러므로 본 논문에서 제안한 새로운 대학취업지원 데이터베이스 시스템의 데이터 비만도가 19%로 나타나 기존의 시스템의 비만도가 37%나 높다는 것은 매우 중요한 차이인 것이다.

트랜스포머와 판별기를 이용한 비병렬 데이터의 텍스트 스타일 변환 (Text Style Transfer of Non-parallel Data using Transformer and Discriminator)

  • 박다솔;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.64-68
    • /
    • 2020
  • 텍스트 스타일 변환은 문장 내 컨텐츠는 유지하면서 문장의 스타일을 변경하는 것이다. 스타일의 정의가 모호하기 때문에 텍스트 스타일 변환에 대한 연구는 대부분 지도 학습으로 진행되어왔다. 본 논문에서는 병렬 데이터 구축이 되지 않은 데이터를 학습하기 위해 비병렬 데이터를 이용하여 스타일 변환을 시도한다. 트랜스포머 기반의 문장 생성기를 이용하여 문장을 생성하고, 해당 스타일을 분류하는 판별기로 이루어진 모델을 제안한다. 제안 모델을 통해, 감정 변환의 성능은 정확도(Accuracy) 56.9%, self-BLEU 0.393(긍정→부정), 0.366(부정→긍정), 유창성(fluency) 798.23(긍정→부정), 1381.05(부정→긍정)을 보였다. 본 연구는 비병렬 데이터에 대해 스타일 변환을 적용함으로써, 병렬 데이터가 없는 다양한 도메인에도 적용가능 할 것이다.

  • PDF

데이터 망각을 활용한 비휘발성 메모리 기반 파일 캐시 관리 기법 (Forgetting based File Cache Management Scheme for Non-Volatile Memory)

  • 강동우;최종무
    • 정보과학회 논문지
    • /
    • 제42권8호
    • /
    • pp.972-978
    • /
    • 2015
  • 비휘발성 메모리는 바이트 단위 접근과 비휘발성을 지원한다. 이러한 특성들은 비휘발성 메모리를 캐시, 메모리, 디스크와 같은 메모리 계층 구조 가운데 하나의 영역으로 사용을 가능케 한다. 비휘발성 메모리의 흥미로운 특성은 데이터 보존 기간이 실제로는 제한적인 기간을 가지고 있다는 것이다. 게다가 데이터 보존 기간과 쓰기 지연간의 트레이드오프가 존재 한다. 본 논문에서는 이를 활용하여 비휘발성 메모리를 파일 캐시로 사용하는 새로운 관리 기법을 제안한다. 제안하는 기법은 기존의 캐시 관리 기법과는 반대로 짧은 데이터 보존 시간으로 데이터를 저장하고 쓰기 성능을 개선한다. 제안하는 기법은 LRU 대비 평균 접근 지연 시간을 최대 31%, 평균 24.4%로 감소시킴을 보인다.

GMS: 공간 데이터베이스 관리 시스템 (GMS: Spatial Database Management System)

  • 박상근;박순영;정원일;김명근;배해영
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2003년도 공동 춘계학술대회 논문집
    • /
    • pp.217-224
    • /
    • 2003
  • 전통적인 관계형 데이터베이스 시스템에서 관리되고 있는 일반적인 데이터가 아닌 점, 선, 다각형 등의 다양한 공간 데이터를 관리하기 위해서는 확장된 형태의 공간데이터 타입 및 대용량성과 다양한 접근 패턴을 지니는 공간데이터의 특성을 고려한 새로운 데이터베이스 관리 시스템이 요구된다. 본 논문에서는 이와 같은 공간데이터의 특성을 고려한 저장 기법과 공간질의 처리기법을 제공하는 공간 데이터베1이스 관리 시스템인 GMS를 제안한다. GMS는 다양한 크기를 지니는 공간데이터의 특성을 고려하여 공간/비공간 통합 저장관리 및 BLOB 데이터 저장기법을 제공하며, 저장된 공간/비공간 데이터에 대한 다양한 색인기법을 제공하고 있다. 그밖에 공간 연산 및 복잡한 질의처리를 위해 확장된 질의 최적화 및 질의처리 기법을 제공하며, 다중 사용자를 위한 확장된 동시성 제어 기법과 공간/비공간 데이터에 대한 서로 다른 회복 기법을 제공한다.

  • PDF

뉴스 빅데이터 분석을 활용한 가뭄지수 재생산 (Reproduction of drought index using news big data analysis)

  • 정진홍;박동혁;안재현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.386-386
    • /
    • 2020
  • 가뭄은 강수, 증발산, 대기온도, 토양수분 등 다양한 수문기상학적 인자들이 복합적으로 작용하여 발생되기 때문에 가뭄의 정확한 사상을 분석하는 것은 매우 어렵다. 또한 어떤 요인을 중심으로 고려하느냐에 따라 가뭄은 다양한 시각으로 정의되고 있다. 일정기간 평균 강수량보다 적은 강수로 인해 건조한 날이 지속되는 것, 즉 기상요소를 중심으로 가뭄을 정의하는 것을 기상학적 가뭄이라 하며, 작물의 생육에 필요한 수분을 중심으로 고려하는 것을 농업적 가뭄이라 한다. 또한 하천유량, 댐 저수량 등 전반적인 수자원 공급원의 부족을 수문학적 가뭄이라 한다. 이와 같이 다양하게 나타는 가뭄의 발생특성을 정량적으로 해석하기 위해 다양한 가뭄지수가 개발되어 왔다. 그러나 현재까지 개발된 가뭄지수들은 공통적으로 정형데이터를 활용하여 산정한다. 하지만 최근에는 비정형데이터를 활용하여 지수(Index)를 산정하거나, 재난관리에 적용하는 등 비정형 데이터의 활용이 급증하고 있다. 따라서 본 연구에서는 비정형 데이터(뉴스 데이터)를 활용하여 가뭄지수를 산정하고 기존의 가뭄지수들과의 상관성 분석을 실시 한 뒤, 지수결합을 통해 가뭄사상 분석의 새로운 방안을 제시하고자 하였다. 본 연구의 공간적범위는 2014~2015 충남서북부가뭄 지역 중 가장 큰 피해를 입었던 보령지역으로 선정하였으며 시간적범위는 2013~2016년으로 설정하였다. 비정형 데이터의 구축은 크롤링(Crawling)을 활용하여 네이버 뉴스의 기사를 수집하였으며 자료의 신뢰성을 위해 URL이 동일한 중복기사 및 '보령', '가뭄' 단어가 없는 기사는 제거하였다. 구축된 데이터를 기반으로 월별 빈도를 산출하고 표준점수(Z-score)로 환산하여 가뭄지수를 산정하였다. 산정된 가뭄지수가 어떤 가뭄의 유형(기상학적, 농업적, 수문학적)을 보이는지 확인하기 위해 기존의 가뭄지수들과 상관성분석을 실시하였으며, 가장 높은 상관성을 보이는 가뭄지수와 결합을 통해 새로운 가뭄 사상을 분석하였다. 본 연구에서 진행한 가뭄사상 분석은 향후 가뭄만이 아니라 다양한 재난분야에서 비정형 데이터를 활용한 분석의 기초로자료로 활용될 수 있을 것이다.

  • PDF

머신러닝 편향성 관점에서 비식별화의 영향분석에 대한 연구 (A Study on Impacts of De-identification on Machine Learning's Biased Knowledge)

  • 하수현;김진송;손예은;원가은;최유진;박소연;김형종;강은성
    • 한국시뮬레이션학회논문지
    • /
    • 제33권2호
    • /
    • pp.27-35
    • /
    • 2024
  • 본고에서는 인공지능 모델 학습에 사용하는 데이터셋에 내재한 편향성이 인공지능 예측 결과에 미치는 영향을 분석함으로써, 위의 경우가 사회적 격차를 고착화시키는 문제를 조명하고자 하였다. 따라서 데이터 편향성이 인공지능 모델에 끼치는 영향을 분석하기 위해, 성별 임금 격차에 관한 편향이 포함된 원본 데이터셋을 제작하였으며 해당 데이터셋을 비식별 처리한 데이터셋을 만들었다. 또한 의사결정트리 알고리즘을 통해 원본 데이터셋과 비식별화 된 데이터셋을 학습한 각각의 인공지능 모델 간의 산출물을 비교함으로써, 데이터 비식별화가 인공지능 모델이 산출한 결과의 편향에 어떠한 영향을 미치는지 분석하였다. 이를 통해 데이터 비식별화가 개인정보 보호뿐만 아니라, 데이터의 편향에도 중요한 역할을 할 수 있음을 도출하고자 하였다.

비정형 파라메트릭 건축부재형성 및 BIM 데이터 변환 프로세스 모델에 관한 연구 (A Study on Evaluation Index of the Panelizing Optimization for Architectural Freeform Surfaces)

  • 유정원
    • 한국산학기술학회논문지
    • /
    • 제18권1호
    • /
    • pp.287-294
    • /
    • 2017
  • 국내 AEC 산업 분야에 2000 년대 중반부터 그 적극적인 도입이 시작된 BIM 기술은 최첨단 건축, 초대형 건축, 비정형 건축 등을 중심으로 그 도입이 가속화 되어 왔다. 건물 구축 기술의 부족으로 의해 완공률이 낮았던 비정형 건축물들이 BIM 기술의 도입으로 많은 구축 성공 사례가 생기면서 건축가들이 비정형 건축 설계에 활발히 도전하고 있다. 그러나 비정형 설계가 가능한 모델러들은 설계, 시공, 유지관리 등에서의 데이터 관리가 효율적인 BIM 데이터의 구축이 어렵다. 그러므로 본 연구에서는 비정형 모델러에서 생성된 건축 부재 데이터의 BIM 데이터로의 변환 프로세스를 제안하였다. 제안된 프로세스 모델은 비정형 건축 부재를 형성하기 위한 형성 조건 수신부, 건축부재 생성부, 그리고 BIM 데이터 생성부 세가지 부분으로 구성된다. 구체적으로는 NURBS 기반 모델러에서 비정형 슬라브, 기둥, 보 파라메트릭 건축 부재 형성과 BIM 도구로의 데이터 전이 및 BIM 건축 부재 데이터 형성을 위한 프로세스 모델을 제안하며, 이를 실현하기 위한 프로토타입 시스템이 구현되었다.