• 제목/요약/키워드: 빅데이터모델

검색결과 764건 처리시간 0.024초

A 은행 사례 분석을 통한 빅데이터 기반 자금세탁방지 시스템 설계 (A Study on Big Data Anti-Money Laundering Systems Design through A Bank's Case Analysis)

  • 김상완;함유근
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.85-94
    • /
    • 2016
  • 본 논문은 타 산업에 비해 상대적으로 빅데이터의 잠재 가치가 높은 금융권에서 사전 예방과 실시간 탐지가 특히 중요해지고 있는 자금세탁방지를 위한 빅데이터 기반의 시스템 구현 방안을 제시한다. 기존 A 은행의 사례 분석을 통해 현 자금세탁방지 업무에 빅데이터를 적용 가능한 부분과 기능들 논의한다. 연구 결과 빅데이터를 활용한 자금세탁방지 시스템은 기존의 자금세탁방지 시스템에 추가적으로 소셜 네트워크 서비스나 로그 파일 등의 다양한 출처로부터 데이터를 수집해 일부가 아닌 전체 데이터를 대상으로 빠른 속도로 거래 모니터링과 잠재적 위험 탐지가 가능하다. 즉 빅데이터 기반 자금세탁방지 시스템은 비정형 데이터인 소셜 네트워크 서비스 데이터와 기존 거래나 고객정보를 통합하고 소셜 네트워크 분석 방법을 적용하여 고객확인의무와 잠재 요주의 인물 탐지 기능을 제고시킬 수 있다. 또한 빅데이터 분석 인프라 하에서 룰 모델이나 거래패턴 스코어링 모델을 적용해 실시간으로 혐의 거래 적발이 가능하다.

  • PDF

공공데이터 기반 고용보험 가입 예측 모델 개발 연구 (A Development on a Predictive Model for Buying Unemployment Insurance Program Based on Public Data)

  • 조민수;김도현;송민석;김광용;정충식;김기대
    • 한국빅데이터학회지
    • /
    • 제2권2호
    • /
    • pp.17-31
    • /
    • 2017
  • 빅데이터의 중요성이 증가함에 따라 공공기관에서는 다양한 빅데이터 관련 인프라를 제공하고 있으며, 그 중 하나가 공공데이터이다. 공공데이터 기반의 다양한 활용 사례가 공유되고 있으며, 공공기관에서도 데이터 기반의 모델을 통해 공공의 문제를 해결하려는 움직임을 보이고 있다. 대표적으로 사회 보험 중 하나인 고용보험 케이스가 있다. 고용보험은 근로자의 권익 보호를 위해 근로자를 고용한 모든 사업주가 필수적으로 가입하여야 하는 보험이지만 가입누락의 경우가 많다. 가입누락을 막기 위한 데이터 기반의 접근이 필요하지만, 분산된 형태의 공공데이터, 수집 시기의 차이로 인해 데이터 통합이 어렵고, 체계적인 방법론이 부재한 상황이다. 본 논문에서는 공공데이터를 기반의 고용보험 가입 예측을 위한 모델 도출방법론을 제시하고자 한다. 본 방법론은 데이터 수집, 데이터 통합 및 전처리, 데이터 탐색 및 이력 데이터 분석, 예측 모델 도출을 포함하며, 프로세스 마이닝 및 데이터 마이닝을 활용한다. 또한, 사례 연구를 통해 본 방법론의 유효성을 검증한다.

  • PDF

빅데이터 분석을 이용한 기온 변화에 대한 판매량 예측 모델 (Sales Volume Prediction Model for Temperature Change using Big Data Analysis)

  • 백승훈;오지연;이지수;홍준기;홍성찬
    • 한국빅데이터학회지
    • /
    • 제4권1호
    • /
    • pp.29-38
    • /
    • 2019
  • 본 연구에서는 판매량 증대와 효율적인 재고 관리를 위해 지난 5년간 온라인 쇼핑몰 'A'에서 누적된 빅데이터를 활용하여 기온 변화에 따른 반팔 티셔츠와 아우터웨어(outer wear)의 판매량을 예측하는 판매 예측 모델을 제안한다. 제안한 모델은 2014년부터 2017년도까지 기온 변화에 따른 반팔 티셔츠와 아우터웨어의 판매량을 분석하여 2018년 기온 변화에 따른 반팔티셔츠와 아우터웨어의 판매량을 예측한다. 제안한 판매 예측 모델을 사용하여 반팔티셔츠와 아우터웨어의 판매량 예측값과 실제 2018년 판매량을 비교 분석한 결과 반팔티셔츠와 아우터웨어의 예측 오차율은 각각 ±1.5%와 ±8%를 나타내었다.

  • PDF

빅데이터 분산처리시스템의 품질평가모델 (A Quality Evaluation Model for Distributed Processing Systems of Big Data)

  • 최승준;박제원;김종배;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.533-545
    • /
    • 2014
  • IT기술이 발전함에 따라, 우리가 접하는 데이터의 양은 기하급수적으로 늘어나고 있다. 이처럼 방대한 데이터들을 분석하고 관리하기 위한 기술로 등장한 것이 빅데이터 분산처리시스템이다. 기존 분산처리시스템에 대한 품질평가는 정형 데이터 중심의 환경을 바탕으로 이루어져 왔다. 그러므로, 이를 비정형 데이터 분석이 핵심인 빅데이터 분산처리시스템에 그대로 적용시킬 경우, 정확한 품질평가가 이루어질 수 없다. 따라서, 빅데이터 분석 환경을 고려한 분산처리시스템의 품질평가모델에 대한 연구가 필요하다. 본 논문에서는 소프트웨어 품질에 관한 국제 표준인 ISO/IEC9126에 근거하여 빅데이터 분산처리 시스템에서 요구되는 품질평가 요소를 도출하고, 이를 측정하기 위한 메트릭을 정의함으로써 새로이 품질평가모델을 제안한다.

의료기기에서 생성되는 사운드 생체신호 분석을 위한 빅데이터 플랫폼 설계 (Design of Big Data Platform for Sound Bio-Signal Analysis from Medical Devices)

  • 고광만;김성진;신정훈;윤희선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.932-933
    • /
    • 2014
  • 최근에는 의료 빅데이터 분야에서 의료기기, 의료전문가로부터 생성 또는 감지되는 사운드 생체신호(심장박동, 호흡, 맥박, 진맥) 데이터의 특징을 디지털 데이터로 추출하여 패턴 데이터로 변환한 후, 이를 빅데이터 분석 플랫폼 기반으로 분석하여 진료, 처방, 예방 등에 유용한 정보를 생성하는 모델 구축 연구가 활성화되고 있다. 본 논문에서는 사운드 생체신호 특징을 디지털 데이터로 추출하여 (주)리아컴즈 NeoQubit 빅데이터 플렛폼을 기반으로 패턴 데이터를 분석하고 예측할 수 있는 모델을 제시한다.

빅데이터 분석 및 예측을 위한 멀티모델 태풍 시뮬레이션 (Multi-model Typhoon Simulation for Big Data Analysis and Prediction)

  • 강지순;육진희;조민수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.291-292
    • /
    • 2017
  • 한국과학기술정보연구원 융합기술연구본부 재난대응HPC연구센터에서는 초고성능컴퓨팅 기반의 풍수해 예측 및 피해 정보 생산기술을 연구개발하여 재난 재해에 대한 국가현안 대응 의사결정지원 시스템을 구축 중에 있다. HPC 기반의 풍수해 예측 시스템과 빅데이터 분석 기반의 피해 예측 시스템에 대한 연구를 독자적으로 진행하는 가운데, 최근 여러 분야에 적용되고 있는 빅데이터 분석 기술을 HPC 기반의 풍수해 예측 시스템에 적목시켜 더 정확하고 신속한 풍수해 예측 정보 생산에 기여하고자 한다. 본 연구는 빅데이터 분석을 위한 학습 데이터 생산을 목적으로 HPC 기반 태풍 예측의 주요 기상 인자들을 조정하여 서로 다른 성능의 예측 모델을 구축하고, 각 모델 별 태풍 시뮬레이션의 성능을 진단하였다. 향후 빅데이터 분석을 통한 예측 성능의 검증을 위해 HPC 기반 풍수해 예측 및 검증 데이터를 최대한 생산하고자 한다.

  • PDF

머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구 (A Study on Automation of Big Data Quality Diagnosis Using Machine Learning)

  • 이진형
    • 한국빅데이터학회지
    • /
    • 제2권2호
    • /
    • pp.75-86
    • /
    • 2017
  • 본 연구에서는 빅데이터의 품질을 진단하는 방법을 자동화하는 방법을 제안하고 있다. 빅데이터의 품질진단을 자동화해야 하는 이유는 4차 산업혁명이 이슈화 되면서 과거보다 더 많은 볼륨의 데이터를 발생시키고 이 데이터들을 활용 하려는 요구가 증가하기 때문이다. 데이터는 급증하지만 데이터의 품질을 진단하기 위해 많은 시간이 소비된다면 데이터를 활용하기 위해 많은 시간이 걸리거나 데이터의 품질이 낮아질 수 있다. 그러면 이러한 낮은 품질의 데이터로부터 의사결정이나 예측을 한다면 그 결과 또한 잘못된 방향을 제시할 것이다. 이러한 문제를 해결하기 위해 많은 데이터를 신속하게 진단하고 개선할 수 있는 머신러닝 이용한 빅데이터 품질 향상을 위한 진단을 자동화 할 수 있는 모델을 개발하였다. 머신러닝을 이용하여 도메인 분류 작업을 자동화하여 도메인 분류 작업 시 발생할 수 있는 오류를 예방하고 작업 시간을 단축시켰다. 연구 결과를 토대로 데이터 변환의 중요성, 학습되지 않은 데이터에 대한 학습 시킬 수 있는 방안 모색, 도메인별 분류 모델을 개발에 대한 연구를 지속적으로 진행한다면 빅데이터를 활용하기 위한 데이터 품질 향상에 기여할 수 있을 것이다.

  • PDF

빅데이터 환경에서 개인정보 비식별화에 대한 위험성 제기 및 대응 방안 제시 (Raising Risk and Suggesting Solution about Personal Information De-identification in Big-Data Environment)

  • 이수림;장웅태;배재영;신찬호;현범수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.297-300
    • /
    • 2016
  • 최근 빅데이터 산업이 발전하고 있는 상황에서 빅데이터 산업에 활용되는 개인정보의 보호에 관한 문제가 대두하고 있다. 빅데이터 산업에서 개인정보를 활용하기 위해서는 비식별화 조치를 해야 한다. 하지만 비식별화는 비식별화 평가 모델 자체의 취약성과 더불어 비식별화된 개인정보를 재식별화 하는 위험성도 존재한다. 본 논문은 적정성 평가 모델, 비식별화 조치 기술, 재식별에 관한 위험성을 연구하고 각 위험성에 대한 대응 방안을 통해 재식별화의 문제를 해결하여 빅데이터 산업에서 비식별화된 개인정보가 안전히 쓰일 수 있도록 해야 한다.

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF

데이터 자산 가치 평가 모델 리뷰 (Data Asset Valuation Model Review)

  • 김옥기;박정;박천웅;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권1호
    • /
    • pp.153-160
    • /
    • 2021
  • 본 연구는 기업이나 기관에서 보유한 데이터의 가치 평가에 가장 많이 활용되는 소득(이익) 접근 모델의 선행 연구를 조사하고 모델의 핵심요인과 데이터 자산 가치 평가 과정의 고려사항에 대해 논의하였다. 이를 통해 데이터 자산의 공유가능성, 활용기간이 다른 기업의 자산들과 다른 특성이 있음을 규명하였다. 또한 데이터의 가치는 품질의 영향을 크게 받기에 데이터의 적시성, 정확성과 같은 다양한 관점을 검토해야하며, 사용자의 용도와 사용능력 및 가치 사슬을 총체적으로 검토하여 데이터 자산의 가치를 평가해야 함을 도출하였다. 향후 연구방향으로는 실제 현업에 적용되어야 할 모델에 대한 지속적인 연구개발 및 회계법 개정을 제언하였다.