• 제목/요약/키워드: 다차원 데이터 생성

검색결과 105건 처리시간 0.027초

교통이력 데이터의 품질 개선과 What-If 분석을 위한 자료처리 기법의 구현 (Implementation of a Data Processing Method to Enhance the Quality and Support the What-If Analysis for Traffic History Data)

  • 이민수;정수정;최옥주;맹보연
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.87-102
    • /
    • 2010
  • 현재 우리나라에서는 매일 막대한 양의 교통 데이터가 측정장치들로부터 수집되고 있으나 오류 데이터와 누락된 데이터들이 상당히 많은 실정이다. 더구나 이러한 데이터는 중요한 분석의 대상이 될 수 있음에도 불구하고 일정 시간이 지나면 삭제되고 있다. 그리하여 본 논문에서는 이러한 교통 데이터를 지속적으로 누적하여 다차원 모델로 저장하면서 데이터의 품질을 결정하는 유효성과 완전성을 높이면서 what-if 분석 기능을 지원하는 일련의 자료처리 과정을 제공하는 통합 교통이력 데이터베이스 시스템의 구현을 설명한다. 구현된 시스템에서는 다양한 오류 및 누락 데이터 패턴들을 보정하는 기법들을 제공하며, what-if 분석 기능은 다양한 데이터 정제 및 가공 과정들에 관련된 환경변수와 일련의 처리 과정들의 조합을 융통성 있게 정의하도록 함으로써 다양한 상황들을 가정하고 실험하여 결과를 분석할 수 있게 해준다. 이러한 what-if 분석 기능은 교통 데이터의 활용도를 획기적으로 높여주며 외국의 교통데이터 시스템들에서도 제공하지 못하고 있다. 교통이력데이터를 정제한 실험결과 매우 우수한 유효성 및 완전성을 가진 교통 데이터를 생성함을 확인하였다.

다차원기반 고정밀 공간영상정보 시스템 구축에 관한 연구 (Developing A Multi-dimensional Spatio-visual Information System)

  • 김미연;여욱현;최진원
    • 한국측량학회지
    • /
    • 제27권6호
    • /
    • pp.649-658
    • /
    • 2009
  • 최근 지능형 미래의 도시공간구축을 위해 유비쿼터스 개념을 적용한 u-City, u-Ecocity 등의 새로운 도시계획의 패러다임의 등장은 도시영역에 대한 고품질의 3차원 공간정보를 필요로 하고 있다. 최신 GIS응용 기술을 기반으로 하여 3차원으로 모델링된 도시 규모의 방대한 영역에 대한 다양한 형식의 공간정보를 통합하여 가시화 및 공간정보 검색 및 분석, 평가를 위한 솔루션을 포함하는 다차원 공간영상정보 시스템을 구축하고자 하는 것이 목적이다. 기존의 3차원 도시모델링의 한계를 극복하기 위한 방안으로 항공 라이다(LiDAR) 데이터를 이용하여 실사용자들의 요구사항을 충분히 반영할 수 있도록 시스템의 활용도를 높여 도시 시설물의 고품질, 고해상도의 현실감있는 3차원 가상 도시환경 구축을 목표로 공간정보의 통합, 가시화, 활용기능 생성을 연구의 범위로 한다. 속성 및 기호로 구성된 표준형식의 공간정보에 위성영상 및 항공사진을 매쉬업하여 실제 세계와 최대한 흡사한 가상의 도시환경을 재현하여 조망 및 일조권 분석은 물론 도시의 각종 행정업무 및 의사결정을 지원할 수 있는 분석기능과 활용기능을 제공할 수 있도록 구축한다.

의미적 계층정보를 반영한 단어의 분산 표현 (Distributed Representation of Words with Semantic Hierarchical Information)

  • 김민호;최성기;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.941-944
    • /
    • 2017
  • 심층 학습에 기반을 둔 통계적 언어모형에서 가장 중요한 작업은 단어의 분산 표현(Distributed Representation)이다. 단어의 분산 표현은 단어 자체가 가지는 의미를 다차원 공간에서 벡터로 표현하는 것으로서, 워드 임베딩(word embedding)이라고도 한다. 워드 임베딩을 이용한 심층 학습 기반 통계적 언어모형은 전통적인 통계적 언어모형과 비교하여 성능이 우수한 것으로 알려져 있다. 그러나 워드 임베딩 역시 자료 부족분제에서 벗어날 수 없다. 특히 학습데이터에 나타나지 않은 단어(unknown word)를 처리하는 것이 중요하다. 본 논문에서는 고품질 한국어 워드 임베딩을 위하여 단어의 의미적 계층정보를 이용한 워드 임베딩 방법을 제안한다. 기존연구에서 제안한 워드 임베딩 방법을 그대로 활용하되, 학습 단계에서 목적함수가 입력 단어의 하위어, 동의어를 반영하여 계산될 수 있도록 수정함으로써 단어의 의미적 계층청보를 반영할 수 있다. 본 논문에서 제안한 워드 임베딩 방법을 통해 생성된 단어 벡터의 유추검사(analog reasoning) 결과, 기존 방법보다 5%가 증가한 47.90%를 달성할 수 있었다.

암호화 데이터를 위한 힐버트 커브 기반 다차원 색인 키 생성 및 질의처리 알고리즘 (Hilbert-curve based Multi-dimensional Indexing Key Generation Scheme and Query Processing Algorithm for Encrypted Databases)

  • 김태훈;장미영;장재우
    • 한국멀티미디어학회논문지
    • /
    • 제17권10호
    • /
    • pp.1182-1188
    • /
    • 2014
  • Recently, the research on database outsourcing has been actively done with the popularity of cloud computing. However, because users' data may contain sensitive personal information, such as health, financial and location information, the data encryption methods have attracted much interest. Existing data encryption schemes process a query without decrypting the encrypted databases in order to support user privacy protection. On the other hand, to efficiently handle the large amount of data in cloud computing, it is necessary to study the distributed index structure. However, existing index structure and query processing algorithms have a limitation that they only consider single-column query processing. In this paper, we propose a grid-based multi column indexing scheme and an encrypted query processing algorithm. In order to support multi-column query processing, the multi-dimensional index keys are generated by using a space decomposition method, i.e. grid index. To support encrypted query processing over encrypted data, we adopt the Hilbert curve when generating a index key. Finally, we prove that the proposed scheme is more efficient than existing scheme for processing the exact and range query.

마켓 인사이트를 위한 상품 리뷰의 다차원 분석 방안 (Multi-Dimensional Analysis Method of Product Reviews for Market Insight)

  • 박정현;이서호;임규진;여운영;김종우
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.57-78
    • /
    • 2020
  • 인터넷의 발달로, 소비자들은 이커머스에서 손쉽게 상품 정보를 확인한다. 이때 활용되는 상품 리뷰는 사용자 경험을 토대로 작성되어 구매의사결정의 효율성을 높일 뿐만 아니라 상품 개발에 도움을 주기도 한다. 하지만, 방대한 양의 상품 리뷰에서 관심있는 평가차원의 세부내용을 파악하는 데에는 많은 시간과 노력이 소비된다. 예를 들어, 노트북을 구매하려는 소비자들은 성능, 무게, 디자인과 같은 평가차원에 대해 각 차원별로 비교 상품의 평가를 확인하고자 한다. 따라서 본 논문에서는 상품 리뷰에서 다차원 상품평가 점수를 자동적으로 생성하는 방안을 제안하고자 한다. 본 연구에서 제시하는 방안은 크게 2단계로 구성된다. 사전준비 단계와 개별상품평가 단계로, 대분류 상품군 리뷰를 토대로 사전에 생성된 차원분류모델과 감성분석모델이 개별상품의 리뷰를 분석하게 된다. 차원분류모델은 워드임베딩과 연관분석을 결합함으로써 기존 연구에서 차원과 단어들의 관련성을 찾기 위한 워드임베딩 방식이 문장 내 단어의 위치만을 본다는 한계를 보완한다. 감성분석모델은 정확한 극성 판단을 위해 구(phrase) 단위로 긍부정이 태깅된 학습데이터를 구성하여 CNN 모델을 생성한다. 이를 통해, 개별상품평가 단계에서는 구 단위의 리뷰에 준비된 모델들을 적용하고 평가차원별로 종합함으로써 다차원 평가점수를 얻을 수 있다. 본 논문의 실험에서는 대분류 상품군 리뷰 약 260,000건으로 평가모델을 구성하고, S사와 L사의 노트북 리뷰 각 1,011건과 1,062건을 실험데이터로 활용한다. 차원분류모델은 구로 분해한 개별상품 리뷰를 6개 평가차원으로 분류했고, 기존 워드임베딩 방식보다 연관분석을 결합한 모델의 정확도가 13.7% 증가했음을 볼 수 있었다. 감성분석모델은 문장보다 구 단위로 학습한 모델이 평가차원을 면밀히 분석함으로써 29.4% 더 높은 정확도를 보임을 확인했다. 본 연구를 통해 판매자, 소비자 모두가 상품의 다차원적 비교가 가능하다는 점에서 구매 및 상품 개발에 효율적인 의사결정을 기대할 수 있다.

센서 네트워크에서 연속 스카이라인 질의 처리를 위한 상향식 필터링 투플 선정 방법 (A Bottom up Filtering Tuple Selection Method for Continuous Skyline Query Processing in Sensor Networks)

  • 선진호;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제36권4호
    • /
    • pp.280-291
    • /
    • 2009
  • 스카이라인 질의 처리는 센서 네트워크 응용에서 다차원 데이터를 효과적으로 활용할 수 있어서 그 역할이 중요하다. 센서 네트워크는 배터리 제약 사항을 가지고 있기 때문에, 센서 네트워크에서의 스카이라인에 관한 연구는 에너지 소비를 최소화 하는데 그 목표를 두고 있다. 이를 위해 기존연구에서 필터링 기법이 제안되었다. 하지만 기존 필터링 기법은 일회성 질의에 초점을 맞추고 있고, 상위 노드의 정보만을 활용하기 때문에 그 성능의 한계가 있다. 본 논문에서는 연속스카이라인 질의 처리를 위한 상향식 필터링 투플 선정 방법을 제안한다. 하위노드에서 생성된 이전 스카이라인 정보를 각 센서노드에 저장하고, 필터링 투플 선정에 활용함으로써 불필요한 데이터 통신을 감소시킬 수 있다, 이와 더불어 추가 필터링 투플을 선택할 때 사용될 수 있는 SFT(Support Filtering Tuple)방법을 제안한다. 센서 데이터의 경우, 이전 센싱된 데이터와 현재 데이터 간의 시간 관계성(temporal correlation)의 특징을 갖고 있다. SFT 방법은 저장된 과거 데이터를 기반으로 현재데이터를 예측하여 추가 필터링 투플을 선정하여 필터링 성능을 향상시킨다. 실험 결과를 통해, 제안하는 방법들이 기존 방법에 비해 데이터 감소율과 총 통신량 측면에서 효율적임을 보여준다.

클래스 영역의 다차원 구 생성에 의한 프로토타입 기반 분류 (Prototype based Classification by Generating Multidimensional Spheres per Class Area)

  • 심세용;황두성
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.21-28
    • /
    • 2015
  • 본 논문에서는 최근접 이웃 규칙을 이용한 프로토타입 선택 기반 분류 학습을 제안하였다. 각 훈련 데이터가 대표하는 클래스 영역을 구(sphere)로 분할하는데 최근접 이웃 규칙을 적용시키며, 구의 내부는 동일 클래스 데이터들만 포함하도록 한다. 프로토타입은 구의 중심점이며 프로토타입의 반지름은 가장 인접한 다른 클래스 데이터와 가장 먼 동일 클래스 데이터의 중간 거리 값으로 결정한다. 그리고 전체 훈련 데이터를 대표하는 최소의 프로토타입 집합을 선택하기 위해 집합 덮개 최적화를 이용하여 프로토타입 선택 문제를 변형시켰다. 제안하는 프로토타입 선택 방법은 클래스 별 적용이 가능한 그리디 알고리즘으로 설계되었다. 제안하는 방법은 계산 복잡도가 높지 않으며, 대규모 훈련 데이터에 대한 병렬처리의 가능성이 높다. 프로토타입 기반 분류 학습은 선택된 프로토타입 집합을 새로운 훈련 데이터 집합으로 사용하고 최근접 이웃 규칙을 적용하여 테스트 데이터의 클래스를 예측한다. 실험에서 제안하는 프로토타입 기반 분류기는 최근접 이웃 학습, 베이지안 분류 학습과 다른 프로토타입 분류기에 비해 일반화 성능이 우수하였다.

교육 데이터를 활용한 정보시스템 설계와 구현 (Design and Implementation of Information System Based on Educational Data)

  • 장용수;조재희
    • 한국콘텐츠학회논문지
    • /
    • 제17권6호
    • /
    • pp.436-451
    • /
    • 2017
  • 초 중등학교에서는 교육활동 과정에서 생성된 성적 자료, 관찰 상담 자료, 심리검사 자료 등의 다양한 정보를 여러 형태로 축적하여 관리하고 있다. 그럼에도 불구하고 학생들을 다차원적으로 진단하고 파악하는 데 필요한 분석정보를 제공하는 교육용 정보시스템은 존재하지 않는다. 이것은 마치 환자에 대한 각종 검사 결과가 있음에도 불구하고, 의사가 임상 경험에만 의존하여 환자를 진료하는 상황을 연상시킨다. 교육부가 '제5차 교육정보화 기본계획(2014~2018)'의 '교육 빅데이터 활용 활성화 대책'에서 지적하였듯이, 교육용 정보시스템이 존재하지 않는 이유는 아직 이 분야에 대한 기초 연구뿐만 아니라 종합적이고 체계적인 연구가 부족하기 때문이다. 따라서 이 연구의 목적은 다양한 분야에서 활용되고 있는 분석정보시스템의 개념을 교육 분야에 도입하여 맞춤형 학생지도를 가능하게 하는 교육용 정보시스템을 설계하고 프로토타입을 구현하는 것이다. 이를 위해 직무분석과 표적집단면접조사를 통해 교육용 정보시스템의 핵심 기능과 내용을 정의하였으며, 네이버 프로토나우를 사용하여 프로토타입을 구현하였다.

임의의 부분 노이즈제거를 지원하는 윤곽선 매칭의 색인 구축 방법 (An Index-Building Method for Boundary Matching that Supports Arbitrary Partial Denoising)

  • 김범수
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1343-1350
    • /
    • 2019
  • 윤곽선 이미지를 시계열로 변환하는 작업은 빠르고 상호작용 방식이 매우 중요한 대용량 이미지 데이터베이스에서도 윤곽선 매칭 수행을 가능 할 수 있게 만든다. 최근 연구에서는 윤곽선 이미지를 시계열 데이터로 변환하여 부분 노이즈제거를 고려하면서 빠르게 매칭을 수행하려는 시도가 있었다. 본 논문에서는 성능 향상을 위해 임의의 노이즈제거를 위해 임의의 모든 노이즈제거 매개 변수를 고려한 색인 구축 방법을 제안한다. 이는 가능한 모든 노이즈제거 매개 변수에 따른 부분 노이즈제거를 고려해야하기 때문에 어려운 문제이다. 본 논문에서는 다차원 색인인 R*-tree를 사용하여 모든 가능한 노이즈제거 매개 변수에 의한 최소 경계 영역(MBR)을 구성하여 효율적인 단일 생성 알고리즘을 제안한다. 다양한 실험 결과, 제안한 색인 기반 매칭 방법은 검색 성능을 최대 46.6 ~ 4023.6 배나 향상시킨다.

태풍대응을 위한 격자 기반 공간정보 활용방안 연구 (A Study on the Use of Grid-based Spatial Information for Response to Typhoons)

  • 황병주;이준우;김동은;김장욱
    • 한국재난정보학회 논문집
    • /
    • 제17권1호
    • /
    • pp.25-38
    • /
    • 2021
  • 연구목적: 지속적으로 발생하는 태풍의 피해를 감소시키기 위해 태풍대응의 예방·대비 단계에서 적극적으로 활용할 수 있도록 표준화된 격자의 활용방안을 제안하였다. 태풍위험지역에 대한 격자 융합정보를 시범적으로 생성함으로써 태풍대응을 위한 격자의 실효성을 확인한다. 연구방법: 태풍 상황대응 시 유용하게 사용될 수 있는 태풍 위험지역에 대한 융합정보를 생성하기 위해 vector, raster 등 다양한 형태의 원천데이터를 사용하여 세밀한 공간 단위로 태풍 위험지역 격자 정보를 구축하였다. 기구축된 정보들과의 호환성 및 각 지자체별로 생성되는 격자 정보의 호환성을 위해 표준화된 격자모델을 적용하였다. 연구결과: 국가지점번호의 격자체계를 적용하여 태풍상황대응시 유용하게 활용될 수 있는 태풍위험지역 격자를 구축하였다. 국가지점번호 격자체계는 다차원 계층구조의 격자크기를 정의하고 있으며, 100m와 1,000m 크기의 격자를 활용하여 서울지역 태풍위험지역 격자를 구축하였다. 결론: 다양하고 조밀한 공간정보를 하나의 격자정보로 융합하여 가시화함으로써 재난 의사결정을 위한 정보의 단순화를 통해 신속한 재난대응을 지원할 수 있다.