• Title/Summary/Keyword: 데이터 확장성 문제

Search Result 425, Processing Time 0.032 seconds

Clustering-based Collaborative Filtering Using Genetic Algorithms (유전자 알고리즘을 이용한 클러스터링 기반 협력필터링)

  • Lee, Soojung
    • Journal of Creative Information Culture
    • /
    • v.4 no.3
    • /
    • pp.221-230
    • /
    • 2018
  • Collaborative filtering technique is a major method of recommender systems and has been successfully implemented and serviced in real commercial online systems. However, this technique has several inherent drawbacks, such as data sparsity, cold-start, and scalability problem. Clustering-based collaborative filtering has been studied in order to handle scalability problem. This study suggests a collaborative filtering system which utilizes genetic algorithms to improve shortcomings of K-means algorithm, one of the widely used clustering techniques. Moreover, different from the previous studies that have targeted for optimized clustering results, the proposed method targets the optimization of performance of the collaborative filtering system using the clustering results, which practically can enhance the system performance.

Development of Clustering Algorithm based on Massive Network Compression (대용량 네트워크 압축 기반 클러스터링 알고리즘 개발)

  • Seo, Dongmin;Yu, Seok Jong;Lee, Min-Ho
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.53-54
    • /
    • 2016
  • 빅데이터란 대용량 데이터 활용 및 분석을 통해 가치 있는 정보를 추출하고, 이를 바탕으로 대응 방안 도출 또는 변화를 예측하는 기술을 의미한다. 그리고 빅데이터 분석에 활용되는 데이터인 페이스북과 같은 소셜 데이터, 유전자 발현과 같은 바이오 데이터, 항공망과 같은 지리정보 데이터들은 대용량 네트워크로 구성되어 있다. 네트워크 클러스터링은 서로 유사한 특성을 갖는 네트워크 내의 데이터들을 동일한 클러스터로 묶는 기법으로 네트워크 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 빅데이터가 다양한 분야에서 활용되면서 방대한 양의 네트워크 데이터가 생성되고 있고, 이에 따라서 대용량 네트워크 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. MCL(Markov Clustering) 알고리즘은 플로우 기반 무감독(unsupervised) 클러스터링 알고리즘으로 확장성이 우수해 다양한 분야에서 활용되고 있다. 하지만, MCL은 대용량 네트워크에 대해서는 많은 클러스터링 연산을 요구하며 너무 많은 클러스터를 생성하는 문제를 갖는다. 본 논문에서는 네트워크 압축을 기반으로 한 클러스터링 알고리즘을 제안함으로써 MCL보다 클러스터링 속도와 정확도를 향상시켰다. 또한, 희소행렬을 효율적으로 저장하는 CSC(Compressed Sparse Column) 자료구조와 MapReduce 기법을 제안한 클러스터링 알고리즘에 적용함으로써 대용량 네트워크에 대한 클러스터링 속도를 향상시켰다.

  • PDF

An Efficient Transmission Scheme for Real-Time VBR Data with Extended IEEE-1394 Isochronous Channel (IEEE-1394 등시성 채널을 확장한 효율적인 실시간 VBR 데이터 전송 기법)

  • 강성일;이흥규
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10c
    • /
    • pp.605-607
    • /
    • 1999
  • 직렬 버스는 예약 대역폭을 보장해 주는 등시성 전송모드를 제공하고 있지만 실시간 가변비트율(VBR)의 데이터를 전송할 경우 많은 대역폭이 낭비되는 문제점을 가지고 있다. 본 논문은 이러한 문제를 개선하기 위하여 예약된 등시성 전송에는 영향을 주지 않으면서 남아있는 가용 등시성 대역폭을 이용하여 실시간 VBR 데이터를 효과적으로 전송하는 기법에 대한 것이다. 제안된 전송기법의 유용성을 확인하기 위하여 자체 개발한 1394 버스 시뮬레이터상에서 다수의 MPEG 비디오 데이터를 가지고 실험을 하였다. 실험 결과, 제안기법을 사용할 경우 전송 지연을 발생시키지 않고 등시성 대역폭을 평균 비트율 수준까지 낮추어 할당할 수 있음을 확인하였다.

  • PDF

서포터벡터학습의 효율적 알고리즘

  • Seok, Gyeong-Ha
    • Journal of the Korean Data and Information Science Society
    • /
    • v.12 no.2
    • /
    • pp.95-102
    • /
    • 2001
  • 최적의 SVM 가중치를 선택하는 방법 중에서 메모리와 속도의 문제를 해결하는 방법 중 하나가 커널애더트론 방법(Kernel Adatron, KA)이다. 본 연구에서는 KA방법을 제곱무감각손실함수까지 확장을 한 알고리즘을 개발한다. 그리고 추정해야 될 라그랑제 배수(Lagrange multiplier)의 수를 반으로 줄이는 알고리즘을 제시한다. 그리고 제시된 알고리즘의 효율성을 여러 모의실험을 통해서 입증한다.

  • PDF

Design and Implementation of RDBMS-based Management of Hadoop Metadata (RDBMS 기반 하둡 메타데이터 관리의 설계 및 구현)

  • Son, Siwoon;Yang, Seokwoo;Gil, Myeong-Seon;Moon, Yang-Sae;Nguyen, Minh Chau;Won, Hee-Sun
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1193-1195
    • /
    • 2015
  • 최근 빅데이터 문제를 해결하기 위해 하둡의 사용이 급증하였다. 하둡은 다수의 노드에 데이터를 분산 저장 및 처리하며, 이를 위해 모든 메타데이터를 네임노드에서 관리한다. 기존 하둡은 모든 메타데이터를 메모리 상에서 관리하며, 변경 이력을 로컬 파일 시스템에서 별도의 파일로 관리한다. 이 방법에서는 데이터의 증가 및 하둡 에코시스템의 확장 등의 이유로 관리되어야 할 메타데이터가 크게 증가하며, 이는 곧 네임노드의 메모리 부하를 높이는 문제가 있다. 본 논문은 이러한 인메모리 기반의 하둡 메타데이터 관리 구조를 RDBMS 기반으로 수정하도록 설계 및 구현한다. 그리고 하둡의 모든 명령어에 대한 테스트를 작성하여 본 연구의 적정성을 검토하였다. 본 논문은 네임노드의 부하를 줄임으로써 하둡의 안정성을 높이는 좋은 연구 결과라 사료된다.

Question Answering Optimization via Temporal Representation and Data Augmentation of Dynamic Memory Networks (동적 메모리 네트워크의 시간 표현과 데이터 확장을 통한 질의응답 최적화)

  • Han, Dong-Sig;Lee, Chung-Yeon;Zhang, Byoung-Tak
    • Journal of KIISE
    • /
    • v.44 no.1
    • /
    • pp.51-56
    • /
    • 2017
  • The research area for solving question answering (QA) problems using artificial intelligence models is in a methodological transition period, and one such architecture, the dynamic memory network (DMN), is drawing attention for two key attributes: its attention mechanism defined by neural network operations and its modular architecture imitating cognition processes during QA of human. In this paper, we increased accuracy of the inferred answers, by adapting an automatic data augmentation method for lacking amount of training data, and by improving the ability of time perception. The experimental results showed that in the 1K-bAbI tasks, the modified DMN achieves 89.21% accuracy and passes twelve tasks which is 13.58% higher with passing four more tasks, as compared with one implementation of DMN. Additionally, DMN's word embedding vectors form strong clusters after training. Moreover, the number of episodic passes and that of supporting facts shows direct correlation, which affects the performance significantly.

Development of a Knowledge-Based Geographical Information System (지식기반 지리정보 시스템의 개발)

  • 윤지희
    • The Journal of Information Technology and Database
    • /
    • v.4 no.1
    • /
    • pp.3-17
    • /
    • 1997
  • 지리정보 시스템에 기반한 응용 시스템 개발에 있어 필수적인 기능으로 지도작성, 데이터 관리, 해석 기능 외에 지식 표현 및 추론 기능을 들 수 있다. 본 논문에서는 지식베이스 관리 및 연역 추론 기능을 갖는 지식기반 지리정보 시스템의 개발과 연역 기능을 활용한 시스템 기능 확장에 대하여 논한다. 본 시스템에서는 사용자 인터페이스(Vusual Basic), 지리정보 시스템(ArcView, ArcInfo), 추론 시스템(Eclipse)을 상호 밀결합 방식으로 결합, 구현하였으며, 각 서브 시스템은 서로 중간파일 시스템의 사용없이 데이터 및 명령어의 전송 및 공유가 가능하다. 또한 사용자는 사용자 인터페이스를 통하여 개개의 서브 시스템을 인식하지 않고 단일화된 환경하의 작업이 가능하다. 시스템의 연역 기능은 일반적으로 거론되는 지식베이스 관리, 의사결정 지원 기능 외에도 사용자 환경개선, 복합 공간 객체의 표현, 공간질의 연산자 구현 등의 시스템 기능 확장에 활용될 수 있다. 특히 본 시스템에서는 사용자 환경개선에 초점을 맞추어 사용자가 정보의 내부 구조나 문제 영역, 명령어 사용 방법 등을 잘 알지 못하더라도 유용한 정보를 얻도록 지원, 유도하는 협력질의 응답 기능과 명령어 자동 생성 기능을 제공한다. 또한 본 논문에서는 이들 방식을 이용한 두가지 응용 시스템(여행정보 시스템, 환경관리 시스템)의 구현 예를 들어 본 시스템의 실용성과 유용성을 보인다.

  • PDF

Application of Knowledge Graph in a military Intelligent Image Analysis System (군사용 지능형 영상 판독 시스템에서의 지식그래프 적용 방안)

  • Na, Hyung-Sun;Kang, Hyung-Seok;Ahn, Jinhyun;Im, Dong-Hyuk
    • Annual Conference of KIPS
    • /
    • 2022.05a
    • /
    • pp.583-585
    • /
    • 2022
  • 기존 군사 분야 영상 판독 시스템은 영상 판독관들의 작업 부담이 크고, 판독관들의 경험과 숙련도에 의존적이다. 이전 연구에서 판독관들의 부담을 줄이고 경험 및 숙련 의존도를 낮추기 위해 문장 추천 시스템을 제안하였다. 하지만 학습에 사용된 데이터의 양이 적고, 학습에 사용되지 않은 장비 혹은 지역 등의 단어가 등장 시 제대로 동작하지 않는 한계점이 있었다. 이를 해결하기 위해 학습 데이터 단계와 디코딩 단계에 지식그래프를 적용하여 문장의 다양성과 확장성을 확보하고, 데이터 부족 문제를 완화하였다. 이 연구는 추후 판독관들의 업무 과부화를 완화하고 업무 효율을 높일 수 있을 것이다.

Performance Evaluation of Reed-Solomon Encoded Block Recovery in Open Source Blockchain Environments (오픈소스 블록체인 환경에서 리드 솔로몬 부호화 된 블록의 복구 성능 평가)

  • Seong-Hyeon Lee;Myungcheol Lee
    • Annual Conference of KIPS
    • /
    • 2023.11a
    • /
    • pp.250-251
    • /
    • 2023
  • 블록체인 원장의 용량이 폭증하면서 여러 확장성 문제들이 나타나고 있다. 이에 대한 해결 방법으로 원장에 Reed-Solomon 부호화를 적용하여 용량을 줄이려는 연구가 일부 진행 중이나, 피어에 장애가 발생하거나 악의적 행동이 있다면, 데이터 손실을 막기 위한 복구 과정이 필수적이다. 본 논문에서는 원장에 Reed-Solomon 부호화를 적용해 얻는 저장 공간의 감소 효과에 비해서 데이터를 복구할 시 어느 정도의 오버헤드가 발생하는지 성능 평가를 수행했다. 결과적으로, 많은 블록 복구가 필요한 상황에서 인코딩/디코딩 시간은 미미하였고, 대부분의 오버헤드는 청크 재전송 시간이었다.

A Way to Speed up Evaluation of Path-oriented Queries using An Abbreviation-paths and An Extendible Hashing Technique (단축-경로와 확장성 해싱 기법을 이용한 경로-지향 질의의 평가속도 개선 방법)

  • Park Hee-Sook;Cho Woo-Hyun
    • The KIPS Transactions:PartD
    • /
    • v.11D no.7 s.96
    • /
    • pp.1409-1416
    • /
    • 2004
  • Recently, due to the popularity and explosive growth of the Internet, information exchange is increasing dramatically over the Internet. Also the XML is becoming a standard as well as a major tool of data exchange on the Internet. so that in retrieving the XML document. the problem for speeding up evaluation of path-oriented queries is a main issue. In this paper, we propose a new indexing technique to advance the searching performance of path-oriented queries in document databases. In the new indexing technique, an abbreviation-path file to perform path-oriented queries efficiently is generated which is able to use its hash-code value to index keys. Also this technique can be further enhanced by combining the Extendible Hashing technique with the abbreviation path file to expedite a speed up evaluation of retrieval.