• Title/Summary/Keyword: 데이터 비교

Search Result 12,513, Processing Time 0.04 seconds

Performance Evaluation Between PC and RaspberryPI Cluster in Apache Spark for Processing Big Data (빅데이터 처리를 위한 PC와 라즈베리파이 클러스터에서의 Apache Spark 성능 비교 평가)

  • Seo, Ji-Hye;Park, Mi-Rim;Yang, Hye-Kyung;Yong, Hwan-Seung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1265-1267
    • /
    • 2015
  • 최근 IoT 기술의 등장으로 저전력 소형 컴퓨터인 라즈베리파이 클러스터가 IoT 데이터 처리를 위해 사용되고 있다. IoT 기술이 발전하면서 다양한 데이터가 생성되고 있으며 IoT 환경에서도 빅데이터 처리가 요구되고 있다. 빅데이터 처리 프레임워크에는 일반적으로 하둡이 사용되고 있으며 이를 대체하는 솔루션으로 Apache Spark가 등장했다. 본 논문에서는 PC와 라즈베리파이 클러스터에서의 성능을 Apache Spark를 통해 비교하였다. 본 실험을 위해 Yelp 데이터를 사용하며 데이터 로드 시간과 Spark SQL을 이용한 데이터 처리 시간을 통해 성능을 비교하였다.

A Comparative Study of Big Data, Open Data, and My Data (빅데이터, 오픈데이터, 마이데이터의 비교 연구)

  • Park, Jooseok
    • The Journal of Bigdata
    • /
    • v.3 no.1
    • /
    • pp.41-46
    • /
    • 2018
  • With the advent of the fourth industrial revolution, data becomes very important resource. Now is called as 'Data Revolution Age.' It is said that Data Revolution Age started with Big Data, then accelerated with Open Data, finally completed with My Data. In this paper, we compared Big Data, Open Data, and suggested roles and effects of My Data as a digital resource.

A Study on Data Resource Management Comparing Big Data Environments with Traditional Environments (전통적 환경과 빅데이터 환경의 데이터 자원 관리 비교 연구)

  • Park, Jooseok;Kim, Inhyun
    • The Journal of Bigdata
    • /
    • v.1 no.2
    • /
    • pp.91-102
    • /
    • 2016
  • In traditional environments we have called the data life cycle DIKW, which represents data-information-knowledge-wisdom. In big data environments, on the other hand, we call it DIA, which represents data-insight-action. The difference between the two data life cycles results in new architecture of data resource management. In this paper, we study data resource management architecture for big data environments. Especially main components of the architecture are proposed in this paper.

  • PDF

Comparison and Analyzing System for Protein Tertiary Structure Database expands LOCK (LOCK을 확장한 3차원 단백질 구조비교 및 분석시스템의 설계 및 구현)

  • Jung Kwang Su;Han Yu;Park Sung Hee;Ryu Keun Ho
    • The KIPS Transactions:PartD
    • /
    • v.12D no.2 s.98
    • /
    • pp.247-258
    • /
    • 2005
  • Protein structure is highly related to its function and comparing protein structure is very important to identify structural motif, family and their function. In this paper, we construct an integrated database system which has all the protein structure data and their literature. The structure queries from the web interface are compared with the target structures in database, and the results are shown to the user for future analysis. To constructs this system, we analyze the Flat-File of Protein Data Bank. Then we select the necessary structure data and store as a new formatted data. The literature data related to these structures are stored in a relational database to query the my kinds of data easily In our structure comparison system, the structure of matched pattern and RMSD valure are calculated, then they are showed to the user with their relational documentation data. This system provides the more quick comparison and nice analyzing environment.

데이터 마이닝에서의 군집분석 알고리즘 비교 연구

  • Lee, Yeong-Seop;An, Mi-Yeong
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2003.05a
    • /
    • pp.19-25
    • /
    • 2003
  • 데이터베이스에 내재된 패턴이나 관계를 묘사한 것만으로도 의사결정에 필요한 정보를 제공할 수 있는데 이 데이터들의 변수들을 비슷한 특징을 가지는 소그룹으로 나누어 패턴을 찾는 것을 군집분석이라 한다. 이러한 군집 분석에는 분리군집방법과 계층적군집방법이 있는데, 재할당이 가능한 분리군집방법의 여러 알고리즘에 대해 비교해보자. 분리군집알고리즘에는 중심을 평균으로 하는 k-평균 알고리즘과, 중심을 메도이드로하는 PAM, CLARA, CLARANS 알고리즘이 있다. 이러한 알고리즘에 대한 이론과, 장단점을 설명하고, 분산과 중심들간의 평균 거리로 비교해 본다.

  • PDF

Histogram Comparing Technique for Similarity Search in Time-Series Data (시계열 데이터의 유사성 검색을 위한 히스토그램 비교법)

  • 임동혁;김창룡;정진완
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.331-333
    • /
    • 1999
  • 데이터웨어하우스의 주된 용도는 비즈니스 의사결정이며, 이를 위한 경향 및 패턴을 찾는 문제는 매우 중요한 연구분야이다. 경향 및 패턴은 데이터웨어하우스 내의 데이터간의 상호관계를 분석함으로써 찾을 수 있는데, 이를 위한 유사성 검색기법 중 특히 뛰어난 3가지 기법들을 자세히 알아보고, 이들에 모두 적용 가능한 히스토그램 비교법을 제안하였다. 제안된 히스토그램 비교법을 이용하면 유클리디안 거리측정의 부담을 대폭 줄여, 전체 처리시간을 비약적으로 감소시킬 수 있다.

  • PDF

Comparisons of several measures related to k-anonymity algorithms (k-익명성 알고리즘 관련 측도들에 대한 비교 분석)

  • Youn-kyoung Shin;Ju-Sung Kang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.1405-1408
    • /
    • 2008
  • 개인정보 노출 위험을 최소화하면서 데이터 유용성을 최대화하기 위한 기법 중의 하나인 k-익명성 개념과 연관된 다양한 측도(measure)들을 비교 분석한다. 원본 데이터와 변형된 데이터가 주어졌을 때, 각각 다른 k-익명성 알고리즘들에서 제안된 높이(height), 정확도(precision), 손실측도(loss metric), 비용(cost), 점수(score) 등의 측도들이 데이터의 정확성(accuracy)을 측정하는 데에 대한 일관성과 개별성을 조사하고, 그 측도들의 특징에 따른 의미와 효율성을 비교분석한다.

Shoreline survey and sounding using SHOALS (SHOALS를 이용한 해안선측량 및 수심측량)

  • Jung, Hyun;Choi, Yun-Soo;Yoon, Ha-Su;Lee, Yoo-Jung
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2008.10a
    • /
    • pp.331-332
    • /
    • 2008
  • 단빔, 멀티빔, 사이드스캔소나 등을 이용하여 해저면의 위치나 형상파악을 하는 방법은 측량시간과 비용이 막대하게 소요되고 해안절벽과 도서지역은 접근이 용이하지 않은 관계로 이러한 측량환경의 단점을 보완하기 위하여 항공기에 레이저 측량장비를 탑재하여 해저면의 수심을 측량할 수 있는 기술이 확산되고 있다. 본 연구에서는 실험지역에 대하여 항공레이저 수심측량을 실시하고 취득된 데이터를 이용하여 해안선을 추출하였다. 해저면 지역에 대하여 단빔 수심측량 데이터와 비교한 결과, 실험지역 A에서는 표준편차가 ${\pm}1.795m$, 실험지역 B에서는 표준편차가 ${\pm}2.251m$로 제시되었다. 또한 SHOALS 데이터와 7개의 암초에 대하여 9개 지점의 암초 수심측량 값과 비교하였으며, 암초 수심측량 값의 측량밀도가 적어 암초의 형상을 3차원으로 재현함에 있어서 한계가 존재하지만 SHOALS 데이터를 이용하여 암초에 대한 형상을 정확하게 3차원으로 표현할 수 있었다. 육지지역에 대한 SHOALS 데이터 검증을 위하여 라이다 데이터와 비교 한 결과, $0.16m{\pm}0.16m$로 나타났으며, 1/1,000 수치지형도와 비교한 결과, $0.51m{\pm}0.26m$로 SHOALS 데이터의 정확성과 신뢰성을 확인할 수 있었다. 본 연구를 통하여 국내에서도 SHOALS 데이터를 이용하여 해안선측량 및 수심측량에 적용할 수 있는 근거를 제시하였으며, 현행 수심측량으로 어려움이 많은 수심이 낮은 천소지역과 접근이 어려운 절벽지역에 효과적으로 적용할 수 있는 기반을 제시하였다.

  • PDF

The comparative study of IWRM between ETL and ELT (통합수자원관리의 ETL, ELT 비교 연구)

  • Soon Yeon Kim;Young Jin Won
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.392-392
    • /
    • 2023
  • 통합수자원관리 IWRM(Integrated Water Resources Management)를 위한 다각도의 연구가 진행되고 있다. 구축된 정보의 활용 증진, 정책적 측면 등이 어우러져 고려되어야 비로소 통합으로서의 가치가 확보될 것이다. 본 고에서는 그중 데이터 측면을 살펴본다. 데이터 관점에서도 정보의 수집, 유통, 품질 등 여러 관점의 주제가 존재한다. 예를 들어 유통을 위한 메타데이터는 ISO 19139의 채택에서 추가 보완할 부분이 무엇인지, 유통을 위한 포맷과 인터페이스는 XML과 OGC WFS를 채택시 충분한 호환성이 확보되는지 등 이 주요한 검토요소가 될 것이다. 본 고에서는 이러한 고민에 앞서, 초기 절차인 시스템 적재 과정의 ETL(Extract, Transform and Load)과 ELT(Extract, Load and Transform) 방법을 비교하고자 한다. 수자원 분야 데이터를 사용한 예시 사례를 통하여, 최근 데이터 산업 분야에서 ETL과 ELT 차이가 이슈화되고 있는 이유를 살펴보고, 온프레미스와 클라우드 상황에 대하여 두 가지 방법의 장단점을 비교함으로서 다양한 데이터를 직면하게 되는 IWRM에서의 데이터 적응에 대한 힌트를 얻고자 한다. 기본적으로는 ETL보다 ELT의 효율성이 높을 것으로 전망된다. 그러나 해당 변환 과정이 일회성인지 반복적인지 고려해야 한다. 또한 변환에 있어 지배적인 요소가 변환 프로세스의 복잡도인지, 레코드 건수인지도 유불리에 영향을 준다. 비용측면에서는 ETL보다 ELT의 저장 비용이 증가할 수 있고, 이는 온프레미스 DBMS에서 PaaS 유형의 DBMS로 전환되어감에 따라 더 큰 부담이 될 수 있다. 무엇보다 ETL, ELT에서는 요구되는 변환 기술의 종류가 다르다. 예를 들어 Desktop GIS 도구와 ANSI 표준 SQL 기술로 대표될 수 있으며 각 수행조직에서는 보유 인적자원의 기술 현황과 학습곡선 등을 고려해야 한다. 결론적으로 ETL, ELT의 비교에 있어서는 처리시간과 동시에, 비용과 인적 자원 그리고 전략적 측면도 함께 검토되어야 한다.

  • PDF

A Revising Method using Phoneme Comparison for Databases with Korean Character Set (데이터베이스상의 한글 자모단위 비교를 통한 데이터 정정기법)

  • 김대환;백두권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.532-534
    • /
    • 2003
  • 코드로써 관리되어있지 않은 데이터베이스 내의 다양한 속성들이 시간이 흐름에 따라 정보로써 가치를 갖게 되면서. 비코드성 한글 데이터의 정형화에 대한 요구가 증가하고 있다. 정형화에 있어 한글의 특수성 중에 하나는 한글자료의 경우 KSC5601, CP949등을 사용하여 음절단위의 문자셋을 사용하여 음절단위로 저장 관리한다. 그런데 입력 시정에서는 자판기등을 이용하여 음소단위로 데이터를 입력하면서 발생하는 오류 및 비정형 데이터의 유입의 문제 등을 내포하고 있다. 이러한 문제를 해결하기 위하여 데이터의 저장단위인 음절이 아닌 음소 단위의 비교를 통하여 데이터를 정정하는 기법을 제안하고자 한다.

  • PDF