• 제목/요약/키워드: parallel data collection

검색결과 55건 처리시간 0.024초

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 (Design and Implemention of Real-time web Crawling distributed monitoring system)

  • 김영아;김계희;김현주;김창근
    • 융합정보논문지
    • /
    • 제9권1호
    • /
    • pp.45-53
    • /
    • 2019
  • 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템(R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증했다.

병렬유전자 알고리즘을 기반으로한 퍼지 시스템의 동정 (Identification of Fuzzy System Driven to Parallel Genetic Algorithm)

  • 최정내;오성권
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2007년도 심포지엄 논문집 정보 및 제어부문
    • /
    • pp.201-203
    • /
    • 2007
  • The paper concerns the successive optimization for structure and parameters of fuzzy inference systems that is based on parallel Genetic Algorithms (PGA) and information data granulation (IG). PGA is multi, population based genetic algorithms, and it is used tu optimize structure and parameters of fuzzy model simultaneously, The granulation is realized with the aid of the C-means clustering. The concept of information granulation was applied to the fuzzy model in order to enhance the abilities of structural optimization. By doing that, we divide the input space to form the premise part of the fuzzy rules and the consequence part of each fuzzy rule is newly' organized based on center points of data group extracted by the C-Means clustering, It concerns the fuzzy model related parameters such as the number of input variables to be used in fuzzy model. a collection of specific subset of input variables, the number of membership functions according to used variables, and the polynomial type of the consequence part of fuzzy rules, The simultaneous optimization mechanism is explored. It can find optimal values related to structure and parameter of fuzzy model via PGA, the C-means clustering and standard least square method at once. A comparative analysis demonstrates that the Dnmosed algorithm is superior to the conventional methods.

  • PDF

초고속 Myrinet 통신망에서의 PVM 성능 개선 (PVM Performance Enhancement over a High-Speed Myrinet)

  • 김인수;심재홍;최경희;정기현;문경덕;김태근
    • 한국정보처리학회논문지
    • /
    • 제7권1호
    • /
    • pp.74-87
    • /
    • 2000
  • 본 논문에서는 초고속 통신망인 Myrinet을 기반으로 하는 워크스테이션 연동(network of workstations) 환경하에서 병렬 프로그래밍 모델을 지원하는 PVM (parallel virtual machine)의 통신 성능 개선 방안을 제시한다. PVM을 위해 새로이 제안하는 Myrinet 기반 통신 모델은 커널을 경유하는 기존의 UDP/IP 프로토콜을 이용하는 통신 모델과 Myrinet API를 직접 이용하는 통신 모델을 혼합한 복합 통신 모델이다. 제안된 복합 통신 모델은 사용자 영역(커널)에서 커널(사용자) 버퍼로의 메시지 복사 부하를 제거하고 커널내의 프로토콜 스택 처리를 위한 통신 지연 요인을 감소시키므로, Myrinet상에서 보다 빠른 PVM 테스크간의 데이터 전송 속도를 보장한다. 또한, UDP/IP를 사용하는 기존 PVM에 본 논문에서 제안된 Myrinet 기반 복합 통신 모델을 적용시킨 EPVM (Enhanced PVM)을 구현하고, 이의 성능을 측정하였다. 실험 결과 EPVM의 통신 성능이 기존 PVM 보다 평균 1.5배 정보 우수하다는 것을 확인하였다.

  • PDF

An Alignment based technique for Text Translation between Traditional Chinese and Simplified Chinese

  • Sue J. Ker;Lin, Chun-Hsien
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.147-156
    • /
    • 2002
  • Aligned parallel corpora have proved very useful in many natural language processing tasks, including statistical machine translation and word sense disambiguation. In this paper, we describe an alignment technique for extracting transfer mapping from the parallel corpus. During building our system and data collection, we observe that there are three types of translation approaches can be used. We especially focuses on Traditional Chinese and Simplified Chinese text lexical translation and a method for extracting transfer mappings for machine translation.

  • PDF

Andrews' Plots for Extended Uses

  • Kwak, Il-Youp;Huh, Myung-Hoe
    • Communications for Statistical Applications and Methods
    • /
    • 제15권1호
    • /
    • pp.87-94
    • /
    • 2008
  • Andrews (1972) proposed to combine trigonometric functions to represent n observations of p variates, where the coefficients in linear sums are taken from the values of corresponding observation's respective variates. By viewing Andrews' plot as a collection of n trajectories of p-dimensional objects (observations) as a weighting point loaded with dimensional weights moves along a certain path on the hyper-dimensional sphere, we develop graphical techniques for further uses in data visualization. Specifically, we show that the parallel coordinate plot is a special case of Andrews' plot and we demonstrate the versatility of Andrews' plot with a projection pursuit engine.

DSM GENERATION FROM IKONOS STEREO IMAGERY

  • Rau, Jiann-Yeou;Chen, Liang-Chien;Chang, Chih-Li
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.57-59
    • /
    • 2003
  • Digital surface model generation from IKONOS stereo imagery is a new challenge in photogrammetric community, especially when the satellite company does not provide the raw data as well as their ancillary ephemeris data. In this paper we utilized an estimated relief displacement azimuth and the nominal collection elevation data included in the metadata file to correct the relief displacement of GCPs, together with a linear transformation for geometric modeling of IKONOS imagery. Space intersection is performed by the trigonometric intersection assuming a parallel projection of IKONOS imagery due to its small FOV and frame size. In the experiment, less than 2-meters of RMSE in orbit modeling is achieved denoting the potential positioning accuracy of the IKONOS stereo imagery.

  • PDF

개인정보보호를 위한 데이터 수집 프로토콜의 성능 분석 (Performance Analysis for Privacy-preserving Data Collection Protocols)

  • 이종덕;정명인;유진철
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1904-1913
    • /
    • 2021
  • 스마트폰의 대중화와 IoT 기술의 발달로 데이터 수집이 쉬워지며 공익을 위해 이를 분석하는 것이 가능해졌지만, 개인정보 유출의 가능성으로 인해 다수의 사용자는 자발적으로 데이터를 제공하는 것에 우려를 표한다. 이러한 문제해결을 위해 개인정보를 보호하면서 데이터 수집을 가능하게 하는 프로토콜에 관하여 연구하였다. 본 연구에서는 자료 교란, 전통 암호, 그리고 동형암호를 이용한 알고리즘들의 성능에 대해 분석하였으며 정확도, 메시지 길이, 그리고 계산 지연시간의 3가지 단위를 이용하여 비교 분석하였다. 실험 결과를 통해 자료 교란 방식은 연산 속도가 빠르고 정확도는 낮으며, 반면에 전통 암호 알고리즘은 효율성이 떨어지지만 100%의 정확도를 보장한다는 점을 확인하였다. 동형 암호 알고리즘은 암호화된 데이터에 대해 복호화 없이 연산을 수행하는 방식이므로 상대적으로 개인정보보호에 효과적이지만, 높은 비용이 발생하였다. 그러나 동형 암호 알고리즘의 주요 비용인 사칙연산은 분산 처리하여 비용을 낮출 수 있으며, 통계수치 분석과 같은 연산은 데이터 개수와 상관없이 복호화가 단 한 번만 수행된다는 장점을 확인하였다.

Phylogeny of Phellinus and Related Genera Inferred from Combined Data of ITS and Mitochondrial SSU rDNA Sequences

  • JEONG WON JIN;LIM YOUNG WOON;LEE JIN SUNG;JUNG HACK SUNG
    • Journal of Microbiology and Biotechnology
    • /
    • 제15권5호
    • /
    • pp.1028-1038
    • /
    • 2005
  • To elucidate phylogenetic relationships of Phellinus and its related genera, nuclear internal transcribed spacer and mitochondrial small subunit ribosomal DNA sequences from 65 strains were determined and compared. The combined dataset of two sequences increased informative characters and led to the production of trees with higher levels of resolution. Phylogenetic analysis of the combined dataset revealed thirteen evolutionary lineages and several unresolved species that were together subdivided into two large clusters consisting of oligonucleate species and binucleate species. These results coincided with previous cytological, morphological, and molecular studies. It is newly recognized that the Phellinus linteus complex forms a sister clade to Inonotus, and that Fulvifomes is somehow related to Inocutis. The Phellinus linteus complex of dimitic perennial taxa made an independent clade from Inonotus and suggested that hyphal miticity and fruitbody permanence had enough phylogenetic significance to keep the complex within the traditional genus Phellinus. Taxa lacking setae were clustered into Fulvifomes, Phylloporia, Inocutis, and Fomitiporia, and the first three were closely related sister groups, but Fomitiporia was a genus distantly related to them. Several taxa with branched setae were shown among distantly related genera. Molecular evidence indicated that the ancestral nuclear type could be a binucleate feature, and that there might be parallel gains of branched setae and parallel losses of setae in the Hymenochaetales.

한일 주택성능등급표시제도 비교 분석 (Comparative Analysis of the Housing Performance Grading indication System in Korea & Japan)

  • 김수암;이성옥;신성은
    • 한국주거학회:학술대회논문집
    • /
    • 한국주거학회 2009년 춘계학술발표대회 논문집
    • /
    • pp.226-229
    • /
    • 2009
  • Housing Performance Grade Indication System is one of the advanced system which operate globally in three countries. Housing Performance Grade Indication System of the Japan and Korea has points of similarity and distinction according to special situations of own condition and government. The purpose of a study is how characteristics have points of view about background, composition and an outline of the system, indication standard and method, the situation of issue, making progress direction and what is the clear differences. Also, it is to obtain hints for making progress direction of domestic Housing Performance Grade Indication System. The method of study is in parallel with literature survey, also collection through visiting to researcher, operation company, evaluation institution, housing company of the Japan. and to use data as a result of international workshop on November 2008. Because domestic research team is studying about making system and evaluation, revision, this study will make use this data.

  • PDF

도로 주행환경 분석을 위한 빅데이터 플랫폼 구축 정보기술 인프라 개발 (Development of Information Technology Infrastructures through Construction of Big Data Platform for Road Driving Environment Analysis)

  • 정인택;정규수
    • 한국산학기술학회논문지
    • /
    • 제19권3호
    • /
    • pp.669-678
    • /
    • 2018
  • 본 연구는 차량센싱데이터, 공공데이터 등 다종의 빅데이터를 활용하여 주행환경 분석 플랫폼 구축을 위한 정보기술 인프라를 개발하였다. 정보기술 인프라는 H/W 기술과 S/W 기술로 구분할 수 있다. 먼저, H/W 기술은 빅데이터 분산 처리를 위한 병렬처리 구조의 소형 플랫폼 서버를 개발하였다. 해당 서버는 1대의 마스터 노드와 9대의 슬래이브 노드로 구성하였으며, H/W 결함에 따른 데이터 유실을 막기 위하여 클러스터 기반 H/W 구성으로 설계하였다. 다음으로 S/W 기술은 빅데이터 수집 및 저장, 가공 및 분석, 정보시각화를 위한 각각의 프로그램을 개발하였다. 수집 S/W의 경우, 실시간 데이터는 카프카와 플럼으로 비실시간 데이터는 스쿱을 이용하여 수집 인터페이스를 개발하였다. 저장 S/W는 데이터의 활용 용도에 따라 하둡 분산파일시스템과 카산드라 DB로 구분하여 저장하는 인터페이스를 개발하였다. 가공 S/W는 그리드 인덱스 기법을 적용하여 수집데이터의 공간 단위 매칭과 시간간격 보간 및 집계를 위한 프로그램을 개발하였다. 분석 S/W는 개발 알고리즘의 탐재 및 평가, 장래 주행환경 예측모형 개발을 위하여 제플린 노트북 기반의 분석 도구를 개발하였다. 마지막으로 정보시각화 S/W는 다양한 주행환경 정보제공 및 시각화를 위하여 지오서버 기반의 웹 GIS 엔진 프로그램을 개발하였다. 성능평가는 개발서버의 메모리 용량과 코어개수에 따른 연산 테스트를 수행하였으며, 타 기관의 클라우드 컴퓨팅과도 연산성능을 비교하였다. 그 결과, 개발 서버에 대한 최적의 익스큐터 개수, 메모리 용량과 코어 개수를 도출하였으며, 개발 서버는 타 시스템 보다 연산성능이 우수한 것으로 나타났다.