• 제목/요약/키워드: 데이터 분석론

검색결과 1,370건 처리시간 0.029초

(SK Field Mate : An Object-oriented CDMA Field Engineering Tool ) (객체 지향 방법론을 이용한 CDMA필드 엔지니어링 툴 나 SK 필드 메이트)

  • 임희경;홍성철;임재봉;성영락;오하령
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (3)
    • /
    • pp.255-257
    • /
    • 1998
  • 이동 통신 서비스의 통화 품빌을 개선하기 위해서는 무선 기지국의 유지.보수가필요하다. 이를 위해서는 기지국 및 단말기의 CDMA 필드 데이터를 측정하여 분석하는 툴을 필요로한다. 본 논문에서는 측정된 CDMA 필드데이처를 벡터지도에 표시하고 분석에 필요한 여러 가지 정보들을 조회할 수 있는 기능과 측정 데이터의 통계 처리 기능을 가지는 분석툴을 개발한다. 이러한 시스템의 설계 및 개발을 위해서 객체 지향 방법론을 사용한다.이러한 분석 툴을 이용함으로써 최적화된 셀설계를 위한 무선기지국의 효율적인 유지.보수가 이루어 질 수 있다.

  • PDF

A Study on Methodology on Building NLI Benchmark Dataset in korean (한국어 추론 벤치마크 데이터 구축을 위한 방법론 연구)

  • Han, Jiyoon;Kim, Hansaem
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-297
    • /
    • 2020
  • 자연어 추론 모델은 전제와 가설 사이의 의미 관계를 함의와 모순, 중립 세 가지로 판별한다. 영어에서는 RTE(recognizing textual entailment) 데이터셋과 다양한 NLI(Natural Language Inference) 데이터셋이 이러한 모델을 개발하고 평가하기 위한 벤치마크로 공개되어 있다. 본 연구는 국외의 텍스트 추론 데이터 주석 가이드라인 및 함의 데이터를 언어학적으로 분석한 결과와 함의 및 모순 관계에 대한 의미론적 연구의 토대 위에서 한국어 자연어 추론 벤치마크 데이터 구축 방법론을 탐구한다. 함의 및 모순 관계를 주석하기 위하여 각각의 의미 관계와 관련된 언어 현상을 정의하고 가설을 생성하는 방안에 대하여 제시하며 이를 바탕으로 실제 구축될 데이터의 형식과 주석 프로세스에 대해서도 논의한다.

  • PDF

A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus (불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구)

  • Won-Jo Lee
    • The Journal of the Convergence on Culture Technology
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • Most text data collected through web scraping for artificial intelligence and big data analysis is generally large and unstructured, so a purification process is required for big data analysis. The process becomes structured data that can be analyzed through a heuristic pre-processing refining step and a post-processing machine refining step. Therefore, in this study, in the post-processing machine refining process, the Korean dictionary and the stopword dictionary are used to extract vocabularies for frequency analysis for word cloud analysis. In this process, "user-defined stopwords" are used to efficiently remove stopwords that were not removed. We propose a methodology for applying the "thesaurus" and examine the pros and cons of the proposed refining method through a case analysis using the "user-defined stop word thesaurus" technique proposed to complement the problems of the existing "stop word dictionary" method with R's word cloud technique. We present comparative verification and suggest the effectiveness of practical application of the proposed methodology.

Water distribution system contamination source estimation based on trace analysis (Trace Analysis 기능을 활용한 상수도 관망 내 오염물 유입 지점 추정)

  • Shin, Geumchae;Lee, Seungyub
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.184-184
    • /
    • 2022
  • 지난 2019년 인천시, 서울시 문래동, 포항시 등에서 발생한 수질사고로 인해 국민의 상수도에 대한 신뢰도가 최악의 상황에 있으며, 이후로도 깔따구 유충이 발견되는 등 상수도 관망 내 체계적인 수질 관리 및 빠르고 정확한 수질 사고 발생 지점의 추정이 중요해 지고 있는 실정이다. 오염물 유입 추정은 수리학적 사고로 고려되는 누수와는 달리 상대적으로 그 지점 추정이 어렵다. 대게의 경우 수리해석을 진행하여 유량과 유향을 파악한 뒤 계측 지점에서부터 동일 시간대로 역으로 흐름을 거슬러 올라가며 확률상 높은 지점을 추정하는 것이 일반적인 방법이다. 본 연구에서는 범용 수리해석 프로그램인 EPANET2.2에 내장된 Trace Analysis (이후 trace 분석) 옵션을 사용한 오염물 유입 지점 추정 방법론을 소개한다. 본 연구에서는 방법론의 검증을 위해 오염물 유입지점은 한 곳으로 가정하였다. 해당 방법론은 먼저 절점별 trace 분석을 실시하여 모든 지점에서 수질 관측 지점까지 물이 도달하는데 소요되는 시간을 산정한다. 해당 시간과 오염물 관측 데이터와의 비교를 통해 유입 확률이 높은 지점을 추출한다. 이를 위해 실측 데이터가 필요하며, 결과는 지점별 확률로 나타난다. 모의 결과 1개의 수질 관측 지점으로도 개략적인 지점을 선정할 수 있는 것으로 나타났다. 다만, 수질 관측 지점의 수에 따라 분석 결과의 정확도가 향상한다. 마지막으로 유입 지점 추정 확률이 낮은 경우, 유입 지점 추정 확률을 향상시킬 수 있는 추가 수질 분석 지점을 결정하였다. 본 연구에서 소개한 방법론은 향후 수질 사고 발생 시 최초 확산 방지를 위한 격리 지점 선정에 근거를 제시할 수 있을 것으로 기대하며, 나아가 수질 관측 지점을 결정 및 대응 방안 수립 가이드라인으로 활용할 수 있을 것이다.

  • PDF

AMaterialized View Maintenance Methodology for Customer Management in a Distributed Database Environment (분산 데이터베이스 환경에서 고객관리를 위한 실체화된 뷰 유지 방법론)

  • Lee, Hyun-Chang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1851-1854
    • /
    • 2002
  • 일반적으로 고객 관리를 위한 고객 데이터는 운영 시스템 환경 여건상 다양한 분산 데이터베이스 시스템에 저장되어 있다. 이와 같이 분산 저장된 데이터들로부터 고객들의 향후 경향이나 추세 분석 등 의사 결정에 필요한 데이터로 활용하고자 할 때는 데이터베이스에 저장된 대량의 데이터가 고객 분석에 적합한 형태로 구성되어 서비스되어야 한다. 이에 적절한 구조가 데이터 웨어하우스 구조이며, 데이터 웨어하우스는 분산 저장된 각각의 소스들로부터 발생된 변경 정보들을 실시간으로 데이터 웨어하우스에 반영되어야한다. 이렇게 함으로써 정확한 의사 결정을 수행할 수 있게 된다. 이에 본 논문에서는 분산 컴퓨팅 환경에서 고객 관리를 정확하고 효과적으로 이루어질 수 있도록 기본 소스에서 발생된 데이터 변경을 웨어하우스에 실시간으로 전달하여 정확한 데이터를 유지할 수 있는 방법론을 제시하고자 한다. 또한 제시된 방법의 실험 평가 결과를 간략하게 도시하여 나타내었다.

  • PDF

A Big Data Preprocessing using Statistical Text Mining (통계적 텍스트 마이닝을 이용한 빅 데이터 전처리)

  • Jun, Sunghae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • 제25권5호
    • /
    • pp.470-476
    • /
    • 2015
  • Big data has been used in diverse areas. For example, in computer science and sociology, there is a difference in their issues to approach big data, but they have same usage to analyze big data and imply the analysis result. So the meaningful analysis and implication of big data are needed in most areas. Statistics and machine learning provide various methods for big data analysis. In this paper, we study a process for big data analysis, and propose an efficient methodology of entire process from collecting big data to implying the result of big data analysis. In addition, patent documents have the characteristics of big data, we propose an approach to apply big data analysis to patent data, and imply the result of patent big data to build R&D strategy. To illustrate how to use our proposed methodology for real problem, we perform a case study using applied and registered patent documents retrieved from the patent databases in the world.

Study on Principal Sentiment Analysis of Social Data (소셜 데이터의 주된 감성분석에 대한 연구)

  • Jang, Phil-Sik
    • Journal of the Korea Society of Computer and Information
    • /
    • 제19권12호
    • /
    • pp.49-56
    • /
    • 2014
  • In this paper, we propose a method for identifying hidden principal sentiments among large scale texts from documents, social data, internet and blogs by analyzing standard language, slangs, argots, abbreviations and emoticons in those words. The IRLBA(Implicitly Restarted Lanczos Bidiagonalization Algorithm) is used for principal component analysis with large scale sparse matrix. The proposed system consists of data acquisition, message analysis, sentiment evaluation, sentiment analysis and integration and result visualization modules. The suggested approaches would help to improve the accuracy and expand the application scope of sentiment analysis in social data.

Robust group independent component analysis (로버스트 그룹 독립성분분석)

  • Kim, Hyunsung;Li, XiongZhu;Lim, Yaeji
    • The Korean Journal of Applied Statistics
    • /
    • 제34권2호
    • /
    • pp.127-139
    • /
    • 2021
  • Independent Component Analysis is a popular statistical method to separate independent signals from the mixed data, and Group Independent Component Analysis is an its multi-subject extension of Independent Component Analysis. It has been applied Functional Magnetic Resonance Imaging data and provides promising results. However, classical Group Independent Component Analysis works poorly when outliers exist on data which is frequently occurred in Magnetic Resonance Imaging scanning. In this study, we propose a robust version of the Group Independent Component Analysis based on ROBPCA. Through the numerical studies, we compare proposed method to the conventional method, and verify the robustness of the proposed method.

Development of Automatic Rule Extraction Method in Data Mining : An Approach based on Hierarchical Clustering Algorithm and Rough Set Theory (데이터마이닝의 자동 데이터 규칙 추출 방법론 개발 : 계층적 클러스터링 알고리듬과 러프 셋 이론을 중심으로)

  • Oh, Seung-Joon;Park, Chan-Woong
    • Journal of the Korea Society of Computer and Information
    • /
    • 제14권6호
    • /
    • pp.135-142
    • /
    • 2009
  • Data mining is an emerging area of computational intelligence that offers new theories, techniques, and tools for analysis of large data sets. The major techniques used in data mining are mining association rules, classification and clustering. Since these techniques are used individually, it is necessary to develop the methodology for rule extraction using a process of integrating these techniques. Rule extraction techniques assist humans in analyzing of large data sets and to turn the meaningful information contained in the data sets into successful decision making. This paper proposes an autonomous method of rule extraction using clustering and rough set theory. The experiments are carried out on data sets of UCI KDD archive and present decision rules from the proposed method. These rules can be successfully used for making decisions.

인위적 데이터를 이용한 군집분석 프로그램간의 비교에 대한 연구

  • 김성호;백승익
    • Journal of Intelligence and Information Systems
    • /
    • 제7권2호
    • /
    • pp.35-49
    • /
    • 2001
  • Over the years, cluster analysis has become a popular tool for marketing and segmentation researchers. There are various methods for cluster analysis. Among them, K-means partitioning cluster analysis is the most popular segmentation method. However, because the cluster analysis is very sensitive to the initial configurations of the data set at hand, it becomes an important issue to select an appropriate starting configuration that is comparable with the clustering of the whole data so as to improve the reliability of the clustering results. Many programs for K-mean cluster analysis employ various methods to choose the initial seeds and compute the centroids of clusters. In this paper, we suggest a methodology to evaluate various clustering programs. Furthermore, to explore the usability of the methodology, we evaluate four clustering programs by using the methodology.

  • PDF