• 제목/요약/키워드: Data Scientists

검색결과 3,360건 처리시간 0.026초

데이터 분포에 기반한 유사 군집 선택법 (Neighborhood Selection with Intrinsic Partitions)

  • 김계현;최승진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.428-432
    • /
    • 2007
  • We present a novel method for determining k nearest neighbors, which accurately recognizes the underlying clusters in a data set. To this end, we introduce the "tiling neighborhood" which is constructed by tiling a number of small local circles rather than a single circle, as existing neighborhood schemes do. Then we formulate the problem of determining the tiling neighborhood as a minimax optimization, leading to an efficient message passing algorithm. For several real data sets, our method outperformed the k-nearest neighbor method. The results suggest that our method can be an alternative to existing for general classification tasks, especially for data sets which have many missing values.

  • PDF

시간지원 크랙잭션을 위한 충돌 검출 기법의 성능평가 (Performance Evaluation of Conflict Detection Schemes for Concurrent Temporal Tranactions)

  • 구경이;하봉옥;김유성
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.80-80
    • /
    • 1999
  • As Temporal DataBase Systems(TDBSs) manages both the historical versions and the current version of each data item, a temporal transaction may access more data records than atransaction in traditional database systems. Hence, the concurrency control subsystem of temporaldatabase management system should be able to correctly and efficiently detect actual conflicts amongconcurrent temporal transactions while the cost of detecting conflicts is maintained in low levelwithout detecting false conflicts which cause severe degradation of system throughput.In this paper, Two-Level Conflict Detection(TLCD) scheme is proposed for efficient conflictdetection between concurrent temporal transactions in TDBs. In the proposed TLCD scheme, sincechecking conflict between concurrent temporal transactions is performed at two levels, i, e., logicallevel and physical level, conflicts between concurrent temporal transactions are efficiently and correctlydetected,Furthermore, we also evaluate the performance of the proposed TLCD scheme with those oftraditional conflict detection schemes, logical-level conflict detection scheme and physical-level conflictdetection scheme by simulation approach, The result of the simulation study shows that the proposedTLCD scheme outperforms the previous conflict detection schemes with respect to the averageresponse time.

명령형 프로그램의 핵심부분에 대한 정보흐름 보안성의 데이타 흐름 분석 (Data Flow Analysis of Secure Information-Flow in Core Imperative Programs)

  • 신승철;변석우;정주희;도경구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.667-676
    • /
    • 2004
  • 이 논문은 명령형 프로그램의 핵심 부분에 대한 정보흐름의 보안성을 데이타 흐름 분석법을 사용하여 예측하는 방법을 제시한다. 지금까지 제안된 분석 기법은 정보흐름이 안전한 프로그램을 안전하지 않다고 보수적으로 판정한다는 점에서 정밀도가 떨어지는 경우가 많이 있다. 이 논문에서는 이전의 구문중심의 접근방법보다는 분석결과가 더 정밀한 새로운 분석법을 제안하고, 그 분석의 안전성을 증명한다.

MPEG Stream Data에서의 온라인 문자인식 (On-line Character Recognition from MPEG Stream Data)

  • 이진숙;장춘서
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.407-409
    • /
    • 2000
  • 본 논문에서는 Web 기반의 원격 교육 환경에서 강사와 학습자 모두에게 도움을 줄 수 있는 판서장면 MPEG Stream Data에서의 온라인 문자 인식 방법에 대하여 연구하였다. 강사가 별도의 프리젠테이션 자료를 만들 필요 없이 직접 판서한 MPEG Stream Data로부터 초당 3 Frame을 Sampling 한 후, 각 Frame에 Laplacian 마스크를 이용한 윤곽선 검출, Frame간 빼기 그리고 세선화 등의 영상처리 기법을 적용하여 문자인식에 필요한 좌표 값과 방향코드 등의 특징을 추출하였다. 좌표 값은 세선화 된 획의 중간 Pixel의 좌표 값이며, 구해진 좌표 값들을 이용하여 8방향 코드와 가상 획 코드를 구한 다음, 이 특징들을 사용해 은닉 마르코프 모델(Hidden Markov Model)을 학습시키고 한글 문자 인식을 행하였다.

  • PDF

Fast Conditional Independence-based Bayesian Classifier

  • Junior, Estevam R. Hruschka;Galvao, Sebastian D. C. de O.
    • Journal of Computing Science and Engineering
    • /
    • 제1권2호
    • /
    • pp.162-176
    • /
    • 2007
  • Machine Learning (ML) has become very popular within Data Mining (KDD) and Artificial Intelligence (AI) research and their applications. In the ML and KDD contexts, two main approaches can be used for inducing a Bayesian Network (BN) from data, namely, Conditional Independence (CI) and the Heuristic Search (HS). When a BN is induced for classification purposes (Bayesian Classifier - BC), it is possible to impose some specific constraints aiming at increasing the computational efficiency. In this paper a new CI based approach to induce BCs from data is proposed and two algorithms are presented. Such approach is based on the Markov Blanket concept in order to impose some constraints and optimize the traditional PC learning algorithm. Experiments performed with the ALARM, as well as other six UCI and three artificial domains revealed that the proposed approach tends to execute fewer comparison tests than the traditional PC. The experiments also show that the proposed algorithms produce competitive classification rates when compared with both, PC and Naive Bayes.

RFID 입력 테이터 스트림에 대한 다중 버퍼 기반의 고속 데이터 처리 알고리즘 (A High-Speed Data Processing Algorithm for RFID Input Data Stream Using Multi-Buffer)

  • 한수;신승호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.302-307
    • /
    • 2007
  • RFID를 기반으로 유비쿼터스 환경의 응용 서비스를 지원하는 미들웨어는 지속적으로 끊임없이 입력되는 데이터를 정확하게 실시간으로 처리하고 응용 서비스에서 질의하는 결과를 획득해서 전달하여야 한다. 이와 같은 지속적으로 입력되는 대량의 데이터 스트림을 처리하기 위해서 데이터 스트림 관리 시스템(Data Stream Management System: DSMS)을 개발하기 위한 연구가 진행되고 있다. 기존에 연구되는 데이터 스트림에 대한 알고리즘은 대부분 연속 질의 결과들 사이의 평균 오차를 줄이고, 부하 발생 시 데이터의 우선순위에 따라 버리는 것에 초점이 맞추어져 있다. 본 논문에서는 RFID EPC 라는 데이터 특성에 맞추어 다중버퍼를 이용함으로써 고속의 데이터 처리 능력을 얻고, 각 버퍼마다 일정한 규칙을 통해 질의에 있어서도 빠른 대응을 할 수 있는 알고리즘을 제안한다. 본 논문은 현재 DSMS의 관련 연구와 고속 데이터 처리의 필요성을 말하고, 제안하는 알고리즘 설명과 시뮬레이션을 통해 단일버퍼와 다중버퍼일 경우 데이터 처리 속도 성능 평가와 제안한 알고리즘에 맞도록 버퍼가 생성 되는지 테스트하는 것으로 구성된다.

  • PDF

GSN 기반 DB통합 모델에서의 data value 이질성 해결 기법 (A Data Value Heterogeneity Solving Method In A GSN Based DataBase Integration Model)

  • 홍종하;박성공;이종옥;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.331-333
    • /
    • 2001
  • 분산되고 이질적인 환경에서의 정보 소스들을 통합하려는 노력은 끊임 없이 계속되어 왔다. 이질적인 다중 정보소스로부터 추출된 정보를 통합하는 도구를 개발하는 것은 인터넷 기반에서 다양한 정보들을 실시간으로 사용할 수 있다는 측면에서 아주 흥미로운 일이다. 이러한 도구를 개발하는데 있어서의 주된 문제점은 서로 다른 정보소스에 존재하지만 실제적으로는 같은 실세계의 개념을 가지고 있는 정보를 어떻게 효과적으로 표현할 것인가 하는 것이다. 이러한 의미적 이질성을 해결하기 위해서 WordNet이나 Common Thesaurus 등을 이용한 개념 기반의 접근방법이 많이 제안되었다. 하지만 이들은 스키마 이질성을 해결하는 방법을 제시 할 뿐, 데이터의 이질성을 해결 하는 방법은 보여주지 않는다. 본 논문에서는 GSN(Global Semantic Network)을 이용해서 스키마 이질성을 해결해야 데이터베이스 시스템에서 발생하는 데이터 이질성의 예를 제시하고 이러한 데이터 이질성을 해결할 수 있는 기법을 제안한다.

  • PDF

ENACT 프로젝트에 참여한 예비 과학교사들의 과학기술자의 사회적 책임에 대한 인식 변화 탐색 (ENACT Project: Promoting Pre-Service Science Teachers' Views on the Social Responsibility of Scientists and Engineers)

  • 이현주;고연주;홍지연
    • 한국과학교육학회지
    • /
    • 제42권1호
    • /
    • pp.111-125
    • /
    • 2022
  • ENACT 프로젝트는 과학기술과 관련한 사회쟁점(SSI)에 관심을 갖고 쟁점해결에 참여해보는 경험을 통해 사회적 책임감을 함양하는 교육프로그램으로, 본 연구에서는 ENACT 프로젝트 수행을 통해 예비 과학교사들의 과학기술자의 사회적 책임에 대한 인식이 어떻게 변화하는지 탐색해보았다. 32명의 예비 과학교사가 비교과활동으로 약 3개월에 걸쳐 자발적으로 참여하였으며, ENACT 모형 즉, 쟁점발견, 쟁점탐색, 미래상황 예측, 과학·기술·공학적 쟁점해결, 사회적 실천의 5단계에 따라 진행하였다. 예비 과학교사들의 과학기술자의 사회적 책임에 대한 인식 변화를 탐색하기 위해 혼합연구방법을 이용하였으며, 이를 위해 과학기술자의 사회적 책임인식을 측정하는 검사도구(VSRoSE)와 조별 면담 자료를 수집하였다. 연구결과, 예비 과학교사들은 VSRoSE 전체 및 8개 하위요인 중 5개 요인에서 통계적으로 유의미한 향상을 나타내었다. 각 하위 요인별 예비 교사들의 면담을 분석한 결과, 이들은 과학기술에 대한 인식론적 탐색을 강조하는 Cycle I과 쟁점해결과 실천을 강조하는 Cycle II를 수행하는 과정에서 과학기술자의 사회적 역할에 대해 고민할 수 있는 기회를 충분히 갖게 되었음을 확인하였다. 특히 프로젝트 참여 전 과학기술이 인간과 환경, 사회에 미치는 영향을 고려해야 한다는 것에 초점을 두었던 예비 교사들의 인식은, 프로젝트 참여 후 사회적 필요와 요구를 반영하고 지역사회 문제 해결을 위해 대중과 협력·소통하며 정책에 참여해야 하는 것까지 확장해서 이해하는 모습을 보였다. 위 결과를 기반으로 과학기술관련 사회쟁점 교육과 교사교육에 있어 본 연구의 시사점을 제시하였다.

캐글 플랫폼 활용한 태양광 데이터셋 형태 구축: 머신 러닝의 적용 가능성 (On Building the Solar Dataset Form using the Kaggle Platform: The applicability of Machine Learning)

  • 고주원;박정진;박진우;오도희;김민철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.255-258
    • /
    • 2022
  • 최근 환경 오염이 지속되면서 신재생 에너지에 대한 사람들의 관심이 높아지고 있다. 제주 지역은 태양광, 태양열, 바이오, 풍력 발전 등 신재생 에너지 발전이 많이 이루어지고 있지만, 그에 비하여 관련 데이터의 개방과 분석 사례는 부족한 상황이다. 이에 본 연구에서는 전 세계 데이터 사이언티스트(Data Scientists)들이 활동하고 있는 캐글(Kaggle) 플랫폼을 활용하여 태양광 생산량과 관련된 변수를 추출하고, 데이터에 적용할 수 있는 머신러닝(Machine Learning) 기법을 탐구하여 머신 러닝 설계를 위한 제주 지역의 태양광 발전 데이터셋(Dataset) 형태(Form)를 제시하고자 한다. 구체적으로는 캐글 데이터 플랫폼을 활용하여 태양광 에너지 분석을 진행한 후 제주 지역 태양광 데이터 수집에 대한 보완점을 제안할 수 있다. 이러한 시도는 제주 지역의 태양광 산업의 발전을 위한 데이터 분석에 활용이 가능할 것으로 기대할 수 있다. 즉, 현재 개방되어 있는 제주 지역의 태양광 발전 데이터셋 형태를 인공지능(Artificial Intelligent) 분석을 위한 머신러닝에 적합한 형태로 구축이 될 수 있도록 제안할 수 있다. 이를 통하여 제주 지역 태양광 산업의 발전의 효율을 높이는 방안을 마련하는데 기반 연구가 될 것이다.

  • PDF

데이타 방송 시스템에서 클라이언트의 요구정보를 이용한 캐싱 전략들의 성능 (Performance of Caching Strategies using Clients' Request Information in Data Broadcast Systems)

  • 신동천
    • 한국정보과학회논문지:정보통신
    • /
    • 제32권4호
    • /
    • pp.535-542
    • /
    • 2005
  • 무선 컴퓨팅 환경에서 데이타 방송 기법은 다수의 클라이언트에게 데이타를 전송하는 유용한 기법이다. 일반적으로 낮은 대역폭을 갖는 데이타 방송 시스템에서 캐싱은 대역폭에 대한 클라이언트들의 경쟁을 줄임으로써 응답 시간을 향상시키기 위해 도입된다. 본 논문에서는, 클라이언트가 유지하는 정보를 이용하는 기존 연구와 달리 서버가 유지하는 클라이언트의 데이타 요구에 관한 정보를 이용하는 캐싱 전략들을 제시하고 제안한 전략들의 성능을 시뮬레이션을 통하여 평가한다. 성능 평가에 따르면, 서버에서 유지하는 인기도와 대기 시간 정보를 함께 고려하는 전략이 다른 전략들보다 전반적으로 좋은 성능을 보여 주고 있다.