• Title/Summary/Keyword: Data Scientists

Search Result 3,360, Processing Time 0.027 seconds

Automatic Text Classification by Learning from Unlabeled Data (레이블이 없는 데이터로부터의 학습에 의한 자동 문서 분류)

  • 박성배;김유환;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.265-267
    • /
    • 2001
  • 본 논문에서는 레이블이 없는 데이터를 이용하는 새로운 자동 문서 분류 방법을 제시한다. 제시된 방법은 적은 수의 레이블이 있는 데이터로부터 학습된 후 많은 수의 레이블이 없는 데이터로 보강되는 일련의 분류기(classifier)에 기반한다. 레이블이 없는 데이터를 활용하기 때문에, 필요한 레이블이 있는 데이터의 수가 줄어들고, 분류 정확도가 향상된다. 두 개의 표준 데이터 집합에 대한 실험 결과, 레이블이 없는 데이터를 사용함으로써 분류 정확도가 증가함을 보였다. 분류 정확도는 전체 데이터의 2/3만 사용하고도 NIPS 2000 워크숍 데이터 집합에 대해서는 약 7.9% 정도, WebKB 데이터 집합에 대해서는 9.2% 증가하였다.

  • PDF

Gene Expression Data Analysis Using Bayesian Networks (베이지안망을 이용한 유전자 발현 테이터의 분석)

  • 황규백;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.301-303
    • /
    • 2001
  • 최근 DNA 칩 또는 마이크로어레이 기술의 발전으로 인해 한 세포 내의 수천 개의 유전자의 발현 정도를 동시에 측정할 수 있게 되었다. 이러한 마이크로어레이 데이터를 분석해서 암의 경과나 세포의 주기적 변화 등에 영향을 미치는 유전자들을 알아낼 수 있다. 본 논문에서는 베이지안망을 이용해서 마이크로어레이 데이터를 분석, 백혈병의 경과를 예측한다. 베이지안망은 다수의 변수들간의 확률적 관계를 표현하는 그래프 모델로 각 유전자들간의 확률적 관계를 표현하는 그래프 모델로 각 유전자들간의 확률적 관계를 사람이 알아보기 쉬운 형태로 학습할 수 있다는 장점이 있다. 마이크로어레이 데이터에 대해서 학습된 베이지안망은 백혈병 경과 예측에 대해서 기존의 방법보다 뛰어난 성능을 보였다.

  • PDF

Hardware Implementation of Recurrent Neural Network (순환 신경망의 하드웨어 구현)

  • 김정욱;오종훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.586-588
    • /
    • 2001
  • 최근에는 순환 신경망의 생성모델이 비교사 학습에 관련하여 활발히 연구되고 있다. 이러한 형태의 신경망은 형태 추출이나 인식에 효과적으로 사용될 수 있는 반면 반복 loop를 사용하므로 대단히 많은 계산이 필요하다. 본 논문에서는 Oh와 Seung에 의해 제안된 상향전파(Up-propagation) network이라는 순환 신경망을 FPGA를 이용해서 구현하였다. 단층 신경망은 9개의 상층 neuron과 256개의 하층 neuron으로 구성되 있으며 4만 게이트의 FPGA 하나로 효과적으로 구현할 수 있다. pipeline된 곱셈기로 게산 속도를 향상시켰고 sigmoid 전달 함수는 유한 정밀도의 2차 다항식으로 근사될 수 있다. 구현된 하드웨어는 hand-written 숫자 영상인 USPS data를 재생하는데 사용되었으며 좋은 결과를 얻었다.

  • PDF

A Clustering using Incremental Projection for High Dimensional Data (고차원 데이터에서 점진적 프로젝션을 이용한 클러스터링)

  • 이혜명;박영배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.189-191
    • /
    • 2000
  • 데이터 마이닝의 방법론 중 클러스터링은 데이터베이스 객체들의 에트리뷰트 값에 근거하여 유사한 그룹으로 식별하는 기술적인 작업이다. 그러나 대부분 알고리즘들은 데이터의 차원이 증가할수록 형성된 전체 데이터 공간은 매우 방대하므로 의미있는 클러스터의 탐색이 더욱 어렵다. 따라서 효과적인 클러스터링을 위해서는 클러스터가 포함될 데이터 공간의 예측이 필요하다. 본 논문에서는 고차원 데이터에서 각 차원에 대한 점진적 프로젝션을 이용한 클러스터링 방법을 제안한다. 제안한 방법에서는 클러스터가 포함될 가능성이 있는 데이터공간의 후보영역을 결정하여, 이 영역에서 점들의 평균값을 중심으로 클러스터를 탐색한다.

  • PDF

Discovery of Multiple-Level Association Rules using Relative Support of Data (데이터의 상대 지지도를 이용한 다단계 연관 규칙 탐사 기법)

  • 하단심;황부현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.195-197
    • /
    • 2000
  • 데이더는 다양한 빈도 형태와 속성을 가지고 있으며 데이터의 연관 규칙 탐사 시 이러한 데이터의 빈도수를 고려할 수 있는 방법이 필요하다. 그러나 기존의 연관 규칙 탐사 알고리즘은 지지도와 신뢰도만을 가지고 데이터의 연관성을 발견하며 데이터들의 발생 빈도는 고려하지 않는다. 본 논문에서는 하위 단계의 데이터나 동일한 단계지만 상대적으로 발생 빈도가 적은 데이터들의 연관 규칙을 탐사할 수 있는 방법을 제안한다. 제안하는 방법은 데이터의 상대 지지도를 이용한 다단계 연관 규칙 탐사 기법을 수행함으로써 데이터의 발생 빈도를 고려한 연관 규칙을 탐사할 수 있다. 그리고 탐사된 연관 규칙은 마케팅 분야 등의 여러 응용에서 유용하게 이용될 수 있다.

  • PDF

Extracting traffic data by analysis of color transformation (색상 변화 분석에 의한 교통정보추출)

  • 허준구;박세현;정기철;김항준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.473-475
    • /
    • 1998
  • 본 논문에서는 색상 변화 분석을 통하여 차량의 속도와 수량을 측정하는 방법을 제안한다. 동영상에서 색상 변화를 분석하기 위하여 시간 흐름에 따른 화소의 색상 변화를 그래프로 표현한다. 차량 진행 방향에 있는 두 개의 화소에 대하여 이 그래프를 구하여 두 그래프가 가지는 시간차이를 계산하여 이동하는 차량의 속도를 구한다. 차량의 진행 방향을 추정한다. 차량의 수량은 도로 색에 경계 값을 설정하여 구하고, 이를 속도로 보완한다. 제안한 시스템은 날씨와 밝기에 영향을 적게 받으며 수행시간이 적게 드는 장점을 가진다.

  • PDF

Fuzzy Clustering for Fuzzy Data1 (퍼지값을 갖는 데이터에 대한 퍼지 클러스터링)

  • 이건명
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.27-29
    • /
    • 1998
  • 클러스터링은 데이터의 특성 추출, 데이터의 압축 등을 목적으로 동일 클러스터에 속하는 데이터간에는 유사성이 크도록 하면서 다른 클러스터에 속하는 데이터간에는 유사성이 작도록 데이터를 군집화하는 것이다. 일상에서 발생하는 많은 데이터에는 관측 오류, 불확실성, 주관적인 판정 등으로 인해서 데이터의 속성값이 정확한 값으로 주어지지 않은 경우가 있다. 본 논문에서는 분명한 값뿐만 아니라 퍼지값도 포함한 데이터들에 대해서 퍼지 클러스터링하는 방법을 제안한다.

  • PDF

Encrytion Method Based on Chaos Technique (카오스 이론을 이용한 암호화 기법)

  • 정성용;김태식
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.45-47
    • /
    • 1998
  • 본 연구에서는 로버트 메이의 논리차이방정식(Logistic difference equation)을 이용하여 ASCII코드로 만들어진 문서를 암호화 할 수 있도록 하는 카오스 LCC(Logistic Chaos Cryptosystem)을 제안한다. 카오스를 이용한 암호화 기법은 기존의 암호화 기법으로 알려진 DES(Data Encrypion Standard)나 RSA(Rivest,Shamir,Adleman)등과는 비교되는 기법으로 초기 조건에 민감한 카오스의 특징을 이용하였다. 실험결과 제안된 LCC 기법을 통해 암호문은 카오스적으로 표현되었으며, 원문과 암호문 사이에 어떠한 관련성도 찾아 볼수 없었다. 향후 안전성이나 처리속도에 대한 검증과 표준화 문제 및 멀티미디어 자료등에 대한 암호화 기법을 계속 연구해야 할 것이다.

  • PDF

Extracting Common Structure of Semistructured data Using mining frequent patterns (빈발 패턴 탐사 기법을 이용한 반구조적 데이터로부터의 공통구조 추출)

  • 이영언;문봉희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.302-304
    • /
    • 2000
  • 인터넷의 발달로 웹에는 엄청난 데이터가 존재하나, 불규칙적인 구조를 이루고 있는 반구조적 데이터가 대부분이다. 이러한 반구조적 데이터는 데이터들간의 어떤 정확하게 정해진 구조를 갖고 있진 않지만 불완전하고 불규칙한 구조 정보를 포함하고 있는 것으로, 데이터들 간의 관계를 규명할 수 있는 공통 구조 정보를 추출하여 효과적으로 구조화시킴으로써 정보로서의 가치를 높일 필요성이 대두되게 되었다. 또, 데이터 처리 과정에서 기존의 잘 정의된 구조를 가진 데이터베이스의 장점을 수용하기 위해서는 반구조적 데이터 집합의 불완전한 구조 정보로부터 공통 구조를 추출하는 것이 요구된다. 본 연구에서는 후보 항목 집합의 생성이 없는 빈발 패턴 탐사 기법을 사용하여 반구조적 데이터 집합으로부터 공통구조를 추출하고자 한다.

  • PDF

3D Range Data Registration Using Corresponding Image (영상정보를 이용한 3차원 정보의 정합)

  • 하승태;한준희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.595-597
    • /
    • 2000
  • 3차원 정보의 올바른 정합을 위해서 3차원 정보 자신 뿐만이 아니라 3차원 정보와 연관된 영상 정보를 이용한다. 먼저 영상의 정합을 수행함에 있어 서로 다른 두 영상간에 상관 윈도우를 씌워 상관계수를 계산하여 최적 정합점을 탐색한다. 본 논문에서는 카메라의 서로 다른 관점으로 인한 상관위도우의 뒤틀림을 3차원 초기 변환 행렬을 이용하여 보정하는 방법을 제안하고, 이에 의해 3차원 변환된 상관 윈도우를 정합에 이용함으로서 상관계수의 정확도를 급격히 향상시킨다. 그 결과로 개선된 특징점 정합 결과로부터 영상 전반에 걸친 3차원 특징점 정합을 통해 이와 대응하는 3차원 정보의 정확한 정합 결과를 얻는다.

  • PDF