• Title/Summary/Keyword: 데이터 유사도

Search Result 3,365, Processing Time 0.03 seconds

유사추론 기반 예측모형

  • Jang, Yong-Sik;Choe, Yun-Jeong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2007.11a
    • /
    • pp.581-585
    • /
    • 2007
  • 본 연구는 비선형적인 시계열 자료로부터 최신 데이터와 유사한 사례를 탐색하여 미래를 예측하기 위하여 유사추론 기법을 이용한 예측 알고리즘을 제안한다. 기존의 연구들이 최신 데이터와 과거 사례와의 유사성을 비교하기 위해 유클리디언 거리 또는 평균 제곱에러 등을 이용하나, 추세의 유사성을 고려하지는 않는다. 본 연구는 사례 구간 크기, 예측 오차, 평균차이 검증, 사례간 추세의 유사성 등 다차원적 유사추론 요인을 이용한 예측방법과 그 효과를 제시한다.

  • PDF

데이터 추상화와 퍼지 관계를 이용한 근사적 질의응답에 관한 연구

  • 허순영;문개현
    • Proceedings of the Korean Operations and Management Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.302-305
    • /
    • 2000
  • 본 논문은 데이터베이스에 존재하는 데이터 값들 사이의 유사성에 관한 지식을 이용하여 사용자가 요구한 정확한 답뿐 아니라 그와 유사한 답까지 제공해 줄 수 있는 근사적 질의처리 기법을 제시한다. 이를 위하여, 계량적인 방법에 해당하는 퍼지 관계와 비계량적인 방법에 해당하는 데이터 추상화를 하나로 통합한 유사성 표현 프레임웍을 제시하고 그를 이용한 지식 베이스를 설계한다.

  • PDF

Modifying Sparse Data for Collaborative Filtering (협동적 여과를 위한 희소 데이터 변형 기법)

  • Kim, Hyung-Il;Kim, Jun-Tae
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.610-612
    • /
    • 2005
  • 협동적 여과를 이용한 추천 시스템은 데이터의 희소성 문제(sparseness problem)와 초기 추천 문제 (cold-start problem)에 대해 취약점을 가지고 있다. 협동적 여과를 이용한 추천 시스템에서 사용하는 선호도 데이터에 아이템들의 전체 수량에 비해 매우 적은 양의 아이템 선호도만 존재한다면 사용자들의 유사도 측정에 문제를 발생시켜 극단적인 경우엔 협동적 추천이 불가능할 경우가 발생한다. 이와 같은 문제는 선호도 데이터에 나타난 아이템들의 총수에 비해 사용자가 선호(구매)한 아이템이 극히 적은 수량으로 존재하기 때문이며 새로운 사용자의 경우에는 아이템 선호도 정보가 전혀 없기 때문에 유사 사용자를 추출하지 못하여 아이템을 전혀 추천할 수 없는 문제가 발생한다. 본 논문에서는 희소성이 높은 선호도 데이터를 희소하지 않은 상태로 변형하는 희소 데이터 변형 기법을 제안한다. 희소 데이터 변형 기법은 희소데이터에 나타난 사용자와 아이템의 추가 속성 정보의 확률분포를 이용하여 알려지지 않은 선호도 값을 예측함으로써 희소성이 높은 선호도 데이터를 변경하고, 변경된 선호도 데이터를 협동적 추천에 적용하여 추천 성능을 향상시킨다. 이와 같은 선호도 데이터 변경 기법을 데이터 블러링(data blurring)이라 한다. 몇가지 실험 결과를 통해 제안된 기법의 효과를 확인하였다.

  • PDF

Trajectory Similarity Retrieval of Moving Objects (움직임 객체의 궤적 유사도 검색)

  • 김미희;복경수;유재수;조기형
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.267-270
    • /
    • 2002
  • 최근 멀티미디어 데이터에 대한 관심이 높아지면서 비디오 데이터에 대한 연구가 매우 활발히 진행되고 있다. 비디오 데이터에는 시간의 변화에 따라 공간적인 위치가 변화하는 움직임 객체를 포함하고 있다. 이러한 움직임 객체를 효과적으로 표현하고 검색하기 위해서는 객체의 전체적인 움직임을 파악할 수 있는 궤적을 표현하고 검색할 수 있는 방법이 필요하다. 본 논문에서는 비디오 내의 움직임 객체의 궤적을 효과적으로 표현하고 검색하는 기법을 제안한다. 따라서 움직임 객체의 궤적 유사도 검색을 수행하도록 한다.

  • PDF

Clustering and Leaf Ordering for Gene Expression Profiles (유전자 발현 데이터에 대한 클러스터링과 리프오더링 연구)

  • 여상수;이정원;김성권
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.736-738
    • /
    • 2002
  • 계층적 클러스터링(hierarchical clustering)은 유전자 발현 데이터를 분석할 때 일반적으로 사용하는 방법이다. 계층적 클러스터링의 결과물은 유전자 발현 데이터의 덴드로그램이다. 이 덴드로그램에서 인접한 리프 노드들간의 유사도는 높아지게 하고 멀리 떨어진 노드들간의 유사도는 낮아지게 하기 위해서, 리프 노드들을 재배열하는 과정을 리프오더링이라고 한다. 본 논문에서는 전체 리프 노드들을 대상으로 하는 리프오더링 알고리즘들을 변형하여 각 클러스터별로 리프오더링을 하는 접근방식을 제안하고, 기존의 리프오더링 알고리즘을 사용했을 때의 결과와 제안하는 접근방식을 사용했을 때의 결과를 비교 분석하였다.

  • PDF

Visualization Algorithm for Similarity Connection based on Data Transmutability (데이터 변형성 기반 유사성 연결을 위한 시각화 알고리즘)

  • Kim, Boon-Hee
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.9 no.11
    • /
    • pp.1249-1254
    • /
    • 2014
  • Big data based on numerous data made by the people are used in order to obtain useful information. We can obtain more useful information if it can apply machine learning techniques added deformation of human memory on the characteristics of the computer program. And big data is predicted by using these conclusions. Humans are used to remember similar data as an original data, so big data processing technology should reflect these human characteristics. In this study, this algorithm to provide the selectivity of information is proposed. This algorithm is the technology to reflect the above factors. This algorithm is selected the data with high selectivity to determine similar data based on the deformation characteristics of the data.

Designing and Implementing Clustering Method of Particulate Matter Data by Region (지역별 미세먼지 발생 데이터 클러스터링 메소드 설계 및 구현)

  • Moon, Ju-Hwan;Yoon, Hong-Sik
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2016.11a
    • /
    • pp.424-425
    • /
    • 2016
  • 본 연구는 우리나라의 지역별 미세먼지 발생 데이터에 대한 수집과 그에 대한 분석, 처리 방법에 대한 연구로 수집된 미세먼지 데이터에 대한 클러스터링 메소드를 설계하고 구현하는 것을 목표로한다. 본 연구에서는 기상청 산하의 30여개의 관측소에서 측정된 미세먼지 데이터를 기반으로 클러스터링 작업에 대한 전처리를 실시한다. 이러한 전 처리에는 각 관측소의 미세먼지 데이터의 시계열 그래프의 유사도를 비교하기 위하여 Dynamic Time Warping알고리즘을 활용하였으며 이를 통해 산출되는 DTW값을 통하여 유사도가 높은 미세먼지 측정 지역별 클러스터링을 수행해 클러스터링 군별 미세먼지 발생 원인에 대한 분석과 대비, 피해저감 방안등의 대책 마련을 위한 자료로서 활용됨을 목적으로 한다.

  • PDF

Redundant and Abnormal Data Processing Scheme in Large-scale IoT Environment (대규모 IoT 환경에서의 중복 및 비정상 데이터 처리 기법)

  • Kim, Min-Woo;Lee, Tae-Ho;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.109-110
    • /
    • 2019
  • 최근 IoT 환경에서는 고밀도로 노드가 분포되어진다. 이러한 센서 노드들은 데이터 전송 시 혼잡을 초래하는 중복 데이터를 생성하여 데이터의 정확도를 저하시킨다. 이에 따라 본 연구에서는 데이터 집중으로 인해 발생하는 네트워크의 정체 문제를 해결하기 위해 제안 기법은 사 분위(Interquatile, IRQ) 분석과 코사인 유사도 함수를 통해 데이터의 이상치와 중복성을 측정하여 중복 데이터 및 특이치를 제거한다. 본 연구를 통하여 최적의 데이터 전송을 통하여 IoT의 통신 성능을 향상시킬 수 있으며 결과적으로 데이터 감소율, 네트워크 수명 및 에너지의 효율성을 높일 수 있다.

  • PDF

AI Performance Based On Learning-Data Labeling Accuracy (인공지능 학습데이터 라벨링 정확도에 따른 인공지능 성능)

  • Ji-Hoon Lee;Jieun Shin
    • Journal of Industrial Convergence
    • /
    • v.22 no.1
    • /
    • pp.177-183
    • /
    • 2024
  • The study investigates the impact of data quality on the performance of artificial intelligence (AI). To this end, the impact of labeling error levels on the performance of artificial intelligence was compared and analyzed through simulation, taking into account the similarity of data features and the imbalance of class composition. As a result, data with high similarity between characteristic variables were found to be more sensitive to labeling accuracy than data with low similarity between characteristic variables. It was observed that artificial intelligence accuracy tended to decrease rapidly as class imbalance increased. This will serve as the fundamental data for evaluating the quality criteria and conducting related research on artificial intelligence learning data.

Semantic and Syntax Paraphrase Text Generation (유사구조 및 유사의미 문장 생성 방법)

  • Seo, Hyein;Jung, Sangkeun;Jung, Jeesu
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.162-166
    • /
    • 2020
  • 자연어 이해는 대화 인터페이스나 정보 추출 등에 활용되는 핵심 기술 중 하나이다. 최근 딥러닝을 활용한 데이터 기반 자연어 이해 연구가 많이 이루어지고 있으며, 이러한 연구에 있어서 데이터 확장은 매우 중요한 역할을 하게 된다. 본 연구는 자연어 이해영역에서의 말뭉치 혹은 데이터 확장에 있어서, 입력으로 주어진 문장과 문법구조 및 의미가 유사한 문장을 생성하는 새로운 방법을 제시한다. 이를 위해, 우리는 GPT를 이용하여 대량의 문장을 생성하고, 문장과 문장 사이의 문법구조 및 의미 거리 계산법을 제시하여, 이를 이용해 가장 유사하지만 새로운 문장을 생성하는 방법을 취한다. 한국어 말뭉치 Weather와 영어 말뭉치 Atis, Snips, M2M-Movie M2M-Reservation을 이용하여 제안방법이 효과적임을 확인하였다.

  • PDF