• 제목/요약/키워드: redundant data

검색결과 443건 처리시간 0.023초

무선 센서 네트워크 환경에서 그리드 구조를 이용한 다중 질의 처리 기법 (Multi -Query Processing using the Grid Structure in Wireless Sensor Networks)

  • 강광구;성동욱;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1086-1090
    • /
    • 2010
  • 최근 센서 네트워크의 활용 분야가 증가함에 따라 시스템을 효율적으로 운용하기 위한 다양한 연구들이 진행되고 있다. 대표적인 연구로 센서가 에너지를 소모하는 데 있어서 큰 비중을 차지하는 데이터 전송 비용을 줄이기 위해서 질의 최적화 기법이 연구되고 있다. 본 논문에서는 무선 센서 네트워크 환경에서 다수의 영역 질의가 발생하였을 때 질의들 간의 부분 결과를 공유함으로써 에너지 효율적인 다중 질의 처리 기법을 제안하였다. 제안하는 기법은 그리드 구조를 이용하여 직관적인 위치 판별을 가능케하여 주변 노드들과의 불필요한 메시지 전송을 줄이고, 중복된 영역을 인지함으로써 효율적인 데이터 공유가 가능하다. 제안하는 기법의 우수성을 보이기 위해 기존에 제안된 기법과 시뮬레이션을 통해 성능을 비교평가 하였다. 그 결과, 다중 질의 처리 시 발생하는 에너지 소모가 기존 기법에 비해 약 65% 감소되었다.

대화문 재구조화를 통한 한국어 대화문 요약 (Summarization of Korean Dialogues through Dialogue Restructuring)

  • 김은희;임명진;신주현
    • 스마트미디어저널
    • /
    • 제12권11호
    • /
    • pp.77-85
    • /
    • 2023
  • COVID-19 이후 온라인을 통한 소통이 증가하여 다양한 플랫폼을 기반으로 소통을 위한 대화 텍스트 데이터가 대량으로 축적되고 있다. 텍스트 데이터로부터 유의미한 정보를 추출하기 위한 텍스트 요약에 대한 중요성이 더욱 증가함에 따라 딥러닝을 활용한 추상 요약 연구가 활발하게 이루어지고 있다. 그러나 대화 데이터는 뉴스 기사와 같은 정형화된 텍스트에 비해 누락 및 변형이 많아 대화 상황을 다양한 관점에서 고려해야 하는 특이성이 있다. 특히 어휘 생략과 동시에 내용과 관련 없는 표현 요소들이 대화의 내용을 요약하는 데 방해가 된다. 그러므로 본 연구에서는 한국어 대화 데이터의 특성을 고려하여 발화문을 재구조화하고 KoBART 기반의 사전학습된 텍스트 요약 모델을 파인 튜닝후, 요약문에서 중복 요소를 제거하는 정제 작업을 통해 대화 데이터 요약 성능을 향상시키고자 한다. 발화문을 재구조화하는 방법으로는 발화 순서에 따라 재구조화는 방법과 중심 발화자를 기준으로 재구조화하는 방법을 결합하였다. 대화문 재구조화 방법을 적용한 결과, Rouge-1 점수가 4 정도 향상되었다. 본 연구의 대화 특성을 고려한 재구조화 방법이 한국어 대화 요약 성능 향상에 유의미함을 입증하였다.

GEDA: New Knowledge Base of Gene Expression in Drug Addiction

  • Suh, Young-Ju;Yang, Moon-Hee;Yoon, Suk-Joon;Park, Jong-Hoon
    • BMB Reports
    • /
    • 제39권4호
    • /
    • pp.441-447
    • /
    • 2006
  • Abuse of drugs can elicit compulsive drug seeking behaviors upon repeated administration, and ultimately leads to the phenomenon of addiction. We developed a procedure for the standardization of microarray gene expression data of rat brain in drug addiction and stored them in a single integrated database system, focusing on more effective data processing and interpretation. Another characteristic of the present database is that it has a systematic flexibility for statistical analysis and linking with other databases. Basically, we adopt an intelligent SQL querying system, as the foundation of our DB, in order to set up an interactive module which can automatically read the raw gene expression data in the standardized format. We maximize the usability of this DB, helping users study significant gene expression and identify biological function of the genes through integrated up-to-date gene information such as GO annotation and metabolic pathway. For collecting the latest information of selected gene from the database, we also set up the local BLAST search engine and non-redundant sequence database updated by NCBI server on a daily basis. We find that the present database is a useful query interface and data-mining tool, specifically for finding out the genes related to drug addiction. We apply this system to the identification and characterization of methamphetamine-induced genes' behavior in rat brain.

시맨틱 RDF 데이터에 대한 효과적인 키워드 검색 (Effective Keyword Search on Semantic RDF Data)

  • 박창섭
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.209-220
    • /
    • 2017
  • 최근 지식 베이스, 시맨틱 웹 등 여러 응용 분야에서 시맨틱 데이터의 활용이 증가함에 따라 대규모 RDF 데이터에 대한 효과적인 검색 방법의 필요성이 커지고 있다. 기존의 개별 루트 시맨틱에 기반한 키워드 검색 방법들은 서로 다른 루트 노드를 갖는 결과 트리들의 집합만을 검색함에 따라, 의미적으로 유사하거나 연관성이 낮은 결과 트리들이 함께 검색되고, 동일한 루트 노드를 공유하되 의미적으로 다르고 질의 연관도가 높은 결과들은 함께 검색될 수 없는 문제점이 있다. 이를 개선하기 위해 본 논문에서는 결과 트리들의 루트 노드의 중복을 제한적으로 허용하여 질의 연관도가 높으면서 다양한 결과들을 함께 검색하는 방법을 제안한다. 이를 위해 결과 트리 집합의 루트 중복도 척도를 정의하고, 주어진 키워드 질의와 최대 루트 중복도에 따라 제한적인 루트 중복성을 가지면서 연관도가 높은 top-k 결과 트리들을 효율적으로 구하기 위한 검색 알고리즘을 제시한다. 실 데이터를 이용한 성능 실험 결과, 제안한 방법이 기존 방법보다 콘텐트 노드들의 중복이 적은 다양한 결과 트리들을 검색할 뿐만 아니라 결과 트리들의 루트 노드의 중복을 허용함으로써 질의 연관도가 더 높은 결과들을 생성할 수 있음을 보였다.

패킷 손실에 강인한 중복 비디오 패킷 전송 기법 (Duplicate Video Packet Transmission for Packet Loss-resilience)

  • 서만근;정용원;서광덕;김재균
    • 한국통신학회논문지
    • /
    • 제30권8C호
    • /
    • pp.810-823
    • /
    • 2005
  • 패킷 손실망을 통한 비디오 전송시 중복 패킷 전송에 의하여 복구에 소요되는 불필요한 시간지연을 방지하고 손실된 패킷에 대한 강인한 복구 성능을 얻을 수 있다. 그러나 이 방법의 단점은 중복적인 데이터 전송으로 전송 데이터량이 증가하여 망에서의 트래픽량을 증가시키는 것이다. 본 논문에서는 중복 전송 기법을 위한 효과적인 중복 데이터 생성, 패킷화 및 전송원리를 제안한다. 제안된 방법은 영상 재생을 위해 필요한 중요한 부호화 정보만을 중복 패킷화하여 전송함으로써 중복 데이터 생성을 위해 필요한 추가 비트량을 감소시킨다. 또한 중복 데이터 전송을 위해 필요한 패킷화 과정에서 이전 영상의 중복 데이터를 현재 영상의 패킷에 포함시켜 패킷화 하는 Piggyback 패킷화 개념을 도입하여 패킷 오버헤드를 급격히 감소시킨다. 실험결과를 통해 제안된 중복 패킷 전송 방법은 단일 패킷 전송 방법에 비해 적은 량의 추가적인 비트량으로 패킷 손실 환경에서 매우 우수한 복구 특성을 보임을 확인한다.

기계학습 알고리즘 기반의 인공지능 장기 게임 개발 (Development of Artificial Intelligence Janggi Game based on Machine Learning Algorithm)

  • 장명규;김영호;민동엽;박기현;이승수;우종우
    • 한국IT서비스학회지
    • /
    • 제16권4호
    • /
    • pp.137-148
    • /
    • 2017
  • Researches on the Artificial Intelligence has been explosively activated in various fields since the advent of AlphaGo. Particularly, researchers on the application of multi-layer neural network such as deep learning, and various machine learning algorithms are being focused actively. In this paper, we described a development of an artificial intelligence Janggi game based on reinforcement learning algorithm and MCTS (Monte Carlo Tree Search) algorithm with accumulated game data. The previous artificial intelligence games are mostly developed based on mini-max algorithm, which depends only on the results of the tree search algorithms. They cannot use of the real data from the games experts, nor cannot enhance the performance by learning. In this paper, we suggest our approach to overcome those limitations as follows. First, we collects Janggi expert's game data, which can reflect abundant real game results. Second, we create a graph structure by using the game data, which can remove redundant movement. And third, we apply the reinforcement learning algorithm and MCTS algorithm to select the best next move. In addition, the learned graph is stored by object serialization method to provide continuity of the game. The experiment of this study is done with two different types as follows. First, our system is confronted with other AI based system that is currently being served on the internet. Second, our system confronted with some Janggi experts who have winning records of more than 50%. Experimental results show that the rate of our system is significantly higher.

기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰 (A review of gene selection methods based on machine learning approaches)

  • 이하정;김재직
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.667-684
    • /
    • 2022
  • 유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.

Visual Model of Pattern Design Based on Deep Convolutional Neural Network

  • Jingjing Ye;Jun Wang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권2호
    • /
    • pp.311-326
    • /
    • 2024
  • The rapid development of neural network technology promotes the neural network model driven by big data to overcome the texture effect of complex objects. Due to the limitations in complex scenes, it is necessary to establish custom template matching and apply it to the research of many fields of computational vision technology. The dependence on high-quality small label sample database data is not very strong, and the machine learning system of deep feature connection to complete the task of texture effect inference and speculation is relatively poor. The style transfer algorithm based on neural network collects and preserves the data of patterns, extracts and modernizes their features. Through the algorithm model, it is easier to present the texture color of patterns and display them digitally. In this paper, according to the texture effect reasoning of custom template matching, the 3D visualization of the target is transformed into a 3D model. The high similarity between the scene to be inferred and the user-defined template is calculated by the user-defined template of the multi-dimensional external feature label. The convolutional neural network is adopted to optimize the external area of the object to improve the sampling quality and computational performance of the sample pyramid structure. The results indicate that the proposed algorithm can accurately capture the significant target, achieve more ablation noise, and improve the visualization results. The proposed deep convolutional neural network optimization algorithm has good rapidity, data accuracy and robustness. The proposed algorithm can adapt to the calculation of more task scenes, display the redundant vision-related information of image conversion, enhance the powerful computing power, and further improve the computational efficiency and accuracy of convolutional networks, which has a high research significance for the study of image information conversion.

Gait-Based Gender Classification Using a Correlation-Based Feature Selection Technique

  • Beom Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.55-66
    • /
    • 2024
  • 성별 분류 기술은 법의학, 감시 시스템, 인구 통계 연구 등 다양한 분야에서 활용될 수 있기 때문에, 연구자들로부터 많은 관심을 받고 있다. 남성과 여성의 보행 사이에는 서로 구별되는 특징이 있다는 것이 기존 연구들에서 밝혀지면서, 3차원 보행 데이터에서 성별을 분류하는 다양한 기술들이 제안됐다. 하지만, 기존 기술들을 사용해 3차원 보행 데이터로부터 추출한 보행 특징 중에는 서로 유사 또는 중복되거나 성별 분류에 도움이 되지 않는 특징들도 있다. 이에 본 연구에서는 상관관계 기반 특징 선별 기술을 활용해, 성별 분류에 도움이 되는 특징들을 선별하는 방법을 제안한다. 그리고 제안하는 특징 선별 기술의 효용성을 입증하기 위해서, 인터넷상에 공개된 3차원 보행 데이터 세트(Dataset)를 활용하여 제안하는 특징 선별 기술을 적용하기 전과 후에 대해 성별 분류 모델들의 성능을 비교 분석하였다. 실험에는 이진 분류 문제에 적용할 수 있는 여덟 가지의 머신러닝 알고리즘(Machine Learning Algorithms)을 활용하였다. 실험 결과, 제안하는 특징 선별 기술을 사용하면 성별 분류 성능은 유지하면서, 특징의 개수를 82개에서 60개까지, 22개를 줄일 수 있다는 것을 입증하였다.

부패지수 측정모형에 대한 비교연구 : 서울시 시정청렴성지수 측정모형과 경실련 부패지수 측정모형을 중심으로 (A Comparative Study on the Measurement Model of Anti-Corruption Index : Anti-Corruption Index and CCEJ's Corruption Index)

  • 박용치;이충민
    • 한국조사연구학회지:조사연구
    • /
    • 제6권1호
    • /
    • pp.1-38
    • /
    • 2005
  • 본 논문은 부패문제의 중요성에 대한 대중적 인식의 확산과 부패를 측정하는 연구모형의 중요성을 고려하여 기존의 부패지수 측정모형들을 비교 ${\cdot}$ 분석하였다. 이 연구에서는 서울시정개발연구원에서 개발한 “서울시 시정청렴성지수 측정모형”과 “경실련 부패지수 측정모형”을 분석의 대상으로 선정하여 ‘지표 및 지수선정방식의 적정성’, ‘조사설계의 적절성’, ‘통계활용의 적절성’의 3가지 측면에서 분석하였다. 본 연구에서 발견된 두 모형의 문제점은 다음과 같다. 첫째, 지표 및 지수선정방식에 있어서, 경실련부패지수는 지표가 너무 세분화되어 있고, 중복적인 지표도 다수 포함되어 있었으며, 지표별 가중치를 두지 않음으로써 지표별 중요도를 고려하지 않았다. 시정청렴지수 측정모형은 가중치를 부여하기 위한 가중치평가단에 일반시민에 대한 조사가 포함되어 있지 않아 부패를 체감하는 당사자인 민원인들의 의견을 수렴하지 못하였다 서울시 모형은 부패수준에 대한 직접적인 질문이 빠져 있어 실질적인 부패수준과 인식수준과의 차이점을 밝혀내지 못하였다. 둘째, 조사 설계의 적절성 여부에서는, 경실련 부패지수는 표본수가 너무 적어서 조사의 신뢰성에 문제가 있었으며, 조사방법에 있어서 각 구청에서 출구조사를 실시함으로써 객관성을 떨어뜨리고 있다. 질문문항의 수도 총 38문항으로 시정청렴성지수의 13문항에 비하여 지나치게 많은 감이 있으며 질문을 작성함에 있어 불명확하고 중복적인 용어가 사용되고 있었다. 셋째, 통계활용의 적절성 부분에서는, 시정청렴성지수 측정모형의 경우, 객관적 통계의 활용에 문제점을 제기하여 지표체계에서 삭제하였으며, 경실련 부패지수에서는 1995년부터 1999년까지의 서울시 각 자치구 소속 공무원의 징계자료를 수집하여 자료로 사용하였다. 통계를 자료로 사용가능하기 위해서는 충분한 양의 징계건수가 필요하며, 통계의 신뢰성이 높아야 한다. 현재 우리나라에서 집계되는 통계는 부패의 일각만을 나타내는 것으로 판단된다. 게다가 징계 유형별로 어느 정도의 가중치를 줄 것인가에 대한 객관적인 방법이 아직 개발되어 있지 않은 실정이어서 이러한 점에서 아직까지 객관적 통계자료의 사용은 한계를 가지고 있다. 위의 문제점들이 개선되기 위해서는 평가지표에 객관적 자료가 추가되고, 다양한 평가지표들이 발굴되어야 하며, 각 지표간의 가중치문제가 해결되어야 한다.

  • PDF