• Title/Summary/Keyword: 데이터 구조 유사도

Search Result 548, Processing Time 0.029 seconds

Implementation of motif database for integrating motif sources (모티프 자원 통합을 위한 데이터베이스 구축)

  • 이범주;최은선;류근호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.160-162
    • /
    • 2002
  • 서열 시퀀싱을 통해 등장하는 원시 데이터들을 대상으로 유사한 서열과 기능 예측에 사용되는 모티프 데이터베이스들은 원시 데이터 생성 속도가 빠르게 증가함에 따라 그 중요성 또한 나날이 증가하고 있다. 그러나, 이러한 모티프 데이터베이스들은 서로 독자적으로 개발되고 발전되어 왔기 때문에 각각 서로 다른 형식의 데이터를 사용하고 있어 이에 대한 검색결과도 데이터베이스마다 서로 이질적인 형태로 제공하고 있다. 그러므로 사용자는 각 데이터베이스에서 사용하는 데이터 구조들에 대한 전반적 지식을 습득해야 할 뿐만 아니라 중복된 반복 검색 작업을 하여야 한다. 따라서, 이 논문에서는 이러한 문제 해결을 위해 독립적인 모티프 데이터베이스들의 자원을 분해하고, 합병하는 과정을 거쳐 하나의 통합된 모티프 데이터베이스를 구축하였다. 또한 데이터베이스의 각 엔트리당 단백질의 3차 구조 정보, 분류 정보, 샘플 정보의 지원을 가능케 하여 기존 검색 조건을 개선하였다. 이 데이터베이스 구축으로서 사용자는 모티프 데이터베이스 검색에 대한 streamline적인 검색이 가능할 뿐만 아니라 기존의 통합된 데이터베이스에서 지원되지 못한 구조 정보, 분류 정보 검색을 가능케 하였다.

  • PDF

A Database Design Method using a Data Similarity Metric: Its Application on Manufacturing Database (데이타 유사성 척도를 이용한 생산정보 데이타베이스의 분산 구조 설계)

  • Choi, Tae-Kwang;Lee, June-Yen;Lee, Kuk-Chul;Lee, Chun-Yul;Kim, Joo-Hyun;Lee, Han-Pyo
    • IE interfaces
    • /
    • v.8 no.3
    • /
    • pp.269-278
    • /
    • 1995
  • 본 논문은 분산환경하에서 생산정보, 데이터 분석의 일 방안으로서 데이터의 관리 주체와 데이터들간의 유사성에 기초한 분산 기준을 제시한다. 제안된 분산기준은 데이터베이스 설계의 초기과정에서 네트워크 환경의 각 노드에서의 트랜젝션의 발생 수와 데이터 이용량의 예측이 용이하지 않은 경우에도 적용 가능하다는 점에서 가치를 지닌다. 제시된 설계 기준을 이용하여 생산정보 데이터베이스의 분산 모형을 설계, 제시한다.

  • PDF

Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction (정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론)

  • Myunghoon Kang;Jungseob Lee;Seungjun Lee;Hyeonseok Moon;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.485-490
    • /
    • 2022
  • 데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.

  • PDF

노심용융사고시 원자로 압력용기 하반부 거동연구(II)

  • 임동철;정광진;황일순
    • Proceedings of the Korean Nuclear Society Conference
    • /
    • 1997.05a
    • /
    • pp.600-605
    • /
    • 1997
  • Sandia National Laboratories(SNL)에서 수행된 원자로 용기의 고온, 고압 크리프 파괴 실험의 하나인 Lower Head Failure-1(LHF-1)에 대한 코드 해석을 수행하였다. 해석 코드로는 범용 유한요소 구조해석 코드인 ABACUS를 사용하였고, Idaho National Engineering Laboratory(INEL)의 크리프 데이터를 이용하였다. 크리프 해석에는 strain hardening 식을 적용하였고, 크리프 데이터를 적용하기 위해서 user subroutine을 개발하였다. 민감도 분석의 일환으로 내부 압력을 1.2배로 증가시킨 경우에 대해 수행한 해석 결과가 실험 결과와 유사하였다 해석 결과를 분석하여 현 크리프 데이터의 절대적 부족을 확인하였고, 크리프데이터 생산을 위한 크리프 시험을 계획하였다.

  • PDF

Translation Pre-processing Technique for Improving Analysis Performance of Korean News (한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법)

  • Lee, Ji-Min;Jeong, Da-Woon;Gu, Yeong-Hyeon;Yoo, Seong-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

Transitive Similarity Evaluation Model for Improving Sparsity in Collaborative Filtering (협업필터링의 희박 행렬 문제를 위한 이행적 유사도 평가 모델)

  • Bae, Eun-Young;Yu, Seok-Jong
    • The Journal of Korean Institute of Information Technology
    • /
    • v.16 no.12
    • /
    • pp.109-114
    • /
    • 2018
  • Collaborative filtering has been widely utilized in recommender systems as typical algorithm for outstanding performance. Since it depends on item rating history structurally, The more sparse rating matrix is, the lower its recommendation accuracy is, and sometimes it is totally useless. Variety of hybrid approaches have tried to combine collaborative filtering and content-based method for improving the sparsity issue in rating matrix. In this study, a new method is suggested for the same purpose, but with different perspective, it deals with no-match situation in person-person similarity evaluation. This method is called the transitive similarity model because it is based on relation graph of people, and it compares recommendation accuracy by applying to Movielens open dataset.

Implementation of the UDDI Registry Server on top of the ebXML Registry (ebXML Registry 기반의 UDDI Registry Server 구현)

  • Park, Jae-Hong;Kim, Sang-Kyun;Lee, Kyu-Chul;Cho, Hyun-Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1749-1752
    • /
    • 2002
  • 최근 들어 B2B 기반의 전자상거래 프레임워크로 UN/CEFACT 과 OASIS 를 주축으로 하는 ebXML과 Microsoft, IBM, Ariba를 포함한 기업과 단체를 주축으로 하는 웹 서비스가 대두되고 있다. 이들은 모두 사용자 및 어플리케이션들이 정보를 저장하고 이를 공유할 수 있는 Registry 를 기반으로 서비스를 제공하고 있으며, 이를 위해 ebXML 은 ebXML Registry를, 웹 서비스는 UDDI Registry를 이용한다. ebXML 과 웹 서비스는 서로 다른 Registry 를 사용하고 있지만, Registry 를 사용하고 있지만, Registry 의 구조와 기능은 유사하거나 동일한 부분이 많다. 본 논문은 이에 착안하여 서로 유사하거나 동일한 역할을 가진 ebXML RIM의 구조와 UDDI의 데이터구조를 매핑함으로써, ebXML RIM 상에 UDDI 데이터구조를 표현하는 규칙을 찾고, 이를 이용하여 UDDI Registry Client의 서비스 요구를 ebXML Registry 를 이용하여 처리하는 UDDI Registry Server 를 설계한다. 이는 ebXML Registry 에 별도의 변경을 가하지 않고도 UDDI Registry Client 가 ebXML Registry 를 사용할 수 있게 한다.

  • PDF

Model Evaluations Analysis of Nonpoint Source Pollution Reduction in a Green Infrastructure regarding Urban stormwater (도시 호우 유출에 관한 그린인프라의 비점오염원 저감 모델 평가 분석)

  • Jeon, Seol;Kim, Siyeon;Lee, Moonyoung;Um, Myoung-Jin;Jung, Kichul;Park, Daeryong
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2021.06a
    • /
    • pp.393-393
    • /
    • 2021
  • 도시화는 도시 호우 유출 발생으로 인한 수질 악화를 초래했고 문제를 해결하기 위해 본 연구에서는 보다 정확한 설계를 위해 그린인프라(Green Infrastructure, GI)의 구조적 특성과 수문학적인 특성을 이용해 어떤 인자들이 설계에 필요한지 상관관계를 통해 분석하였다. GI의 종류 중 저류지와 저류연못의 총부유사량(Total Suspended Solids, TSS)와 총인 (Total Phosphorous, TP)의 유입수, 유출수, 비점오염원 농도, 수문학적인 특성 그리고 GI의 구조적 특성을 Ordinary Least Squares regression(OLS)과 Multi Linear Regression(MLR) 방법을 적용하였다. GI의 구조적인 특성은 한 BMP마다 달라지지 않으나 호우사상의 데이터 개수에 의한 편향이 있을 수 있다. 이런 문제를 해결하기 위해 일정한 범위를 가지고 무작위로 데이터를 추출하는 방법과 이상치를 제외하는 방법을 사용하여 모델에 적용하였다. 이러한 OLS와 MLR 모델들의 정확도를 PBIAS(Percent Bias), NSE(Nash-Sutcliffe efficiency), RSR(RMSE-observations standard deviation ratio)을 통해 분석할 수 있다. 연구 결과 유입수의 비점오염원의 농도뿐만 아니라 수문학적 특성과 GI의 구조적 특성이 함께 들어갈 시 더 좋은 상관관계를 가지고 있음을 알 수 있다. 저류지가 저류연못보다 모델의 성능평가 면에서 좋은 값을 가지고 있지만 특성별 상관관계는 저류연못이 더 뚜렷한 결과를 보여준다.

  • PDF

Deciphering FEATURE for Novel Protein Data Analysis and Functional Annotation (단백질 구조 및 기능 분석을 위한 FEATURE 시스템 개선)

  • Yu, Seung-Hak;Yoon, Sung-Roh
    • Journal of IKEEE
    • /
    • v.13 no.3
    • /
    • pp.18-23
    • /
    • 2009
  • FEATURE is a computational method to recognize functional and structural sites for automatic protein function prediction. By profiling physicochemical properties around residues, FEATURE can characterize and predict functional and structural sites in 3D protein structures in a high-throughput manner. Despite its effectiveness, it has been challenging to apply FEATURE to novel protein data due to limited customization support. To address this problem, we thoroughly analyze the internal modules of FEATURE and propose a methodology to customize FEATURE so that it can be used for new protein data for automatic functional annotations.

  • PDF

A Study on Fuzzy Logic based Clustering Method for Radar Data Analysis (레이더 데이터 분석을 위한 Fuzzy Logic 기반 클러스터링 기법에 관한 연구)

  • Lee, Hansoo;Kim, Eun Kyeong;Kim, Sungshin
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.25 no.3
    • /
    • pp.217-222
    • /
    • 2015
  • Clustering is one of important data mining techniques known as exploratory data analysis and is being applied in various engineering and scientific fields such as pattern recognition, remote sensing, and so on. The method organizes data by abstracting underlying structure either as a grouping of individuals or as a hierarchy of groups. Weather radar observes atmospheric objects by utilizing reflected signals and stores observed data in corresponding coordinate. To analyze the radar data, it is needed to be separately organized precipitation and non-precipitation echo based on similarities. Thus, this paper studies to apply clustering method to radar data. In addition, in order to solve the problem when precipitation echo locates close to non-precipitation echo, fuzzy logic based clustering method which can consider both distance and other properties such as reflectivity and Doppler velocity is suggested in this paper. By using actual cases, the suggested clustering method derives better results than previous method in near-located precipitation and non-precipitation echo case.