• 제목/요약/키워드: Data Annotation

검색결과 259건 처리시간 0.027초

Functional Annotation and Analysis of Korean Patented Biological Sequences Using Bioinformatics

  • Lee, Byung Wook;Kim, Tae Hyung;Kim, Seon Kyu;Kim, Sang Soo;Ryu, Gee Chan;Bhak, Jong
    • Molecules and Cells
    • /
    • 제21권2호
    • /
    • pp.269-275
    • /
    • 2006
  • A recent report of the Korean Intellectual Property Office(KIPO) showed that the number of biological sequence-based patents is rapidly increasing in Korea. We present biological features of Korean patented sequences though bioinformatic analysis. The analysis is divided into two steps. The first is an annotation step in which the patented sequences were annotated with the Reference Sequence (RefSeq) database. The second is an association step in which the patented sequences were linked to genes, diseases, pathway, and biological functions. We used Entrez Gene, Online Mendelian Inheritance in Man (OMIM), Kyoto Encyclopedia of Genes and Genomes (KEGG), and Gene Ontology (GO) databases. Through the association analysis, we found that nearly 2.6% of human genes were associated with Korean patenting, compared to 20% of human genes in the U.S. patent. The association between the biological functions and the patented sequences indicated that genes whose products act as hormones on defense responses in the extra-cellular environments were the most highly targeted for patenting. The analysis data are available at http://www.patome.net

Chromosome-Centric Human Proteome Study of Chromosome 11 Team

  • Hwang, Heeyoun;Kim, Jin Young;Yoo, Jong Shin
    • Mass Spectrometry Letters
    • /
    • 제12권3호
    • /
    • pp.60-65
    • /
    • 2021
  • As a part of the Chromosome-centric Human Proteome Project (C-HPP), we have developed a few algorithms for accurate identification of missing proteins, alternative splicing variants, single amino acid variants, and characterization of function unannotated proteins. We have found missing proteins, novel and known ASVs, and SAAVs using LC-MS/MS data from human brain and olfactory epithelial tissue, where we validated their existence using synthetic peptides. According to the neXtProt database, the number of missing proteins in chromosome 11 shows a decreasing pattern. The development of genomic and transcriptomic sequencing techniques make the number of protein variants in chromosome 11 tremendously increase. We developed a web solution named as SAAvpedia for identification and function annotation of SAAVs, and the SAAV information is automatically transformed into the neXtProt web page using REST API service. For the 73 uPE1 in chromosome 11, we have studied the function annotaion of CCDC90B (NX_Q9GZT6), SMAP (NX_O00193), and C11orf52 (NX_Q96A22).

OryzaGP: rice gene and protein dataset for named-entity recognition

  • Larmande, Pierre;Do, Huy;Wang, Yue
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.17.1-17.3
    • /
    • 2019
  • Text mining has become an important research method in biology, with its original purpose to extract biological entities, such as genes, proteins and phenotypic traits, to extend knowledge from scientific papers. However, few thorough studies on text mining and application development, for plant molecular biology data, have been performed, especially for rice, resulting in a lack of datasets available to solve named-entity recognition tasks for this species. Since there are rare benchmarks available for rice, we faced various difficulties in exploiting advanced machine learning methods for accurate analysis of the rice literature. To evaluate several approaches to automatically extract information from gene/protein entities, we built a new dataset for rice as a benchmark. This dataset is composed of a set of titles and abstracts, extracted from scientific papers focusing on the rice species, and is downloaded from PubMed. During the 5th Biomedical Linked Annotation Hackathon, a portion of the dataset was uploaded to PubAnnotation for sharing. Our ultimate goal is to offer a shared task of rice gene/protein name recognition through the BioNLP Open Shared Tasks framework using the dataset, to facilitate an open comparison and evaluation of different approaches to the task.

High quality genome sequence of Treponema phagedenis KS1 isolated from bovine digital dermatitis

  • Espiritu, Hector M.;Mamuad, Lovelia L.;Jin, Su-jeong;Kim, Seon-ho;Lee, Sang-suk;Cho, Yong-il
    • Journal of Animal Science and Technology
    • /
    • 제62권6호
    • /
    • pp.948-951
    • /
    • 2020
  • Treponema phagedenis KS1, a fastidious anaerobe, was isolated from a bovine digital dermatitis (BDD)-infected dairy cattle in Chungnam, Korea. Initial data indicated that T. phagedenis KS1 exhibited putative virulent phenotypic characteristics. This study reports the whole genome assembly and annotation of T. phagedenis KS1 (KCTC14157BP) to assist in the identification of putative pathogenicity related factors. The whole genome of T. phagedenis KS1 was sequenced using PacBio RSII and Illumina HiSeqXTen platforms. The assembled T. phagedenis KS1 genome comprises 16 contigs with a total size of 3,769,422 bp and an overall guanine-cytosine (GC) content of 40.03%. Annotation revealed 3,460 protein-coding genes, as well as 49 transfer RNA- and 6 ribosomal RNA-coding genes. The results of this study provide insight into the pathogenicity of T. phagedenis KS1.

영상의 에지 특징정보를 이용한 주석기반 및 내용기반 영상 검색 시스템의 구현 (Implementation of Annotation-Based and Content-Based Image Retrieval System using)

  • 이태동;김민구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제7권5호
    • /
    • pp.510-521
    • /
    • 2001
  • 영상은 대용량적인 특성과 비정형적인 특성을 가지고 있으므로 신속하고 효율적으로 영상을 검색하기 위해 영상의 정확한 특징정보를 추출하여 검색 시스템을 구축하여야 한다. 영상 검색 시스템은 텍스트 기반의 전통 데이타베이스와는 다른 모델링 방법과 검색방법을 사용한다. 따라서, 영상 검색 시스템에서의 검색속도와 정확도를 향상시키기 위해서는 새로운 영상 데이타베이스 생성기법과 효율적인 검색 기법이 필요하다. 본 논문에서는 입력 영상으로부터 검색에 상용되는 에지 특징정보 추출을 위해 라플라시 안마스크와 입력 영상을 컨벌루션하여 에지의 외곽선 데이타를 추출하였으며, 그리고 추출한 에지 특징정보와 메타데이타로 영상 데이타베이스를 생성하여 신속하고 효율적으로 영상을 검색할 수 있도록 주석기반 및 내용기반 영상 검색 시스템을 구현하였다. 주석기반 및 내용기반 영상 검색 시스템은 영상의 하위 레벨에 표현된 내용기반 에지 특징정보와 특징정보 추출이 어려운 상위레벨에 표현된 주석기반 에지 특징 정보를 영상의 색인으로 구성하여 사용하기 때문에 영상 컨텐츠 검색의 성능을 향상시킬 수 있다. 마지막으로 본 논문에서 제시한 영상 검색 시스템은 메타데이타에 의해 영상 데이타베이스를 구축하므로 정확한 영상 컨텐츠 정보의 축적관리와 영상의 정보공유 및 재이용이 가능하다.

  • PDF

객체 움직임의 의미적 단위 생성을 통한 비디오 이벤트 검출 (Video Event Detection according to Generating of Semantic Unit based on Moving Object)

  • 신주현;백선경;김판구
    • 한국멀티미디어학회논문지
    • /
    • 제11권2호
    • /
    • pp.143-152
    • /
    • 2008
  • 비디오 데이터에 대한 의미적 검출을 위해 이벤트 표현에 대한 많은 방법론이 연구되고 있지만, 아직도 저차원 특징을 이용한 내용기반 검출과 각 데이터에 주석을 정의한 주석기반 검출 방법이 대부분이다. 본 논문은 기존의 방법보다 의미적인 검색을 위해 객체 움직임 단위 생성과 이를 통한 이벤트 검출 기법을 제안한다. 첫째, 이벤트 단위로 움직임을 분류한다. 둘째, 분류된 객체 움직임에 대한 의미적 단위를 정의하고 이를 이벤트 검출에 이용하기 위해 저차원 특징과 매핑 가능한 규칙을 생성한다. 이를 통해 비디오 샷 단위의 의미적 이벤트 검출을 가능하게 한다. 제안된 내용의 유용성 평가를 위해 우리는 비디오 영상 이벤트 검출을 실험한 결과 약 80%의 정확률을 얻었다.

  • PDF

키 프레임의 주석과 비교 영역 학습을 이용한 비디오 검색 시스템의 구현 (Implementation of a Video Retrieval System Using Annotation and Comparison Area Learning of Key-Frames)

  • 이근왕;김희숙;이종희
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.269-278
    • /
    • 2005
  • 비디오 데이터를 효율적으로 처리하기 위해서는 비디오 데이터가 가지고 있는 내용에 대한 정보를 데이터베이스에 저장하고 사용자들의 다양한 질의를 처리할 수 있는 의미기반 검색 기법이 요구된다. 본 논문에서는 사용자의 키워드 학습과 비교 영역 학습을 이용하여 대용량의 비디오 데이터에 대한 사용자의 다양한 의미검색을 지원하는 에이전트 기반에서의 자동화된 비디오 검색 시스템을 제안한다. 사용자의 기본적인 질의와 질의에 의해 추출된 키 프레임의 이미지를 선택함으로써 에이전트는 추출된 키 프레임의 주석에 대한 의미를 더욱 구체화시킨다. 또한, 사용자에 의해 선택된 키 프레임은 질의 이미지가 되어 색상 히스토그램 비교기법과 제안하는 비교 영역 학습 기법을 통해 가장 유사한 키 프레임을 검색한다. 설계하고 구현한 시스템은 실험을 통한 성능평가에서 $93\%$ 이상의 높은 정확도를 보였다.

  • PDF

EST Knowledge Integrated Systems (EKIS): An Integrated Database of EST Information for Research Application

  • Kim, Dae-Won;Jung, Tae-Sung;Choi, Young-Sang;Nam, Seong-Hyeuk;Kwon, Hyuk-Ryul;Kim, Dong-Wook;Choi, Han-Suk;Choi, Sang-Heang;Park, Hong-Seog
    • Genomics & Informatics
    • /
    • 제7권1호
    • /
    • pp.38-40
    • /
    • 2009
  • The EST Knowledge Integrated System, EKIS (http://ekis.kribb.re.kr), was established as a part of Korea's Ministry of Education, Science and Technology initiative for genome sequencing and application research of the biological model organisms (GEAR) project. The goals of the EKIS are to collect EST information from GEAR projects and make an integrated database to provide transcriptomic and metabolomic information for biological scientists. The EKIS constitutes five independent categories and several retrieval systems in each category for incorporating massive EST data from high-throughput sequencing of 65 different species. Through the EKIS database, scientists can freely access information including BLAST functional annotation as well as Genechip and pathway information for KEGG. By integrating complex data into a framework of existing EST knowledge information, the EKIS provides new insights into specialized metabolic pathway information for an applied industrial material.

MPEG-7을 기반으로 한 뉴스 동영상 스키마 및 샷 종류별 키프레임을 이용한 요약 생성 방법 (A Scheme for News Videos based on MPEG-7 and Its Summarization Mechanism by using the Key-Frames of Selected Shot Types)

  • 정진국;심진선;낭종호;김경수;하명환;정병희
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제8권5호
    • /
    • pp.530-539
    • /
    • 2002
  • 최근 정형화된 구조를 갖는 뉴스 동영상 비디오에 대한 아카이브 시스템을 구축하기 위한 많은 연구가 진행되어 왔다. 그러나 기존의 시스템에서는 기사에 대한 메타 데이타를 저장하는 방법이 서로 다르기 때문에 이런 데이타 사이의 호환성이 없다는 문제점을 가지고 있다. 본 논문에서는 이런 문제점을 해결하기 위하여 멀티미디어 내용 정보를 표현하기 위한 표준인 MPEC-7 MDS에 바탕을 둔 뉴스 동영상 스키마를 제안하였으며, 또한 기사를 이루는 각 샷들의 특징을 반영한 기사 요약 방법을 설계하고 구현하였다. 본 논문에서 제안한 뉴스 동영상을 위한 스키마는 뉴스 구조의 특성을 반영하여 MPEG-7 MDS의 VideoSegment, TextAnnotation 등과 같은 스키마를 이용하여 설계하였고, 요약 방법에서는 요약 비디오 데이타의 크기를 줄이기 위하여 샷들의 키프레임들만을 해당 오디오와 함께 상영하는 슬라이스 쇼 방법을 사용하였다.

산업용 음성 DB를 위한 XML 기반 메타데이터 (XML Based Meta-data Specification for Industrial Speech Databases)

  • 주영희;홍기형
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.77-91
    • /
    • 2005
  • In this paper, we propose an XML based meta-data specification for industrial speech databases. Building speech databases is very time-consuming and expensive. Recently, by the government supports, huge amount of speech corpus has been collected as speech databases. However, the formats and meta-data for speech databases are different depending on the constructing institutions. In order to advance the reusability and portability of speech databases, a standard representation scheme should be adopted by all speech database construction institutions. ETRI proposed a XML based annotation scheme [51 for speech databases, but the scheme has too simple and flat modeling structure, and may cause duplicated information. In order to overcome such disadvantages in this previous scheme, we first define the speech database more formally and then identify object appearing in speech databases. We then design the data model for speech databases in an object-oriented way. Based on the designed data model, we develop the meta-data specification for industrial speech databases.

  • PDF