• 제목/요약/키워드: Data Annotation

검색결과 258건 처리시간 0.029초

Draft Genome of Toxocara canis, a Pathogen Responsible for Visceral Larva Migrans

  • Kong, Jinhwa;Won, Jungim;Yoon, Jeehee;Lee, UnJoo;Kim, Jong-Il;Huh, Sun
    • Parasites, Hosts and Diseases
    • /
    • 제54권6호
    • /
    • pp.751-758
    • /
    • 2016
  • This study aimed at constructing a draft genome of the adult female worm Toxocara canis using next-generation sequencing (NGS) and de novo assembly, as well as to find new genes after annotation using functional genomics tools. Using an NGS machine, we produced DNA read data of T. canis. The de novo assembly of the read data was performed using SOAPdenovo. RNA read data were assembled using Trinity. Structural annotation, homology search, functional annotation, classification of protein domains, and KEGG pathway analysis were carried out. Besides them, recently developed tools such as MAKER, PASA, Evidence Modeler, and Blast2GO were used. The scaffold DNA was obtained, the N50 was 108,950 bp, and the overall length was 341,776,187 bp. The N50 of the transcriptome was 940 bp, and its length was 53,046,952 bp. The GC content of the entire genome was 39.3%. The total number of genes was 20,178, and the total number of protein sequences was 22,358. Of the 22,358 protein sequences, 4,992 were newly observed in T. canis. Following proteins previously unknown were found: E3 ubiquitin-protein ligase cbl-b and antigen T-cell receptor, zeta chain for T-cell and B-cell regulation; endoprotease bli-4 for cuticle metabolism; mucin 12Ea and polymorphic mucin variant C6/1/40r2.1 for mucin production; tropomodulin-family protein and ryanodine receptor calcium release channels for muscle movement. We were able to find new hypothetical polypeptides sequences unique to T. canis, and the findings of this study are capable of serving as a basis for extending our biological understanding of T. canis.

In-silico characterization and structure-based functional annotation of a hypothetical protein from Campylobacter jejuni involved in propionate catabolism

  • Mazumder, Lincon;Hasan, Mehedi;Rus’d, Ahmed Abu;Islam, Mohammad Ariful
    • Genomics & Informatics
    • /
    • 제19권4호
    • /
    • pp.43.1-43.12
    • /
    • 2021
  • Campylobacter jejuni is one of the most prevalent organisms associated with foodborne illness across the globe causing campylobacteriosis and gastritis. Many proteins of C. jejuni are still unidentified. The purpose of this study was to determine the structure and function of a non-annotated hypothetical protein (HP) from C. jejuni. A number of properties like physiochemical characteristics, 3D structure, and functional annotation of the HP (accession No. CAG2129885.1) were predicted using various bioinformatics tools followed by further validation and quality assessment. Moreover, the protein-protein interactions and active site were obtained from the STRING and CASTp server, respectively. The hypothesized protein possesses various characteristics including an acidic pH, thermal stability, water solubility, and cytoplasmic distribution. While alpha-helix and random coil structures are the most prominent structural components of this protein, most of it is formed of helices and coils. Along with expected quality, the 3D model has been found to be novel. This study has identified the potential role of the HP in 2-methylcitric acid cycle and propionate catabolism. Furthermore, protein-protein interactions revealed several significant functional partners. The in-silico characterization of this protein will assist to understand its molecular mechanism of action better. The methodology of this study would also serve as the basis for additional research into proteomic and genomic data for functional potential identification.

SAAnnot-C3Pap: 반자동 주석화 방법을 적용한 연주 자세의 그라운드 트루스 수집 기법 (SAAnnot-C3Pap: Ground Truth Collection Technique of Playing Posture Using Semi Automatic Annotation Method)

  • 박소현;김서연;박영호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권10호
    • /
    • pp.409-418
    • /
    • 2022
  • 본 논문에서는 연주자 자세의 그라운드 트루스 획득을 위한 반자동 주석 방법인 SAAnnot-C3Pap를 제안한다. 기존 음악 도메인에서 2차원 관절 위치에 대한 그라운드 트루스를 획득하기 위하여 2차원 자세 추정 방법인 오픈포즈를 활용하거나 수작업으로 라벨링 하였다. 하지만 기존의 오픈포즈와 같은 자동 주석 방법은 빠르지만 부정확한 결과를 보인다는 단점이 있고, 사용자가 직접 주석을 생성하는 수작업 주석화의 경우 많은 노동력이 필요하다는 한계점이 있다. 따라서 본 논문에서는 그 둘의 절충 방안인 반자동 주석화 방법인 SAAnnot-C3Pap을 제안한다. 제안하는 SAAnnot-C3Pap은 크게 3가지 과정으로 오픈포즈를 사용하여 자세를 추출하고, 추출된 부분 중 오류가 있는 부분을 슈퍼바이즐리를 사용하여 수정한 뒤, 오픈포즈와 슈퍼바이즐리의 결과값을 동기화하는 과정을 수행한다. 제안하는 방법을 통하여 오픈포즈에서 발생하는 잘못된 2차원 관절 위치 검출 결과를 교정할 수 있었고, 2명 이상의 사람을 검출하는 문제를 해결하였으며, 연주 자세 그라운드 트루스 획득이 가능하였다. 실험에서는 반자동 주석 방법인 오픈포즈와 본 논문에서 제안하는 SAAnnot-C3Pap의 결과를 비교·분석한다. 비교 결과, 제안하는 SAAnnot-C3Pap는 오픈포즈로 잘못 수집된 자세 정보를 개선한 결과를 보였다.

IPTV의 VOD 어노테이션을 위한 반자동 온톨로지 모델링 (Semi-automatic Ontology Modeling for VOD Annotation for IPTV)

  • 최정화;허길;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권7호
    • /
    • pp.548-557
    • /
    • 2010
  • 본 연구는 IPTV의 지능형 검색을 가능하게 하는 VOD 어노테이션을 위해 효율적인 반자동 온톨로지 모델링 기법을 제안한다. 제안하는 방법은 워드넷(WordNet)으로 부터 특정 도메인(또는 장르)을 대표하는 콘텐츠에 관련된 키워드의 상 하위어와 동의어에 해당하는 부분 트리를 추출하고, 워드넷에 없는 외래어, 한자어 등은 확장하여 콘텐츠 온톨로지를 구축한다. 이 온톨로지는 보편적 계층구조와 특정 계층구조를 생성한다. 전자는 콘텐츠와 관련 키워드를 제약 기술(description)을 포함하는 클래스로 정의한 어휘의 의미 모델이다. 후자는 생성된 모델에 함의관계(subsumption) 추론 기술을 적용하여 키워드를 관련있는 콘텐츠로 추론한 모델이다. 어노테이션은 이 온톨로지를 기반으로 VOD에 콘텐츠와 장르의 메타데이터를 의미 기반으로 생성한다. 보편적 계층구조는 서비스 도메인에 독립적으로 재사용이 가능하며, 특정 계층구조는 서비스 목적에 맞는 완전하고 함축적인 모델을 생성한다. 제안하는 방법은 서비스 도메인에 상관없이 적용 가능한 알고리즘이며, 2,400건의 테스트 데이터로 어노테이션 결과를 평가하여 82%의 정확도를 보였다.

SVM 기계학습을 이용한 웹문서의 자동 의미 태깅 (Automatic semantic annotation of web documents by SVM machine learning)

  • 황운호;강신재
    • 한국산업정보학회논문지
    • /
    • 제12권2호
    • /
    • pp.49-59
    • /
    • 2007
  • 본 논문은 시맨틱 웹의 실현을 위해서는 필수적인 작업인 웹문서의 의미를 자동으로 태깅할 수 있는 시스템에 관한 것이다. 웹상의 방대한 자원을 일일이 사람이 수작업으로 의미를 태깅한다는 것은 사실상 불가능하기 때문에 한국어 웹문서를 대상으로 대량의 학습 데이터를 수집하고 자연어처리 기법과 시소러스를 이용하여 특징을 추출한 후 SVM 기계학습을 통하여 개념분류기를 구축하였다. 한국어의 특징을 파악하여 의미 태깅에 필요한 특징 정보를 추출하기 위해서 형태소 분석과 구문 분석을 하였다. 추출된 특징정보는 가도카와 시소러스의 의미코드를 이용하여 학습벡터로 구성되는데, 이는 유사한 단어나 구를 하나의 개념코드로 매핑하여 시스템의 재현율을 높이는 역할을 하게 된다. 실험결과 자동 의미 태깅 분야에서 본 접근방법의 가능성을 확인할 수 있었다.

  • PDF

Deep learning framework for bovine iris segmentation

  • Heemoon Yoon;Mira Park;Hayoung Lee;Jisoon An;Taehyun Lee;Sang-Hee Lee
    • Journal of Animal Science and Technology
    • /
    • 제66권1호
    • /
    • pp.167-177
    • /
    • 2024
  • Iris segmentation is an initial step for identifying the biometrics of animals when establishing a traceability system for livestock. In this study, we propose a deep learning framework for pixel-wise segmentation of bovine iris with a minimized use of annotation labels utilizing the BovineAAEyes80 public dataset. The proposed image segmentation framework encompasses data collection, data preparation, data augmentation selection, training of 15 deep neural network (DNN) models with varying encoder backbones and segmentation decoder DNNs, and evaluation of the models using multiple metrics and graphical segmentation results. This framework aims to provide comprehensive and in-depth information on each model's training and testing outcomes to optimize bovine iris segmentation performance. In the experiment, U-Net with a VGG16 backbone was identified as the optimal combination of encoder and decoder models for the dataset, achieving an accuracy and dice coefficient score of 99.50% and 98.35%, respectively. Notably, the selected model accurately segmented even corrupted images without proper annotation data. This study contributes to the advancement of iris segmentation and the establishment of a reliable DNN training framework.

항공 및 위성영상을 활용한 토지피복 관련 인공지능 학습 데이터 구축 및 알고리즘 적용 연구 (A Study of Establishment and application Algorithm of Artificial Intelligence Training Data on Land use/cover Using Aerial Photograph and Satellite Images)

  • 이성혁;이명진
    • 대한원격탐사학회지
    • /
    • 제37권5_1호
    • /
    • pp.871-884
    • /
    • 2021
  • 본 연구의 목적은 항공 및 위성영상을 활용한 토지피복 관련 인공지능 학습 데이터를 구축, 검증 및 알고리즘 적용의 효율화 방안을 연구하였다. 이를 위하여 토지피복 8개 항목에 대하여 고해상도의 항공영상 및 Sentinel-2 인공위성에서 얻은 이미지를 사용하여 0.51 m 및 10 m Multi-resolution 데이터셋을 구축하였다. 또한, 학습 데이터의 구성은 Fine data (총 17,000개) 와 Coarse data (총 33,000개)를 동시 구축 및 정밀한 변화 탐지 및 대규모 학습 데이터셋 구축이라는 2가지 목적을 달성하였다. 학습 데이터의 정확도를 위한 검수는 정제 데이터, 어노테이션 및 샘플링으로 3단계로 진행하였다. 최종적으로 검수가 완료된 학습데이터를 Semantic Segmentation 알고리즘 중 U-Net, DeeplabV3+에 적용하여, 결과를 분석하였다. 분석결과 항공영상 기반의 토지피복 평균 정확도는 U- Net 77.8%, Deeplab V3+ 76.3% 및 위성영상 기반의 토지피복에 대한 평균 정확도는 U-Net 91.4%, Deeplab V3+ 85.8%이다. 본 연구를 통하여 구축된 고해상도 항공영상 및 위성영상을 이용한 토지피복 인공지능 학습 데이터셋은 토지피복 변화 및 분류에 도움이 되는 참조자료로 활용이 가능하다. 향후 우리나라 전체를 대상으로 인공지능 학습 데이터셋 구축 시, 토지피복을 연구하는 다양한 인공지능 분야에 활용될 것으로 기대된다.

웹 기반의 단백질 상호작용 및 기능분석을 위한 보조 시스템 개발 (Development of Web-Based Assistant System for Protein-Protein Interaction and Function Analysis)

  • 정민철;박완;김기봉
    • 생명과학회지
    • /
    • 제14권6호
    • /
    • pp.997-1002
    • /
    • 2004
  • 이 논문은 단백질의 기능분석을 위해 핵심적으로 요구되는 단백질 상호작용 관계정보 및 기능정보 등을 체계적으로 제공할 수 있는 WASPIFA (Web-based Assistant System for Protein-protein Interaction and function Analysis) 시스템에 대해서 다루고 있다. WASPIFA 시스템은 특정 분야에 국한해서 단편적 정보를 제공하는 기존의 단백질 기능 및 상호작용 분석 시스템과는 달리 분석하고자 하는 서열의 종합적인 정보 즉, 기능정보 및 주석정보, 도메인 정보, 상호작용 관계정보 등을 제공한다. 일반 검색 및 분석 시스템에서 제공하지 못하는 종합적인 정보들은 다양한 전처리 과정을 통해서 얻어진 데이터 및 정보 등을 시스템 내에 로컬 데이터베이스화해 놓은 것이다. 최종 사용자는 종합적인 정보를 통해서 올바른 평가와 판단을 통해서 효과적인 단백질 상호작용 분석과 기능분석을 행할 수 있다. 또한 자동관리 및 데이터 갱신 기능을 갖추고 있어 시스템 관리자가 효율적으로 시스템을 유지 및 관리할 수 있다.

MPEG-7 기반 의미적 메타데이터 모델을 이용한 멀티미디어 주석 및 검색 시스템의 개발 (Development of Multimedia Annotation and Retrieval System using MPEG-7 based Semantic Metadata Model)

  • 안형근;고재진
    • 정보처리학회논문지D
    • /
    • 제14D권6호
    • /
    • pp.573-584
    • /
    • 2007
  • 최근 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 멀티미디어 데이터에 대한 다양한 검색은 매우 중요한 이슈가 되고 있다. 멀티미디어 데이터를 효율적으로 처리하기 위해서는 멀티미디어 데이터가 가지고 있는 의미 내용을 추출할 수 있는 의미 기반 검색 기법이 필요하다. 기존 연구되어온 멀티미디어 데이터의 검색은 주석 기반 검색, 특징 기반 검색, 주석과 특징 기반 검색의 통합 검색시스템이 있다. 이러한 시스템들은 검색 데이터의 생성을 위해 주석자의 많은 노력과 시간을 요구하고 특징 추출을 위한 복잡한 계산을 요구하며, 생성된 데이터는 변화되지 않는 정적인 검색을 수행하는 단점이 있다. 또한, 인간에게 좀 더 친숙하고 의미적인 형태의 검색 방법을 제공하지 못하고 있는 실정이다. 본 논문에서는 MPEG-7을 이용하여 멀티미디어 데이터를 구조적으로 표현하고 효율적으로 추출하기 위한 의미적 메타데이터 기반의 멀티미디어 주석 및 검색시스템(S-MARS)을 구현 제안한다. 본 시스템은 멀티미디어 데이터에 대한 주석이나 검색, 브라우징을 위한 그래픽 인터페이스를 제공하며 멀티미디어 정보를 표현하기 위해 의미적 메타데이터 모델을 기반으로 구현하였다. 멀티미디어 데이터에 대한 의미적 메타데이터 모델은 MPEG-7 표준에 정의되어 있는 멀티미디어 묘사 스키마를 기반으로 XML 스키마를 이용하여 작성하였다. 결론적으로, 제시한 멀티미디어 데이터에 대한 의미적 메타데이터를 XML 형태로 표현하고, XML을 지원하는 데이터베이스 시스템을 이용하여 표준적인 데이터의 상호 교환이 용이하게 이루어질 수 있으며, 의미적 메타데이터를 활용하여 삽입 기반 검색 알고리즘 방법을 제공함으로써 검색에 대한 정확성과 사용자의 검색 만족도를 극대화 시킬 수 있다. 마그마 저장소로의 유입과 마그마 저장소 아래에서 공급되는 모마그마의 성분변화에 의해서 미량원소 함량이 급격하게 변한 것으로 해석된다./^4He$ 비와 $^4He/^{20}Ne$ 비는 $0.0143{\times}10^{-6}{\sim}0.407{\times}10^{-6}$ 범위와 $6.49{\sim}584{\times}10^{-6}$ 범위를 각각 보여주어 대기와 지각성분의 혼합선상에 도시된다. 이는 온천수내 헬륨가스의 대부분이 지각기원임을 의미한다. 죽림온천(JR1)의 경우 맨틀기원의 헬륨가스의 혼합율이 다른 온천에 비해 다소 높은 비율을 보여준다. 이들 동위원소비와 온천수의 pH와는 대체적으로 정의 상관관계가 확인되었다. 아울러 $^{40}Ar/^{36}Ar$비가 $292.3{\times}10^{-6}{\sim}304.1{\times}10^{-6}$ 범위로 대기기원임을 지시한다. Gram 양성, Gram 음성 균주는 Escherichia coli KCCM 11591를 제외하고는 0.8 - 0.95 cm로 항균력이 강했으며, Gram negitive의 Pseudomonas aeruginosa KCTC 1750 에서는 43% 발효주에는 0.95 cm, 45% 고은 발효주에는 0.95 cm의 항균성을 나타냈으며 관능평가에서도 가장 높게 났다. 관능평가에서는 45% 고온 발효주가 가장 높게 나타났으며, 항산화성 실험에 나타난 저온 45%의 갈색도의 측정과는 항산화성에서는 좀 다른 결과를 나타낸다. 그러나 항균성이 가장 높게 나타난 43-45%와 관능평가에서 가장 높게 나타난 45% 고온 발효주를 볼 때 본 연구에서는 고온 발효주 45%가

세종계획 언어자원 기반 한국어 명사은행 (Korean Nominal Bank, Using Language Resources of Sejong Project)

  • 김동성
    • 한국언어정보학회지:언어와정보
    • /
    • 제17권2호
    • /
    • pp.67-91
    • /
    • 2013
  • This paper describes Korean Nominal Bank, a project that provides argument structure for instances of the predicative nouns in the Sejong parsed Corpus. We use the language resources of the Sejong project, so that the same set of data is annotated with more and more levels of annotation, since a new type of a language resource building project could bring new information of separate and isolated processing. We have based on the annotation scheme based on the Sejong electronic dictionary, semantically tagged corpus, and syntactically analyzed corpus. Our work also involves the deep linguistic knowledge of syntaxsemantic interface in general. We consider the semantic theories including the Frame Semantics of Fillmore (1976), argument structure of Grimshaw (1990) and argument alternation of Levin (1993), and Levin and Rappaport Hovav (2005). Various syntactic theories should be needed in explaining various sentence types, including empty categories, raising, left (or right dislocation). We also need an explanation on the idiosyncratic lexical feature, such as collocation and etc.

  • PDF