• 제목/요약/키워드: seq2seq

검색결과 226건 처리시간 0.026초

Analysis of H3K4me3-ChIP-Seq and RNA-Seq data to understand the putative role of miRNAs and their target genes in breast cancer cell lines

  • Kotipalli, Aneesh;Banerjee, Ruma;Kasibhatla, Sunitha Manjari;Joshi, Rajendra
    • Genomics & Informatics
    • /
    • 제19권2호
    • /
    • pp.17.1-17.13
    • /
    • 2021
  • Breast cancer is one of the leading causes of cancer in women all over the world and accounts for ~25% of newly observed cancers in women. Epigenetic modifications influence differential expression of genes through non-coding RNA and play a crucial role in cancer regulation. In the present study, epigenetic regulation of gene expression by in-silico analysis of histone modifications using chromatin immunoprecipitation sequencing (ChIP-Seq) has been carried out. Histone modification data of H3K4me3 from one normal-like and four breast cancer cell lines were used to predict miRNA expression at the promoter level. Predicted miRNA promoters (based on ChIP-Seq) were used as a probe to identify gene targets. Five triple-negative breast cancer (TNBC)-specific miRNAs (miR153-1, miR4767, miR4487, miR6720, and miR-LET7I) were identified and corresponding 13 gene targets were predicted. Eight miRNA promoter peaks were predicted to be differentially expressed in at least three breast cancer cell lines (miR4512, miR6791, miR330, miR3180-3, miR6080, miR5787, miR6733, and miR3613). A total of 44 gene targets were identified based on the 3'-untranslated regions of downregulated mRNA genes that contain putative binding targets to these eight miRNAs. These include 17 and 15 genes in luminal-A type and TNBC respectively, that have been reported to be associated with breast cancer regulation. Of the remaining 12 genes, seven (A4GALT, C2ORF74, HRCT1, ZC4H2, ZNF512, ZNF655, and ZNF608) show similar relative expression profiles in large patient samples and other breast cancer cell lines thereby giving insight into predicted role of H3K4me3 mediated gene regulation via the miRNA-mRNA axis.

군사용 지능형 영상 판독 시스템에서의 빔서치를 활용한 문장 추천 (Sentence Recommendation Using Beam Search in a Military Intelligent Image Analysis System)

  • 나형선;전태현;강형석;안진현;임동혁
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.521-528
    • /
    • 2021
  • 군사 분야에서 사용 중인 기존 영상 판독 시스템은 판독관들이 직접 영상을 분석 및 식별하여 관련 내용을 보고서에 작성하고 전파하는 방식으로 진행되는데 이 과정에서 반복 작업이 빈번하여 업무 과부하가 발생한다. 본 논문에서는 이러한 문제를 해결하고자, 기존의 문장 단위로 동작하는 Seq2Seq 모델을 단어 단위로 동작할 수 있는 알고리즘을 제안하고, Attention 기법을 적용해 정확도를 향상시키고자 한다. 또한 Beam 탐색 기법을 응용하여 특정 지역의 과거 식별내용을 바탕으로 현재 식별 문장을 다양하게 추천하고자 한다. 실험을 통해 Beam 탐색 기법이 기존 Greedy 탐색 기법보다 효과적으로 문장을 추천하는 것을 확인하였고, Beam의 크기가 클 때 추천의 정확도가 높아지는 것을 확인하였다.

Epigenetic regulation of key gene of PCK1 by enhancer and super-enhancer in the pathogenesis of fatty liver hemorrhagic syndrome

  • Yi Wang;Shuwen Chen;Min Xue;Jinhu Ma;Xinrui Yi;Xinyu Li;Xuejin Lu;Meizi Zhu;Jin Peng;Yunshu Tang;Yaling Zhu
    • Animal Bioscience
    • /
    • 제37권8호
    • /
    • pp.1317-1332
    • /
    • 2024
  • Objective: Rare study of the non-coding and regulatory regions of the genome limits our ability to decode the mechanisms of fatty liver hemorrhage syndrome (FLHS) in chickens. Methods: Herein, we constructed the high-fat diet-induced FLHS chicken model to investigate the genome-wide active enhancers and transcriptome by H3K27ac target chromatin immunoprecipitation sequencing (ChIP-seq) and RNA sequencing (RNA-Seq) profiles of normal and FLHS liver tissues. Concurrently, an integrative analysis combining ChIP-seq with RNA-Seq and a comparative analysis with chicken FLHS, rat non-alcoholic fatty liver disease (NAFLD) and human NAFLD at the transcriptome level revealed the enhancer and super enhancer target genes and conservative genes involved in metabolic processes. Results: In total, 56 and 199 peak-genes were identified in upregulated peak-genes positively regulated by H3K27ac (Cor (peak-gene correlation) ≥0.5 and log2(FoldChange) ≥1) (PP) and downregulated peak-genes positively regulated by H3K27ac (Cor (peak-gene correlation) ≥0.5 and log2(FoldChange)≤-1) (PN), respectively; then we screened key regulatory targets mainly distributing in lipid metabolism (PCK1, APOA4, APOA1, INHBE) and apoptosis (KIT, NTRK2) together with MAPK and PPAR signaling pathway in FLHS. Intriguingly, PCK1 was also significantly covered in up-regulated super-enhancers (SEs), which further implied the vital role of PCK1 during the development of FLHS. Conclusion: Together, our studies have identified potential therapeutic biomarkers of PCK1 and elucidated novel insights into the pathogenesis of FLHS, especially for the epigenetic perspective.

염기서열 해독작업을 위한 핵산 단편 조립 프로그램의 개발 (Development of Contig Assembly Program for Nucleotide Sequencing)

  • 이동훈
    • 미생물학회지
    • /
    • 제35권2호
    • /
    • pp.121-127
    • /
    • 1999
  • 염기서열 해독작업에서 각 핵산 단편을 조립하는 contig 구성문제에 활용이 가능한 computer program을 개발하였다. 본 프로그램은 국내에서 광범위하게 사용되고 있는 MS-Windows 운영체제의 개인용 컴퓨터에서 작동이 가능하며, GenBank, FASTA, ASCII 등과 같은 다양한 형태의 염기서열 자료를 입력할 수 있다. 두 단편에서 최대 유사도를 나타내는 부분을 정렬하는 작업에는 염기서열의 국부적 상동성을 계산하고 dynamic programming 알고리즘을 적용하는 방법을 이용하였다. 또한 사용하기 편리한 그래픽 방식의 인터페이스를 제공하여 초보자라도 손쉽게 조작할 수 있다는 장점을 갖는다. 본 프로그램의 성능을 검증하기 위하여 세균과 곰팡이로부터 해독된 16S rRNA 와 18S rRNA 유전자의 단편 염기서열을 재구성하는 작업에 프로그램을 사용하였을 때에 효율적인 작업이 가능하였다.

  • PDF

RNA-seq Profiles of Immune Related Genes in the Spleen of Necrotic Enteritis-afflicted Chicken Lines

  • Truong, Anh Duc;Hong, Yeong Ho;Lillehoj, Hyun S.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제28권10호
    • /
    • pp.1496-1511
    • /
    • 2015
  • The study aimed to compare the necrotic enteritis (NE)-induced transcriptome differences between the spleens of Marek's disease resistant chicken line 6.3 and susceptible line 7.2 co-infected with Eimeria maxima/Clostridium perfringens using RNA-Seq. Total RNA from the spleens of two chicken lines were used to make libraries, generating 42,736,296 and 42,617,720 usable reads, which were assembled into groups of 29,897 and 29,833 mRNA genes, respectively. The transcriptome changes were investigated using the differentially expressed genes (DEGs) package, which indicated 3,255, 2,468 and 2,234 DEGs of line 6.3, line 7.2, and comparison between two lines, respectively (fold change ${\geq}2$, p<0.01). The transcription levels of 14 genes identified were further examined using qRT-PCR. The results of qRT-PCR were consistent with the RNA-seq data. All of the DEGs were analysed using gene ontology terms, the Kyoto Encyclopedia of Genes and Genomes (KEGG) database and the DEGs in each term were found to be more highly expressed in line 6.3 than in line 7.2. RNA-seq analysis indicated 139 immune related genes, 44 CD molecular genes and 150 cytokines genes which were differentially expressed among chicken lines 6.3 and 7.2 (fold change ${\geq}2$, p<0.01). Novel mRNA analysis indicated 15,518 novel genes, for which the expression was shown to be higher in line 6.3 than in line 7.2 including some immune-related targets. These findings will help to understand host-pathogen interaction in the spleen and elucidate the mechanism of host genetic control of NE, and provide basis for future studies that can lead to the development of marker-based selection of highly disease-resistant chickens.

Comparative analysis of commonly used peak calling programs for ChIP-Seq analysis

  • Jeon, Hyeongrin;Lee, Hyunji;Kang, Byunghee;Jang, Insoon;Roh, Tae-Young
    • Genomics & Informatics
    • /
    • 제18권4호
    • /
    • pp.42.1-42.9
    • /
    • 2020
  • Chromatin immunoprecipitation coupled with high-throughput DNA sequencing (ChIP-Seq) is a powerful technology to profile the location of proteins of interest on a whole-genome scale. To identify the enrichment location of proteins, many programs and algorithms have been proposed. However, none of the commonly used peak calling programs could accurately explain the binding features of target proteins detected by ChIP-Seq. Here, publicly available data on 12 histone modifications, including H3K4ac/me1/me2/me3, H3K9ac/me3, H3K27ac/me3, H3K36me3, H3K56ac, and H3K79me1/me2, generated from a human embryonic stem cell line (H1), were profiled with five peak callers (CisGenome, MACS1, MACS2, PeakSeq, and SISSRs). The performance of the peak calling programs was compared in terms of reproducibility between replicates, examination of enriched regions to variable sequencing depths, the specificity-to-noise signal, and sensitivity of peak prediction. There were no major differences among peak callers when analyzing point source histone modifications. The peak calling results from histone modifications with low fidelity, such as H3K4ac, H3K56ac, and H3K79me1/me2, showed low performance in all parameters, which indicates that their peak positions might not be located accurately. Our comparative results could provide a helpful guide to choose a suitable peak calling program for specific histone modifications.

입력 문장 Noising과 Attention 기반 비교사 한국어 문체 변환 (Attention-based Unsupervised Style Transfer by Noising Input Sentences)

  • 노형종;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.434-439
    • /
    • 2018
  • 문체 변환 시스템을 학습하는 데 있어서 가장 큰 어려움 중 하나는 병렬 말뭉치가 부족하다는 것이다. 최근 대량의 비병렬 말뭉치만으로 문체 변환 문제를 해결하려는 많은 연구들이 발표되었지만, 아직까지도 원 문장의 정보 보존(Content preservation)과 문체 변환(Style transfer) 모두를 이루는 것이 쉽지 않은 상태이다. 특히 비교사 학습의 특성상 문체 변환과 동시에 정보를 보존하는 것이 매우 어렵다. Attention 기반의 Seq2seq 네트워크를 이용할 경우에는 과도하게 원문의 정보가 보존되어 문체 변환 능력이 떨어지기도 한다. 그리고 OOV(Out-Of-Vocabulary) 문제 또한 존재한다. 본 논문에서는 Attention 기반의 Seq2seq 네트워크를 이용하여 어절 단위의 정보 보존력을 최대한 높이면서도, 입력 문장에 효과적으로 Noise를 넣어 문체 변환 성능을 저해하는 과도한 정보 보존 현상을 막고 문체의 특성을 나타내는 어절들이 잘 변환되도록 할 뿐 아니라 OOV 문제도 줄일 수 있는 방법을 제안한다. 우리는 비교 실험을 통해 본 논문에서 제안한 방법들이 한국어 문장뿐 아니라 영어 문장에 대해서도 state-of-the-art 시스템들에 비해 향상된 성능을 보여준다는 사실을 확인하였다.

  • PDF

A ChIP-Seq Data Analysis Pipeline Based on Bioconductor Packages

  • Park, Seung-Jin;Kim, Jong-Hwan;Yoon, Byung-Ha;Kim, Seon-Young
    • Genomics & Informatics
    • /
    • 제15권1호
    • /
    • pp.11-18
    • /
    • 2017
  • Nowadays, huge volumes of chromatin immunoprecipitation-sequencing (ChIP-Seq) data are generated to increase the knowledge on DNA-protein interactions in the cell, and accordingly, many tools have been developed for ChIP-Seq analysis. Here, we provide an example of a streamlined workflow for ChIP-Seq data analysis composed of only four packages in Bioconductor: dada2, QuasR, mosaics, and ChIPseeker. 'dada2' performs trimming of the high-throughput sequencing data. 'QuasR' and 'mosaics' perform quality control and mapping of the input reads to the reference genome and peak calling, respectively. Finally, 'ChIPseeker' performs annotation and visualization of the called peaks. This workflow runs well independently of operating systems (e.g., Windows, Mac, or Linux) and processes the input fastq files into various results in one run. R code is available at github: https://github.com/ddhb/Workflow_of_Chipseq.git.

다양한 동작 학습을 위한 깊은신경망 구조 비교 (A Comparison of Deep Neural Network Structures for Learning Various Motions)

  • 박수환;이제희
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제27권5호
    • /
    • pp.73-79
    • /
    • 2021
  • 최근 컴퓨터 애니메이션 분야에서는 기존의 유한상태기계나 그래프 기반의 방식들에서 벗어나 딥러닝을 이용한 동작 생성 방식이 많이 연구되고있다. 동작 학습에 요구되는 네트워크의 표현력은 학습해야하는 동작의 단순한 길이보다는 그 안에 포함된 동작의 다양성에 더 큰 영향을 받는다. 본 연구는 이처럼 학습해야하는 동작의 종류가 다양한 경우에 효율적인 네트워크 구조를 찾는것을 목표로 한다. 기본적인 fully-connected 구조, 여러개의 fully-connected 레이어를 병렬적으로 사용하는 mixture of experts구조, seq2seq처리에 널리 사용되는 순환신경망(RNN), 그리고 최근 시퀀스 형태의 데이터 처리를 위해 자연어 처리 분야에서 사용되고있는 transformer구조의 네트워크들을 각각 학습하고 비교한다.

입력 발화의 키워드를 반영하는 응답을 생성하는 대화 모델 (A Query-aware Dialog Model for Open-domain Dialog)

  • 임연수;김소언;김봉민;정희재;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.274-279
    • /
    • 2020
  • 대화 시스템은 사용자의 입력 발화에 대해 적절하고 의미 있는 응답을 생성하는 시스템으로 seq2seq 구조를 갖는 대화 모델이 주로 연구되고 있다. 그러나 seq2seq 기반 대화 모델은 입력 발화와 관련성이 떨어지는 응답을 생성하거나 모든 입력 발화와 어울리지만 무미건조한 응답을 생성하는 문제가 있다. 본 논문에서는 이를 해결하기 위해 입력 발화에서 고려해야 하는 키워드를 찾고 그 키워드를 반영하는 응답을 생성하는 모델을 제안한다. 제안 모델은 주어진 입력 발화에서 self-attention을 사용해 각 토큰에 대한 키워드 점수를 구한다. 키워드 점수가 가장 높은 토큰을 대화의 주제 또는 핵심 내용을 포함하는 키워드로 정의하고 응답 생성 과정에서 키워드와 관련된 응답을 생성하도록 한다. 본 논문에서 제안한 대화 모델의 실험 결과 문법과 입력 발화와 생성한 응답의 관련성 측면에서 성능이 향상되었음을 알 수 있었다. 특히 관련성 점수는 본 논문에서 제안한 모델이 비교 모델보다 약 0.25점 상승했다. 실험 결과를 통해 본 논문이 제안한 모델의 우수성을 확인하였다.

  • PDF