• 제목/요약/키워드: bigram

검색결과 71건 처리시간 0.019초

Computational Analysis of Neighboring Genes on Arabidopsis thaliana Chromosomes 4 and 5: Their Genomic Association as Functional Subunits

  • Goh, Sung-Ho;Kim, Tae-Hyung;Kim, Jee-Hyub;Nam, DouGu;Choi, Doil;Hur, Cheol-Goo
    • Genomics & Informatics
    • /
    • 제1권1호
    • /
    • pp.40-49
    • /
    • 2003
  • The genes related to specific events or pathways in bacteria are frequently localized proximate to the genome of their neighbors, as with the structures known as operon, but eukaryotic genes seem to be independent of their neighbors, and are dispersed randomly throughout genomes. Although cases are rare, the findings from structures similar to prokaryotic operons in the nematode genome, and the clustering of housekeeping genes on human genome, lead us to assess the genomic association of genes as functional subunits. We evaluated the genomic association of neighboring genes on chromosomes 4 and 5 of Arabidopsis thaliana with and without respectively consideration of the scaffold/matrix­attached regions (S/MAR) loci. The observed number of functionally identical bigrams and trig rams were significantly higher than expected, and these results were verified statistically by calculating p-values for weighted random distributions. The observed frequency of functionally identical big rams and trig rams were much higher in chromosome 4 than in chromosome 5, but the frequencies with, and without, consideration of the S/MAR in each chromosome were similar. In this study, a genomic association among functionally related neighboring genes in Arabidopsis thaliana was suggested.

뉴스 댓글의 감정 분류를 위한 자질 가중치 설정 (Feature Weighting for Opinion Classification of Comments on News Articles)

  • 이공주;김재훈;서형원;류길수
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제34권6호
    • /
    • pp.871-879
    • /
    • 2010
  • 본 논문은 뉴스 기사의 댓글에 대한 사용자의 감정을 분류하는 시스템을 제안한다. 제안된 시스템은 댓글의 문서 분류 시스템으로 기계학습에 기반을 두고 있다. 댓글은 일반적인 문서와 달리 본문을 가지고 있으며 본문의 내용이 독자의 감정에 영향을 줄 수 있다. 본 논문에서는 이와 같은 댓글의 특성과 여러 가지 자원을 이용하여 감정 분류를 위한 자질을 제안하고 이들의 가중치 설정 방법을 제안한다. 실험을 통해 이러한 가중치 설정 방법이 한글 뉴스의 댓글에 대한 감정을 분류하는데 효과적임을 알 수 있었다. 또한 댓글과 같이 많은 오류를 포함하는 문서에 대해서 문자 단위의 2음절과 3음절 자질도 충분히 이용 가치가 있음을 확인할 수 있었다. 향후에 뉴스 기사의 댓글뿐 아니라 상품 댓글 등 일반적인 감정 분석에 적용할 계획이다.

대어휘 연속음성 인식을 위한 결합형태소 자동생성 (Automatic Generation of Concatenate Morphemes for Korean LVCSR)

  • 박영희;정민화
    • 한국음향학회지
    • /
    • 제21권4호
    • /
    • pp.407-414
    • /
    • 2002
  • 본 논문에서는 형태소를 인식 단위로 하는 한국어 연속음성 인식의 성능 개선을 위해 결합형태소를 자동으로 생성하는 방법을 제시한다. 학습코퍼스의 54%를 차지하고 오인식의 주요인이 되는 단음절 형태소를 감소시켜서 인식 성능을 높이는 것을 목적으로 한다. 품사의 접속 규칙을 이용한 기존의 지식기반의 형태소 결합방법은 접속 규칙의 생성이 어렵고, 학습 코퍼스에 나타난 출현 빈도를 반영하지 못하여 저빈도 결합형태소를 다수 생성하는 경향을 보였다. 본 논문에서 제시하는 방법은 학습데이터의 통계정보를 이용하여 결합형태소를 자동 생성한다. 결합할 형태소 쌍 선정을 위한 평가척도로는 형태소 쌍의 빈도, 상호정보, 유니그램 로그 유도값(unigram log likelihood)을 이용하였고 여기에 한국어의 특성 반영을 위해 단음절 형태소 제약과 형태소 결합길이를 제한하는 두개의 제약사항을 추가하였다. 학습에 사용된 텍스트 코퍼스는 방송뉴스와 신문으로 구성된 7백만 형태소이고, 최빈도 2만 형태소 다중 발음사전을 사용하였다. 세가지 평가척도 중 빈도를 이용한 것의 성능이 가장 좋았고 여기에 제약조건을 반영하여 성능을 더 개선할 수 있었다. 특히 최대 결합 길이를 3으로 할 때의 성능이 가장 우수하여 언어모델 혼잡도는 117.9에서 97.3으로 18%감소했으며, 형태소 에러율 (MER: Morpheme error rate)은 21.3%에서 17.6%로 감소하였다. 이때 단음절 형태소는 54%에서 30%로 24%가 감소하였다.

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법 (Determining the Specificity of Terms using Compositional and Contextual Information)

  • 류법모;배선미;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권7호
    • /
    • pp.636-645
    • /
    • 2006
  • 어떤 용어가 전문적인 개념을 많이 내포하고 있을 때 전문성이 높다고 말한다. 본 논문에서는 용어의 내부 구성정보와 외부 문맥정보를 이용하여 정보이론에 기반한 방법으로 전문용어가 내포하는 전문성을 정량적으로 계산하는 방법을 제안한다. 용어의 전문성은 용어간 상하위어 관계 설정에서 중요한 필요조건으로 사용될 수 있다. 제안한 방법은 전문용어의 내부 구성정보를 이용하는 방법, 문맥정보를 이용하는 방법 그리고 두 정보를 모두 이용하는 방법으로 나눈다. 구성정보를 이용하는 방법에서는 전문용어를 구성하는 단어의 빈도수, 가중치, 바이그램, 내부 수식구조 둥을 이용하고, 문맥정보를 이용하는 방법에서는 전문용어를 수식하는 단어들의 분포를 이용한다. 본 논문에서 제안한 방법은 분야에 독립적으로 적용될 수 있고, 전문용어 생성 절차에 대한 특정을 잘 반영할 수 있는 장점이 있다. MeSH 트리에 포함된 질병 이름의 전문성 값을 계산한 뒤 상위어의 전문성 값과 비교한 결과 82.0%의 정확률을 보였다.

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 (A Stochastic Word-Spacing System Based on Word Category-Pattern)

  • 강미영;정성원;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.965-978
    • /
    • 2006
  • 본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.

터치스크린 환경에서 쿼티 자판 오타 교정을 위한 n-gram 언어 모델 (N-gram based Language Model for the QWERTY Keyboard Input Errors in a Touch Screen Environment)

  • 옹윤지;강승식
    • 스마트미디어저널
    • /
    • 제7권2호
    • /
    • pp.54-59
    • /
    • 2018
  • 스마트폰과 태블릿PC 등 터치스크린을 활용한 휴대기기의 사용이 늘어나면서 데스크탑 컴퓨터나 노트북으로 수행하던 작업을 스마트폰과 태블릿PC를 이용하여 수행하는 일이 많아졌다. 그런데 휴대성을 갖춰야하는 스마트기기의 특성상, 쿼티 자판은 작은 화면 안에 조밀하게 배치된다. 그리고 이러한 점은 기계식 쿼티 자판을 사용할 때와는 다른 양상의 오타가 발생하는 원인으로 작용한다. 각 버튼이 차지하는 공간이 충분했던 기계식 쿼티 자판과 달리, 터치스크린에서의 쿼티 자판은 각 버튼에 할당되는 영역이 작아 사용자가 누르려고 의도했던 버튼이 아닌 주변의 버튼이 입력되는 경우가 자주 발생하게 된다. 본 논문에서는 어절 유니그램과 바이그램 확률을 이용한 n-gram 언어 모델 방법으로 터치스크린 환경에서 쿼티 자판으로 입력되는 문자 입력 오류를 자동으로 교정하는 방법을 제안하였다.

토픽 모델링 및 바이그램 네트워크 분석 기법을 통한 여대생의 건강관리 및 웨어러블 디바이스 인식에 관한 연구 (Analyzing Female College Student's Recognition of Health Monitoring and Wearable Device Using Topic Modeling and Bi-gram Network Analysis)

  • 정우경;신동희
    • 정보관리학회지
    • /
    • 제38권4호
    • /
    • pp.129-152
    • /
    • 2021
  • 본 연구는 토픽 모델링 및 네트워크 분석 기법을 활용하여 여대생들의 웨어러블 디바이스에 대한 인식 및 선호도 분석, 건강관리에 대한 요구를 분석함으로써 여대생에게 맞는 웨어러블 디바이스 개발 방안을 제시하였다. 이를 위하여 S여자대학교 재학생들이 사용하는 커뮤니티에서 건강관리 및 웨어러블 디바이스와 관련된 게시글 2,457건을 수집하였고. 수집된 게시글과 댓글 데이터를 전처리한 뒤 LDA 기반의 토픽 모델링을 실시하였다. 토픽 모델링 기법을 통해 건강관리 및 웨어러블 디바이스와 관련하여 여대생들의 주요 쟁점들을 도출하고, 관련 키워드가 포함된 포스팅에 대해 바이그램 분석과 네트워크 분석을 수행하여 여대생들이 웨어러블 기기에 대해 가지고 있는 견해를 파악하고자 한다.

네트워크 분석을 통한 국내 '스마트 팜' 특허 동향 연구 (A Study on the Patent Trend of 'Smart Farm' in Domestic through Network Analysis)

  • 민경빈;박홍진
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권5호
    • /
    • pp.413-422
    • /
    • 2022
  • 농업의 고질적인 인력 부족과 고령화 문제를 해결하는 방안 중 스마트 팜은 크게 주목받고 있다. 6차 산업혁명이라고 불리는 스마트 팜 산업은 경쟁력의 강화가 필요하다. 혁신 가능한 IT 기술을 농업에 접목하기 위해 선행적인 연구나 특허에 대한 정보 수집 및 분석은 중요하다. 본 논문은 국내 특허정보검색서비스(KIPRIS)를 이용하여 스마트 팜에 관련된 5,789건의 특허데이터를 통해 스마트 팜 특허 동향을 살펴본다. 키워드 네트워크, 에고 네트워크, 동시 출현 네트워크, 바이그램 네트워크 분석 등을 통해 스마트 팜 정보의 국내 특허 동향을 알아본다. 스마트 팜 특허 관련 네트워크 분석 결과, 스마트 팜 시스템을 이용하거나 시스템 제어 기술과 관련된 특허가 가장 많았다. 본 논문은 향후 스마트 팜 관련 특허 연구 방향 설정에 있어 도움을 제공할 수 있다.

Hidden Markov Network 음성인식 시스템의 성능평가에 관한 연구 (A Study on Performance Evaluation of Hidden Markov Network Speech Recognition System)

  • 오세진;김광동;노덕규;위석오;송민규;정현열
    • 융합신호처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.30-39
    • /
    • 2003
  • 본 논문에서는 한국어 음성 데이터를 대상으로 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다. HM-Net은 기존의 SSS(Successive State Splitting) 알고리즘을 개량한 PDT(Phonetic Decision Tree)-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행하며, 마지막으로 파라미터의 공유를 통해 triphone 형태의 최적인 모델 네트워크를 작성하게 된다. 인식에 사용된 알고리즘은 음소 및 단어인식의 경우에는 One-Pass Viterbi 빔 탐색을 사용하며 트리 구조 형태의 사전과 phone/word-pair 문법을 채용하고 있다. 연속음성인식의 경우에는 단어 bigram과 단어 trigram 언어모델과 목구조 형태의 사전을 채용한 Multi-Pass 빔 탐색을 사용하고 있다. 전체적으로 본 논문에서는 다양한 조건에서 HM-Net 음성인식 시스템의 성능평가를 수행하였으며, 지금까지 소개된 음성인식 시스템과 비교하여 매우 우수한 인식성능을 보임을 실험을 통해 확인할 수 있었다.

  • PDF

빅데이터와 스몰데이터로 본 선형공원 - 시카고 606 트레일과 서울 경춘선 숲길을 중심으로 - (Using Big Data and Small Data to Understand Linear Parks - Focused on the 606 Trail, USA and Gyeongchun Line Forest, Korea -)

  • 심지수;오창송
    • 한국조경학회지
    • /
    • 제48권5호
    • /
    • pp.28-41
    • /
    • 2020
  • 이 연구는 경관 인식 모델의 세 가지 요소(활동, 물리적 환경, 이용자)를 기본으로 하는 스몰데이터인 설문조사와 빅데이터인 소셜미디어 분석을 통해 문화가 다른 두 지역(미국, 한국)의 선형 공원 두 곳을 분석하고자 한다. 소셜 미디어의 사용이 증가하고 경관을 보는 새로운 매체로 부상했음에도 불구하고, 현재 소셜 미디어를 활용한 공원 연구는 제한적이다. 이에 본 연구는 소셜 미디어 분석과 설문 조사를 동시에 활용해서 비교함으로써 설문 조사가 갖는 한계를 보완함과 동시에 소셜 미디어 분석의 제한점을 보완하고자 한다. 미국 시카고의 606 트레일와 한국 서울의 경춘선 숲길은 버려진 길에 조성된 공원이다. 이 두 곳을 대상으로 총 505부의 설문조사를 시행했고, 그 결과는 통계 분석, 주성분 분석, 회귀 분석을 활용해서 분석하였다. 또한 각 선형 공원을 언급한 트위터를 총 20,000건 이상 수집했다. 이 트위터를 대상으로 군집 분석, 바이그램 네트워크 분석 등을 통해 각 공원이 갖는 장소적 특성 및 물리적 환경을 분석했다. 연구 결과는 공원 디자인이 다양해질수록 행동은 단순화 된다는 것을 발견할 수 있었다. 공원 이용자들의 절반은 선형 공원을 최종 목적지까지 도달하는 지름길로 이용했고, 공원의 특징에 따라 다양한 활동과 혜택을 확인할 수 있었다. 소셜 미디어 분석 결과, 606트레일은 경춘선 숲길 보다 주민들과 더욱 밀접한 관계를 갖고 있다는 것을 확인했다. 또한 경춘선은 606트레일보다 공원 내 이벤트와 연관이 깊음을 발견할 수 있었다.