• Title/Summary/Keyword: 텍스트 연구

Search Result 3,494, Processing Time 0.033 seconds

Automata Species Classifier based on Protein Sequences and Text Information (단백질 서열과 텍스트 정보 기반 오토마타 종 분류기)

  • Park, Jun-Hyeong;Lee, Hyeon-Jeong;Yang, Ji-Hun;Kim, Seon-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06b
    • /
    • pp.9-14
    • /
    • 2007
  • 단백질 분류는 현대 생물학의 큰 도전과제이다. 현재 여러 단체에 의해 잘 관리되는 상세한 주석이 달린 많은 양의 단백질 정보들이 존재한다. 이러한 데이터베이스의 덕분으로 다양한 물리 화학적 특성과 주석들에 기반하고 있는 분류 기법들이 연구되고 있다. 특히 아미노산들로 이루어진 단백질 서열이 해당 단백질의 분류에 중요한 역할을 하는 진화적 기록들의 단서가 되기 때문에 단백질 서열들에 대한 연구가 활성화되고 있다. 비록 단백질 서열이 단백질 분류 문제의 중요한 특징이 된다고 해도 단순한 단백질 서열만으론 해당 단백질에 대한 충분한 정보를 얻을 수 없으며, 타 종 간에도 기능상 유사성 때문에 서로 비슷하게 판별될 수 있다. 이러한 문제점에 착안해서 우리는 오토마타 종 분류기라고 부르는 새로운 시스템적인 종 분류 접근 방법을 제안한다. 이 시스템의 클러스터링과 종 분류 판별 성능에 대한 평가 실험을 수행해본 결과 상대적으로 좋은 성능을 얻을 수 있었다.

  • PDF

Search Algorithm Embodiment which uses the Image and Speech Signal from the Vido (동영상에서 이미지와 음성신호를 이용한 검색 알고리즘 구현)

  • Shin, In-Kyoung;Rhee, Sang-Burm
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06b
    • /
    • pp.88-91
    • /
    • 2010
  • 정보통신망 및 멀티미디어 기술의 발전으로 인해 정보의 형태는 단순한 텍스트 데이터에서 멀티미디어 데이터로 전환되고 있다. 멀티미디어 기술은 저장, 재생, 압축 등 관련 기술의 빠른 발전과 미디어의 사회, 문화적 역할이 계속 증가함에 따라 우리 사회 전반에 걸쳐 매우 광범위하게 사용되고 있으며, 이로 인해 동영상 검색등의 많은 검색을 요구 하고 있으나, 동영상 검색의 문제점은 생산되는 컨텐츠에서 동영상이 가지고 있는 비중은 계속해서 높아지지만 쌓아진 데이터를 검색하기엔 몇 가지 문제점이 있다. 첫 번째는 데이터의 중복성이고 두 번째는 제목, 내용 그리고 Keyword가 일치하지 않으며, 세 번째는 저자권 침해 등이 있다. 본 연구에서는 본 논문에서는 빠르게 변화되고 있는 정보화 시대에 맞게 동영상에서 음성과 얼굴영역을 검출하여, 검색 시 효율적이고 정확한 데이터의 검색이 이루어 질 수 있도록 검색 알고리즘을 제안하고 소개하며, 이중 두 번째의 문제점인 제목, 내용 그리고 Keyword의 불일치한 점에 두어 검색 시 영상의 이미지 검색과 음성을 통하여 keyword를 찾아 효율적이고 검색율의 높일 방법을 연구한다.

  • PDF

A Machine Learning Approach for Automatic Protein Name Extraction from Journal Articles (기계학습 알고리즘에 근거한 단백질 이름의 자동 추출)

  • 김정호;백은옥;이공주
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.259-261
    • /
    • 2004
  • 생물학 분야의 문헌으로부터 유전자 및 단백질 이름을 추출하는 기술은 바이오 텍스트 마이닝 분야의 기반 기술로 그 중요성이 점차 증대되고 있다. 이 연구에서는 생물학 분야 문헌의 초록으로부터 하나의 토큰으로 구성된 single gene name은 물론 여러 개의 토큰으로 이루어진 multi gene name까지 유전자나 단백질의 이름을 자동으로 추출하는 시스템 TagGeN(Tagger for Gene Name)을 제안한다. TagGeN은 기존의 태거와 달리, 문자나 숫자 이외의 기호를 포함한 유전자나 단백질 이름의 품사 처리에 있어 개선 방안을 제시하고, 여러 토큰으로 이루어진 이름의 인식에 있어 나란한 두 토큰이 갖는 태그 정보를 이용한 조건부 확률에 근거하여 Markov 모델을 도입한다. 위와 같은 개선방안을 구현한 TagGeN은 성능면에서 기존의 유사시스템에 비해 recall 20.8%, precision 4.7%의 성능향상을 보임으로써 본 연구에서 제안한 방법론의 효과를 입증한다.

  • PDF

The Reading Rule and Transformation of Mathmatical Expression in the Content MathML (내용 MathML에서의 수식 독음 규칙 및 변환)

  • Seo, Seung-Hee;Park, Soo-Hyun;Lim, Soon-Bum
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.374-376
    • /
    • 2012
  • 최근 독서 장애인을 위한 국제 디지털 음성 도서 표준인 DAISY를 통해 장애인의 고등 교육을 위한 연구가 활성화되고 있으나 그림이나 수식과 같은 특수요소는 음성도서로 만들어 활용하기 어렵다. 이를 위해, 본 연구에서는 중학교 교과과정에 포함된 내용 MathML 엘리먼트에 대한 한글 독음 규칙을 정의하였다. 또한, 정의한 한글 독음 규칙에 따라 내용 MathML로 표현된 수식을 독음 텍스트로 변환하는 프로그램을 XSLT로 구현하였다.

An Efficient Menu Recommendation System with Data Mining on User Preference (사용자 선호도 기반 데이터마이닝을 통한 효율적인 메뉴 추천 시스템)

  • Park, Byeong-Seok;Kang, Seong-Hun;Cho, Hyun-Woo;Jeong, Young-Sik
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1549-1552
    • /
    • 2015
  • 최근 스마트폰을 비롯한 스마트 디바이스의 급격한 보급화가 이루어짐에 따라 추천가 시스템과 같은 개인화 서비스에 관한 연구가 활발히 진행되고 있다. 그러나 이러한 서비스는 활용 방안이 광범위함에도 불구하고 마케팅 등의 특정 분야에 한정되어 있거나 저수준의 QoS를 제공하는 정도에 머물러 있어 국내의 추천가 시스템은 아직 도입단계에 불과하다. 추천가 시스템은 추천할 물품과 같은 객체의 기본 및 평가 정보를 텍스트 형태의 메타 정보로 나타낸다. 이러한 메타 정보 기반 필터링에 의해 주변 경로 및 취향이 고려되지 않은 결과를 사용자에게 제공하고 있다. 이에 사용자와 상호작용하여 건강이나 취향, 식사 이력, 통계 등을 고려해 메뉴를 추천해주는 최적화된 알고리즘 연구가 요구된다. 본 논문에서는 최적화된 내용 기반 필터링을 활용해 사용자의 입력 패턴과 취향을 파악하여 메뉴를 추천해주는 시스템인 UBRS을 제안하고자 한다.

A Study for Big Data Analytics Platform with Raspberry Pi Cluster and Apache Spark (라즈베리 파이 클러스터와 아파치 스파크를 활용한 빅데이터 분석 플랫폼 연구)

  • Kim, Young-Sun;Park, Ji-Young;Yoon, Bo-Ram;Lee, Jung-Hyun;Yong, Hwan-Seung
    • Annual Conference of KIPS
    • /
    • 2015.10a
    • /
    • pp.1272-1275
    • /
    • 2015
  • 최근 관심이 증대되고 있는 빅데이터 분석 및 처리를 위한 병렬분산처리 시스템은 대용량 서버가 필요하고 인프라 구축을 위해 고비용을 지불해야 한다. 이를 해결하기 위해 본 연구에서는 저렴한 라즈베리 파이로 클러스터를 구성하고, 하둡보다 빠른 속도의 처리를 제공하는 아파치 스파크를 분석 솔루션으로 하는 빅데이터 분석 플랫폼을 구축하였다. 구축한 플랫폼이 빅데이터 활용을 위해 적절한 성능을 보이는지 확인하기 위해 텍스트 마이닝을 수행하였고, 분석 결과 유효한 성능을 보였다. 적절한 비용으로 빅데이터 분석이 가능해지면서 중소기업과 개인, 교육 기관에서도 빅데이터 활용이 가능해지면서 활용 분야가 크게 확대될 것으로 보인다.

Honorific Correction Program Using Case Frame Dictionary (격틀사전을 활용한 존댓말 교정 프로그램)

  • Jang, Yunjeong;Lim, Lina;Lee, Jae Sung
    • Annual Conference of KIPS
    • /
    • 2019.10a
    • /
    • pp.954-957
    • /
    • 2019
  • 한국어 맞춤법 검사기는 현재 여러 곳에서 개발하여 서비스를 제공하고 있으며 다양한 목적으로 사용되고 있다. 하지만 이들은 맞춤법이나 띄어쓰기를 검사할 뿐, 존댓말과 같은 높임표현이 잘못 사용되었는지는 검사할 수 없다. 최근에는 맞춤법 검사를 위해 통계적 방식과 딥러닝을 사용하고 있지만, 본 연구에서는 규칙 기반을 활용하여 사용자가 텍스트를 입력하면 잘못된 높임표현을 탐지하여 그에 대한 오류 정보를 제공하고, 올바른 표현으로 교정하는 프로그램을 개발하였다. 구문 분석기를 사용하여 주어-서술어 구조를 파악하고, 형태소 분석기를 활용하여 높임표현을 탐지한 후 격틀사전의 정보를 이용하여 존댓말 오류를 탐지한다. 본 연구는 격식이 있는 문서를 검사할 때나, 한국어 높임말에 익숙하지 않은 외국인들에게 도움이 될 수 있을 것이다.

Design of Storage for Efficient Retrieval using Melodies based in XML (효율적인 선율 검색을 위한 XML문서의 저장소 설계)

  • Kim, Tae-Wan;Bae, Mi-Sook;Hwang, Bu-Hyun
    • Annual Conference of KIPS
    • /
    • 2001.04a
    • /
    • pp.3-6
    • /
    • 2001
  • 오늘날, 웹과 네트???p의 발달로 인하여 많은 멀티미디어 정보들이 쏟아지고 있고 이에 따라 멀티미디어 정보에 대한 검색 시스템이 활발히 연구중에 있다. 아직까지 음악정보 검색에 대한 연구는 미비한데 최근 XML이 인터넷상에서 정보교환의 표준으로 자리잡으면서 서양음악을 표현하기 위한 방법으로서 MusicXML, ScoreML과 같은 포맷이 고안되었다. 기존의 음악검색기법들이 음악파일에 대해 선율 정보를 검색한 것에 비해 본 논문은 음악을 텍스트로 표현한 XML문서에 대해 멜로디만을 동기 단위로 추출하여 이동도법으로 변환하여 저장함으로서 효율적인 선율 검색이 되도록 데이터베이스 저장소를 설계한다.

  • PDF

An effective color extraction and interactive insertion technique for converting PDF documents to EPUB3.0 format (PDF문서를 EPUB3.0 포맷으로 변환을 위한 효과적 색 추출 및 상호작용 효과삽입기법)

  • Lee, Namhui;Kim, Kangseok;Kim, Jai-Hoon;Byun, Louis
    • Annual Conference of KIPS
    • /
    • 2015.04a
    • /
    • pp.968-970
    • /
    • 2015
  • 기존 책 문서인 PDP 문서를 전자책에서도 억세스 할 수 있도록 전자책의 표준 형태로 변환하는 과정이 필요하다. PDP 문서를 전자책의 대표적인 표준 형태인 EPUB3.0으로 변환할 때, 인쇄 색상 표현방법인 CMYK를 디지털 색상 RGB 형태로 변환하는데 형태의 차이로 인하여 색감이 제대로 변환되지 못하는 문제점이 있다. 본 연구에서는 변환 시 색감을 잃지 않도록 ICC 프로파일을 이용한 변환 연구를 수행하였다. 또한 전자책 독자들을 위한 상호 작용적인 시각적인 효과를 제공하기 위하여, 많은 부분의 텍스트 중 특정 부분을 인식하여 효과 코드를 넣는 알고리즘을 제안하였다.

Comparison of Feature Selection Methods in Anti-Spam Systems (스팸 대응 시스템에서 특징 추출 방법 비교에 관한 연구)

  • Kim, Jong-Wan;Kim, Hui-Jae;Gang, Sin-Jae;Hwang, Un-Ho
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.352-355
    • /
    • 2006
  • 본 논문에서는 스팸 대응 시스템의 특징 추출 방법들을 비교한다. 실험 결과는 퍼지추론 방법이 정보획득량, 카이제곱 통계량, 상호정보 방법에 비하여 정확률과 재현율의 결합 척도인 F-척도면에서 월등한 성능을 보여주지는 않는다. 하지만 제안된 퍼지추론 방법은 사용된 특징들의 수에 비례하여 성능이 증가하므로 좋은 특징 추출 방법으로 간주된다. 따라서 본 연구는 무수한 스팸 메일로 고통 받는 전자우편 사용자들을 위한 스팸 메일 필터링 시스템 개발에 도움을 줄 수 있다.

  • PDF