• 제목/요약/키워드: Needleman-Wunsch

검색결과 8건 처리시간 0.016초

Needleman-Wunsch 알고리즘을 이용한 유사예문 검색 (Searching Similar Example-Sentences Using the Needleman-Wunsch Algorithm)

  • 김동주;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.181-188
    • /
    • 2006
  • 본 논문에서는 번역지원 시스템을 위한 유사예문 검객 알고리즘을 제안한다. 유사예문 검색이란 질의문에 대하여 구조적, 의미적으로 유사한 예문을 찾는 것으로 번역지원 시스템의 핵심 요소이다. 제안하는 알고리즘은 생물정보학 분야에서 두 단백질의 아미노산열의 유사성을 판별하기 위한 Needleman-Wunsch 알고리즘에 기반하고 있다. 표면정보만 이용하는 Needleman-Wunsch 알고리즘을 그대로 문장 비교에 적용하였을 경우 단어 굴절요소에 민감하여 의미적으로 유사한 문장을 발견하지 못할 가능성이 높다. 따라서 표면 정보 외에 단어의 표제어 정보를 추가적으로 이용한다. 또한 문장 구조의 유사성 정도를 반영하기 위해 품사 정보를 이용한다. 즉, 본 논문에서는 단어의 표면 정보. 표제어 정보, 품사 정보를 융합한 문장 비교 척도를 제안한다. 그리고 이 척도를 이용하여 유사 문장을 검색하고, 유사성에 기여하는 부분쌍을 파악하여 결과로 제시한다. 제안하는 알고리즘은 전기통신 분야의 데이터에 대해 매우 우수한 성능을 보였다.

  • PDF

번역지원 시스템을 위한 유사 예문 검색 (Searching Similar Example Sentences for the Computer-Aided Translation System)

  • 김동주;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제14권1호
    • /
    • pp.197-204
    • /
    • 2006
  • 본 논문에서는 번역 지원 시스템을 위한 유사문장 검색 알고리즘을 제안한다. 이 알고리즘은 Needleman- Wunsch 알고리즘에 기반을 두고 있으며, 단어의 비교를 위해 단어의 표면어 정보, 표제어 정보, 품사 정보 계층으로 된 다층 정보의 융합을 통해 유사도를 계산하고 정렬을 수행하게 된다. 제안하는 알고리즘은 전기통신 분야의 문장 데이터에 대해 매우 우수한 검색 정확률을 보였다.

  • PDF

품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘 (A DNA Sequence Alignment Algorithm Using Quality Information and a Fuzzy Inference Method)

  • 김광백
    • 지능정보연구
    • /
    • 제13권2호
    • /
    • pp.55-68
    • /
    • 2007
  • 분자 생물학(computational molecular biology) 분야에서 DNA 염기 서열 배치 알고리즘은 다양한 방법으로 개선되어 왔다. 본 논문에서는 기존의 DNA 염기의 품질 정보(quality information)를 이용한 DNA 염기 서열 배치 방법을 개선하기 위하여 퍼지 논리 시스템(fuzzy logic system)과 DNA 염기 서열 단편의 특징을 적용한 품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘을 제안한다. 기존의 알고리즘은 Needleman-Wunsch가 제안한 전역 배치 알고리즘에 각 DNA 염기의 품질 정보를 적용하여 DNA 염기 서열 배치 점수를 계산하였다. 그러나 전체 DNA 염기의 품질 정보를 이용하여 계산하기 때문에 DNA 염기 말단 부분의 품질이 낮은 경우에는 DNA 염기 서열 배치 점수를 계산하는 과정에서 오차가 발생한다. 본 논문에서는 기존의 품질 정보를 이용한 알고리즘을 개선하여 DNA 염기 서열의 말단 부위의 품질이 낮은 경우에도 정확히 서열을 배치할 수 있도록 한다. 또한 DNA 염기 서열 단편의 길이와 낮은 품질의 DNA 염기 빈도를 퍼지 논리 시스템에 적용하여 DNA 염기 서열 배치 점수를 계산하는데 적용되는 매핑 점수 인자(parameter)를 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI(National Center for Biotechnology Information)의 실체 유전체 데이터를 받아 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질 정보만을 이용한 알고리즘 보다 DNA 염기 서열 배치에 있어서 효율적임을 확인하였다.

  • PDF

인터넷 게시물의 댓글 분석 및 시각화 (Analysis and Visualization for Comment Messages of Internet Posts)

  • 이윤정;지정훈;우균;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.45-56
    • /
    • 2009
  • 오늘날 인터넷 사용자들은 블로그나 뉴스, 인터넷 게시판 등의 매체에서 댓글을 통해 다른 사람의 의견을 살피고 자신의 의견을 나타내고 있다. 그러나 현재 대부분의 블로그나 인터넷 포털 사이트의 경우 기사나 댓글들을 순차적인 목록 형태로 제공하므로 사용자가 원하는 내용의 댓글을 검색하거나 살펴보는 것은 힘든 일이다. 또한 댓글 사용자가 증가함에 따라 스팸 댓글이나 악플 등이 사회 문제가 되기도 한다. 본 논문에서는 다음 아고라(Daum AGORA) 웹 블로그의 게시글과 댓글을 통계적으로 분석하고 유사도를 기반으로 클러스터링하는 시스템을 제안한다. 본 시스템은 클러스터링 결과를 시각화하여 간단한 스크린 뷰(screen view)로 보여준다. 또한, 본 시스템은 생물정보학에서 잘 알려진 정렬 기법인 Needleman-Wunsch 알고리즘을 이용해 스팸 댓글을 필터링한다.

A Novel Similarity Measure for Sequence Data

  • Pandi, Mohammad. H.;Kashefi, Omid;Minaei, Behrouz
    • Journal of Information Processing Systems
    • /
    • 제7권3호
    • /
    • pp.413-424
    • /
    • 2011
  • A variety of different metrics has been introduced to measure the similarity of two given sequences. These widely used metrics are ranging from spell correctors and categorizers to new sequence mining applications. Different metrics consider different aspects of sequences, but the essence of any sequence is extracted from the ordering of its elements. In this paper, we propose a novel sequence similarity measure that is based on all ordered pairs of one sequence and where a Hasse diagram is built in the other sequence. In contrast with existing approaches, the idea behind the proposed sequence similarity metric is to extract all ordering features to capture sequence properties. We designed a clustering problem to evaluate our sequence similarity metric. Experimental results showed the superiority of our proposed sequence similarity metric in maximizing the purity of clustering compared to metrics such as d2, Smith-Waterman, Levenshtein, and Needleman-Wunsch. The limitation of those methods originates from some neglected sequence features, which are considered in our proposed sequence similarity metric.

개선된 다이나믹 프로그래밍과 품질 정보 및 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘

  • Lee, Seung-Hwan;Park, Choong-Shik;Kim, Kwang-Baek
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2007년도 한국지능정보시스템학회
    • /
    • pp.341-350
    • /
    • 2007
  • DNA 염기 서열 배치 알고리즘은 분자 생물학 분야에서 단백질과 핵산 서열들의 분석에서 중요한 방법이다. 생물학적인 염기 서열들은 그들 사이의 유사성과 차이점을 나타내기 위해 정렬된다. 본 논문에서는 기존의 DNA 염기 서열 배치 방법을 개선하기 위하여 DP(Dynamic Programming) 알고리즘의 비용증가( O (nm) ) 문제를 해결하는 Quadrant 방법과 품질 정보 및 퍼지 추론시스템(fuzzy inference system)을 적용한 DNA 염기 서열 배치 알고리즘을 제안한다. 본 논문에서 제안한 DNA 염기 서열 배치 알고리즘은 Quadrant 방법을 적용하여 Needleman-Wunsch의 DP 기반 알고리즘에서의 행렬 생성 단계에서 발생하는 불필요한 정렬 계산을 제거하여 전체 수행 시간을 단축하고, 각 DNA 염기 서열 단편 각각의 길이 차이와 낮은 품질의 DNA 염기 빈도를 퍼지 추론 시스템에 적용하여 지능적으로 갭 비용(gap cost)을 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI (National Center for Biotechnology Information)의 실제 유전체 데이터로 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질정보만을 이용한 알고리즘보다 개선된 것을 확인하였다.

  • PDF

A Method to Measure the Self-Supplied News Volumes of Internet Newspaper Company

  • Kim, Dong-Joo;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권10호
    • /
    • pp.99-105
    • /
    • 2015
  • The growth of internet infrastructure and a tremendous increment of internet users lead actively to found internet newspaper publishing companies, which are able to dig up and publish own news articles. In disregard of these quantitative growth of internet newspaper companies, the qualitative growth of them doesn't coincide with the quantitative growth. Therefore, to require social responsibility and to build healthy media environment, Korean government has put in force registration system of internet newspaper company. According to this system, internet newspaper companies have to produce at the inside over 30 percent of weekly publications, and this requisite increases the needs of its verification. This paper investigates technologies to measure the self-supplied news volumes of internet newspaper company, examines validity of them, and presents appropriate method to measure. To compare huge amount of news articles rapidly, the presented method is based on the modified edit-distance, which reflects human cognition of word and empirical information related with it. To prove correctness of our presented method, we show experimental results for some real internet news articles.

상품 분류 체계를 고려한 구매이력 유사도 측정 기법 (Purchase Transaction Similarity Measure Considering Product Taxonomy)

  • 양유정;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권9호
    • /
    • pp.363-372
    • /
    • 2019
  • 시퀀스란 두 항목 간의 순서가 존재하는 데이터를 말하며, 고객 한 명이 구매한 상품들이 나열된 구매이력 데이터는 대표적인 시퀀스 데이터 중 하나이다. 일반적으로 모든 상품은 대분류/ 중분류/ 소분류와 같은 상품 분류 체계를 가지며, 서로 다른 상품이더라도 비슷하다면 그 특성에 따라 동일한 범주로 분류된다. 따라서 본 논문에서는 두 구매이력 시퀀스 비교 시 상품의 구매 순서를 고려할 뿐만 아니라, 비교하고자 하는 두 상품이 다르더라도 서로 동일한 상품 군에 속한다면 더 높은 유사도를 부여하여 계산한다. 특히 구매이력 시퀀스 유사도 계산 성능에 직접적인 영향을 미치는 시퀀스 유사도 측정 방법을 선택하기 위해 본 연구에서는 대표적인 시퀀스 간 유사도 측정 방법인 레벤슈타인 거리, 동적 타임 워핑 거리, 니들만-브니쉬 유사도의 성능을 비교하였으며, 항목간의 계층구조도 반영하여 계산하도록 확장하였다. 기존의 유사도 측정 방법의 경우 시퀀스 내 상품 비교 시 상품의 일치 유무에 따라 단순히 0 또는 1의 값을 부여하여 계산한다. 하지만 제안 방법의 경우 서로 다른 상품이더라도 두 상품 간의 연관정도를 다르게 부여하기 위하여 상품 분류 트리를 사용하여 0에서 1 사이의 값을 가지도록 세분화하였다. 실험을 통해 세 알고리즘에 제안 방법을 적용한 경우 기존 방법에 비하여 구매이력 시퀀스 간의 유사도를 더 정확히 측정함을 확인하였다. 또한 정확성 측정 비교 실험을 통해 동적 타임 워핑 유사도가 다른 두 유사도 측정 방법에 비하여 시퀀스 내 상품의 연관 정도를 고려할 뿐만 아니라 두 시퀀스의 길이가 다른 경우에도 좋은 성능을 보였기 때문에 구매이력 데이터에서 시퀀스 간의 유사도 비교 시 가장 적합한 측정 방법임을 확인하였다.