• 제목/요약/키워드: Needleman-Wunsch algorithm

검색결과 5건 처리시간 0.016초

Needleman-Wunsch 알고리즘을 이용한 유사예문 검색 (Searching Similar Example-Sentences Using the Needleman-Wunsch Algorithm)

  • 김동주;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.181-188
    • /
    • 2006
  • 본 논문에서는 번역지원 시스템을 위한 유사예문 검객 알고리즘을 제안한다. 유사예문 검색이란 질의문에 대하여 구조적, 의미적으로 유사한 예문을 찾는 것으로 번역지원 시스템의 핵심 요소이다. 제안하는 알고리즘은 생물정보학 분야에서 두 단백질의 아미노산열의 유사성을 판별하기 위한 Needleman-Wunsch 알고리즘에 기반하고 있다. 표면정보만 이용하는 Needleman-Wunsch 알고리즘을 그대로 문장 비교에 적용하였을 경우 단어 굴절요소에 민감하여 의미적으로 유사한 문장을 발견하지 못할 가능성이 높다. 따라서 표면 정보 외에 단어의 표제어 정보를 추가적으로 이용한다. 또한 문장 구조의 유사성 정도를 반영하기 위해 품사 정보를 이용한다. 즉, 본 논문에서는 단어의 표면 정보. 표제어 정보, 품사 정보를 융합한 문장 비교 척도를 제안한다. 그리고 이 척도를 이용하여 유사 문장을 검색하고, 유사성에 기여하는 부분쌍을 파악하여 결과로 제시한다. 제안하는 알고리즘은 전기통신 분야의 데이터에 대해 매우 우수한 성능을 보였다.

  • PDF

번역지원 시스템을 위한 유사 예문 검색 (Searching Similar Example Sentences for the Computer-Aided Translation System)

  • 김동주;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제14권1호
    • /
    • pp.197-204
    • /
    • 2006
  • 본 논문에서는 번역 지원 시스템을 위한 유사문장 검색 알고리즘을 제안한다. 이 알고리즘은 Needleman- Wunsch 알고리즘에 기반을 두고 있으며, 단어의 비교를 위해 단어의 표면어 정보, 표제어 정보, 품사 정보 계층으로 된 다층 정보의 융합을 통해 유사도를 계산하고 정렬을 수행하게 된다. 제안하는 알고리즘은 전기통신 분야의 문장 데이터에 대해 매우 우수한 검색 정확률을 보였다.

  • PDF

품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘 (A DNA Sequence Alignment Algorithm Using Quality Information and a Fuzzy Inference Method)

  • 김광백
    • 지능정보연구
    • /
    • 제13권2호
    • /
    • pp.55-68
    • /
    • 2007
  • 분자 생물학(computational molecular biology) 분야에서 DNA 염기 서열 배치 알고리즘은 다양한 방법으로 개선되어 왔다. 본 논문에서는 기존의 DNA 염기의 품질 정보(quality information)를 이용한 DNA 염기 서열 배치 방법을 개선하기 위하여 퍼지 논리 시스템(fuzzy logic system)과 DNA 염기 서열 단편의 특징을 적용한 품질 정보와 퍼지 추론 기법을 이용한 DNA 염기 서열 배치 알고리즘을 제안한다. 기존의 알고리즘은 Needleman-Wunsch가 제안한 전역 배치 알고리즘에 각 DNA 염기의 품질 정보를 적용하여 DNA 염기 서열 배치 점수를 계산하였다. 그러나 전체 DNA 염기의 품질 정보를 이용하여 계산하기 때문에 DNA 염기 말단 부분의 품질이 낮은 경우에는 DNA 염기 서열 배치 점수를 계산하는 과정에서 오차가 발생한다. 본 논문에서는 기존의 품질 정보를 이용한 알고리즘을 개선하여 DNA 염기 서열의 말단 부위의 품질이 낮은 경우에도 정확히 서열을 배치할 수 있도록 한다. 또한 DNA 염기 서열 단편의 길이와 낮은 품질의 DNA 염기 빈도를 퍼지 논리 시스템에 적용하여 DNA 염기 서열 배치 점수를 계산하는데 적용되는 매핑 점수 인자(parameter)를 동적으로 조정한다. 제안된 알고리즘의 성능 평가를 위해 NCBI(National Center for Biotechnology Information)의 실체 유전체 데이터를 받아 성능을 분석한 결과, 제안된 알고리즘이 기존의 품질 정보만을 이용한 알고리즘 보다 DNA 염기 서열 배치에 있어서 효율적임을 확인하였다.

  • PDF

인터넷 게시물의 댓글 분석 및 시각화 (Analysis and Visualization for Comment Messages of Internet Posts)

  • 이윤정;지정훈;우균;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권7호
    • /
    • pp.45-56
    • /
    • 2009
  • 오늘날 인터넷 사용자들은 블로그나 뉴스, 인터넷 게시판 등의 매체에서 댓글을 통해 다른 사람의 의견을 살피고 자신의 의견을 나타내고 있다. 그러나 현재 대부분의 블로그나 인터넷 포털 사이트의 경우 기사나 댓글들을 순차적인 목록 형태로 제공하므로 사용자가 원하는 내용의 댓글을 검색하거나 살펴보는 것은 힘든 일이다. 또한 댓글 사용자가 증가함에 따라 스팸 댓글이나 악플 등이 사회 문제가 되기도 한다. 본 논문에서는 다음 아고라(Daum AGORA) 웹 블로그의 게시글과 댓글을 통계적으로 분석하고 유사도를 기반으로 클러스터링하는 시스템을 제안한다. 본 시스템은 클러스터링 결과를 시각화하여 간단한 스크린 뷰(screen view)로 보여준다. 또한, 본 시스템은 생물정보학에서 잘 알려진 정렬 기법인 Needleman-Wunsch 알고리즘을 이용해 스팸 댓글을 필터링한다.

A Method to Measure the Self-Supplied News Volumes of Internet Newspaper Company

  • Kim, Dong-Joo;Lee, Won Joo
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권10호
    • /
    • pp.99-105
    • /
    • 2015
  • The growth of internet infrastructure and a tremendous increment of internet users lead actively to found internet newspaper publishing companies, which are able to dig up and publish own news articles. In disregard of these quantitative growth of internet newspaper companies, the qualitative growth of them doesn't coincide with the quantitative growth. Therefore, to require social responsibility and to build healthy media environment, Korean government has put in force registration system of internet newspaper company. According to this system, internet newspaper companies have to produce at the inside over 30 percent of weekly publications, and this requisite increases the needs of its verification. This paper investigates technologies to measure the self-supplied news volumes of internet newspaper company, examines validity of them, and presents appropriate method to measure. To compare huge amount of news articles rapidly, the presented method is based on the modified edit-distance, which reflects human cognition of word and empirical information related with it. To prove correctness of our presented method, we show experimental results for some real internet news articles.