• 제목/요약/키워드: 문장 정렬

검색결과 36건 처리시간 0.022초

웹 인덱싱을 위한 통합 전처리 시스템의 개발 (Integrated Sentence Preprocessing System for Web Indexing)

  • 심준혁;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.216-223
    • /
    • 2000
  • 웹 문서는 일반 문서들과 달리 자유로운 형식으로 기술되어 있고, 원문에 태그나 코드 등 불필요한 내용들을 많이 포함하고 있어 언어 처리에 바로 사용하기에 적합하지 못하다. 본 논문은 인덱싱 대상 문서로 사용되는 웹 문서를 자동으로 수집하여, 문장 단위로 정렬된 문서로 제작, 관리하는 통합 전처리 시스템인 Web Tagger의 구조와 전처리 방법을 소개한다. Web Tagger는 문서 정제, 문장 분할, 띄어쓰기의 과정을 거쳐 웹 문서에서 표준화된 정보를 추출하고, 형태소 분석기를 포함한 응용 시스템의 목적에 맞게 XML 형식의 원문 코퍼스를 자동으로 생성하고 관리한다. '정규문법(Regexp)', '휴리스틱', '품사 인덱스 참조', 'C4.5를 사용한 학습 규칙' 등의 다양한 전처리 기법은 형태소 분석 정확도 향상과 시스템 안정성 보장에 기여한다.

  • PDF

번역지원 시스템을 위한 유사 예문 검색 (Searching Similar Example Sentences for the Computer-Aided Translation System)

  • 김동주;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제14권1호
    • /
    • pp.197-204
    • /
    • 2006
  • 본 논문에서는 번역 지원 시스템을 위한 유사문장 검색 알고리즘을 제안한다. 이 알고리즘은 Needleman- Wunsch 알고리즘에 기반을 두고 있으며, 단어의 비교를 위해 단어의 표면어 정보, 표제어 정보, 품사 정보 계층으로 된 다층 정보의 융합을 통해 유사도를 계산하고 정렬을 수행하게 된다. 제안하는 알고리즘은 전기통신 분야의 문장 데이터에 대해 매우 우수한 검색 정확률을 보였다.

  • PDF

정렬기법을 이용한 미등록 대역어의 자동 추출 (Automatically Extracting Unknown Translations Using Phrase Alignment)

  • 김재훈;양성일
    • 정보처리학회논문지B
    • /
    • 제14B권3호
    • /
    • pp.231-240
    • /
    • 2007
  • 이 논문은 정렬 기법을 이용한 미등록 대역어 추출 모델을 제안하고 그 추출 시스템을 구현한다. 제안된 미등록 대역어 추출 모델은 일종의 구절정렬 모델로서 경계모델과 언어모델 그리고 번역 모델로 구성된다. 제안된 추출 시스템은 병렬말뭉치 구축, 단어정렬, 미등록어 추출로 구성된다. 이 논문에서는 제안된 시스템을 평가하기 위해서 약 1,500여 개의 미등록어가 포함된 2,200문장의 평가말뭉치를 구축하여 다양한 실험을 수행하였다. 실험을 통해서 제안된 모델이 미등록 대역어 추출에 매우 유용함을 알 수 있었다. 앞으로 좀 더 객관적인 평가를 위해 대량의 평가말뭉치 구축이 선행되어야 하며 좀 더 양질의 병렬말뭉치의 구축이 필요할 것이다. 또한 미등록어 추출 모델을 개선하기 다양한 연구가 추진되어야 할 것이다.

한국어 의존 관계 분석과 자질 집합 분할을 이용한 기계학습의 성능 개선 (Analysis of Korean Language Parsing System and Speed Improvement of Machine Learning using Feature Module)

  • 김성진;옥철영
    • 전자공학회논문지
    • /
    • 제51권8호
    • /
    • pp.66-74
    • /
    • 2014
  • 최근에 한국어 의존 관계에 대한 파싱 시스템과 관련된 연구가 소프트웨어 공학자들이나 언어학자들에 의해 다양하게 연구되고 있으며, 시스템 구현은 주로 기계 학습이나 기호 주의를 사용하고 있다. 기계 학습을 사용한 방법은 한국어 문장 데이터가 매우 크기 때문에 시스템 특성상 매우 긴 학습시간을 가지며, 데이터 자체가 가지는 오류로 인하여 한정된 인식율을 가진다. 본 연구에서는 기계학습을 이용한 시스템에 대하여 학습 시간을 줄일 수 있도록 특징들을 자질 집합 모듈로 분할하여 처리하는 방법을 제안하고, 문장수와 반복횟수에 따른 인식율을 분석하였다. 설계된 시스템은 분리된 모듈과 이진 검색을 위한 정렬 기법이 사용되었다. 데이터는 세종 말뭉치로부터 추출한 후 정제된 36,090문장을 사용하였다. 학습 시간은 약 3시간으로 줄었으며, 인식율은 10,000 문장을 50회 학습하였을 때 84.54%로 가장 높았다. 모든 학습 문장(32,481)을 10회 학습하였을 때 인식율은 82.99%이다. 결과적으로 정제된 데이터를 이용하여 시스템이 안정화될 때까지 반복하는 것이 더 효율적이었다.

Needleman-Wunsch 알고리즘을 이용한 유사예문 검색 (Searching Similar Example-Sentences Using the Needleman-Wunsch Algorithm)

  • 김동주;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권4호
    • /
    • pp.181-188
    • /
    • 2006
  • 본 논문에서는 번역지원 시스템을 위한 유사예문 검객 알고리즘을 제안한다. 유사예문 검색이란 질의문에 대하여 구조적, 의미적으로 유사한 예문을 찾는 것으로 번역지원 시스템의 핵심 요소이다. 제안하는 알고리즘은 생물정보학 분야에서 두 단백질의 아미노산열의 유사성을 판별하기 위한 Needleman-Wunsch 알고리즘에 기반하고 있다. 표면정보만 이용하는 Needleman-Wunsch 알고리즘을 그대로 문장 비교에 적용하였을 경우 단어 굴절요소에 민감하여 의미적으로 유사한 문장을 발견하지 못할 가능성이 높다. 따라서 표면 정보 외에 단어의 표제어 정보를 추가적으로 이용한다. 또한 문장 구조의 유사성 정도를 반영하기 위해 품사 정보를 이용한다. 즉, 본 논문에서는 단어의 표면 정보. 표제어 정보, 품사 정보를 융합한 문장 비교 척도를 제안한다. 그리고 이 척도를 이용하여 유사 문장을 검색하고, 유사성에 기여하는 부분쌍을 파악하여 결과로 제시한다. 제안하는 알고리즘은 전기통신 분야의 데이터에 대해 매우 우수한 성능을 보였다.

  • PDF

『노걸대』 분석을 통해서 바라본 우리 반도의 외국어 교육 (Foreign Language Education of Korean Peninsula: Insights from Nogeldae)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권6호
    • /
    • pp.408-414
    • /
    • 2017
  • 본 연구는 고려말에 저자미상의 실용적인 목적으로 만들어진 외국어 교재 "노걸대"에 대하여 어떻게 고려말부터 조선 500년 동안 지속적으로 외국어 교재로 사용될 수 있었는지 외국어 교재로서 그 지속성의 가치는 어디에 있는지를 알아보고자 하는데 있다. 이를 위해서 "노걸대"에 있는 대화문 구성된 의사소통 상황별로 정광의 "노걸대" 역주본에 나와 있는 106편의 대화를 만남(12편), 숙박(17편), 대도행(21편), 대도 생활(34편), 귀국(11편)으로 구분하여 평균문장길이, 어휘길이, 타입-토큰 비율, 본동사 앞 단어 수, 명사구 평균 수식어수 항목 측정치를 활용하여 외국어 교재로서의 계열성을 파악하고자 한다. "노걸대"는 제시된각 의사소통기능에서 일부 명사구 내의 계열성이 무시된 경우를 제외하면 전체적으로 복잡도의 계열성을 확인할 수 있었다. 문장 길이, 문장의 복잡도 계열성은 전체적으로 확인되었다. 어휘의 다양성은 계열성이 제대로 구성되었다고 볼 수는 없으나 어휘의 반복율이 높은 것은 기본적인 어휘의 사용이 많이 이루어졌다는 것을 의미한다.

영어학습 도구로서 기계번역기의 가용성 분석 - as구문 역번역을 통하여 (Analysis of the Usability of Machine Translators as an English Learning Tool -Through backtranslation of the as phrase)

  • 박권호;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제21권5호
    • /
    • pp.259-267
    • /
    • 2021
  • 기계번역기는 1950년대 처음 등장하였고 2010년대 신경망번역시스템을 적용하면서 번역정확성에 비약적인 발전을 하였다. 하지만 아직도 복잡한 문장의 번역에는 어려움을 겪고 있으며 이것은 영어학습 도구로서 기계번역기를 이용하는데 불편함을 주었다. 따라서 본 연구는 고등학교 1학년 수준의 문장들 중 다양한 뜻과 품사를 가지고 있는 as가 포함된 문장들을 분석대상으로 기계번역기를 이용한 역번역실험을 통해서 영어학습 도구로서 기계번역기의 가용성을 분석했다. 분석도구로는 신경망번역시스템을 이용한 대표적인 기계번역기인 구글 번역기, 네이버 파파고, 마이크로소프트 번역기를 이용하였다. 연구결과 기계번역기 사용시 각 as용법에 따라서 가용성이 유의하게 다른 것을 확인하였고 그에 따라 각 문장에 쓰인 as용법을 기계번역기를 사용하여 학습할 시 가용성이 높은 용법, 보통인 용법, 낮은 용법으로 분류하였다. 선행연구와는 다르게 직접 학습도구로서 기계번역기를 분석했고 접속사 as의 용법의 가용성을 수치화 시킨 데 있어서 본 연구는 연구적 공헌점을 가진다.

곱셈과 나눗셈 문장제 유형에 따른 문제해결능력 (An Analysis on Problem Solving Ability of 3rd Grade Types of Multiplication and Division Word Problem)

  • 임자선;김성준
    • 한국초등수학교육학회지
    • /
    • 제19권4호
    • /
    • pp.501-525
    • /
    • 2015
  • 본 논문은 2009 개정 교육과정 초등학교 3학년 수학 교과서와 익힘책에 제시된 곱셈과 나눗셈 문장제를 유형별로 분석하고, 초등학교 4학년 학생을 대상으로 문장제 유형에 따른 문제해결능력을 살펴봄으로써 곱셈과 나눗셈 문장제의 효율적인 지도 방안을 생각해보기 위한 것이다. 이를 위해 먼저 초등학교 3학년 수학 교과서와 익힘책에 제시된 자연수의 곱셈 문장제를 동수누가, 비율, 비교, 정렬, 조합의 5가지 의미 유형으로, 나눗셈은 등분제와 포함제의 2가지 유형으로 구분하여 살펴보았다. 이와 함께 곱셈과 나눗셈 문장제에서 미지수의 위치에 따라 처음량, 변화량, 결과량을 묻는 문장제의 구문 유형에 대해서도 살펴보았다. 그런 다음 4학년 학생을 대상으로 문장제 문제해결능력 검사 도구를 개발하였는데, 앞서 분석한 곱셈과 나눗셈의 문장제 유형을 의미와 구문으로 나누어 2차례의 검사를 실시하여 정답률과 학생들의 오답 반응 등을 분석하였다. 분석 결과 곱셈은 동수누가에서의 정답률이 높게 나온 반면 나눗셈의 경우 포함제와 등분제에서 차이를 보이지 않았는데, 이는 교과서의 문제 유형 분포와 상관관계를 보임을 알 수 있다. 이러한 논의를 바탕으로 곱셈과 나눗셈 문장제의 효과적인 지도와 학생들의 문장제 문제해결능력을 향상시키기 위해 다양한 유형의 문장제를 제시할 필요가 있음을 제안하고 있다.

상품평의 정보 분류에 기반한 자동 상품평 유용성 평가 (Automatic Product Review Helpfulness Estimation based on Review Information Types)

  • 김문형;신효필
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.983-997
    • /
    • 2016
  • 온라인 상품평 양의 비약적 증가로 인해 소비자들이 유용한 상품평 만을 찾는 것이 거의 불가능에 가까워졌다. 이 연구는 온라인 상품평의 유용성을 자동적으로 평가할 수 있는 토대를 마련하는데 그 목적이 있다. 이를 위해 상품평을 이루는 문장에 담긴 정보를 설명하는 그 대상에 따라 종류를 나눌 수 있도록 상품평 정보 분류를(Review Information Types) 제안하고, 각 정보 분류 내에서 문장의 주제 벡터 변환 방법과 군집화를 이용하여 더 세부적으로 각 문장이 어떤 정보를 제공하는지를 추출함으로써 각 상품평이 제공하는 정보에 따라 그 유용성을 평가하는 방법을 제안한다. 이러한 시도는 잠재적 소비자들이 상품평에서 상품 자체의 특성이나 상품평 제공자의 경험과 같은 정보를 배송과 같은 정보보다 중요하게 생각할 것이라는 가정에서 시작했다. 자동 상품평 유용성 평가 실험을 통해 본 연구에서 제시하는 방법이 기존의 비교 가능한 연구들에 비해 더 효과적인 것을 밝혀냈다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.