• 제목/요약/키워드: Sentence Complexity

검색결과 33건 처리시간 0.027초

그래프 분할을 이용한 문장 클러스터링 기반 문서요약 (Document Summarization Based on Sentence Clustering Using Graph Division)

  • 이일주;김민구
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.149-154
    • /
    • 2006
  • 문서요약은 여러 개의 하위 주제로 구성되어 있는 문서에 대해 문서의 복잡도를 줄이면서 하위 주제를 모두 포함하는 요약문을 생성하는 것이 목적이다. 본 논문은 그래프 분할을 이용하여 하위 주제별로 중요 문장을 추출하는 요약시스템을 제안한다. 문장별 공기정보에 의한 단어의 연관성 분석을 통해 선정된 대표어를 이용하여 문서를 그래프로 표현한다. 그래프는 연결정보에 의해 하위 주제를 의미하는 부분 그래프로 분할되며 부분 그래프는 긴밀한 관계를 갖는 문장들이 클러스터링된 형태이다. 부분 그래프별로 중요 문장을 추출하면 하위 주제별 핵심 내용들로만 요약문을 구성하게 되어 요약 성능이 향상된다.

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

한국어 분류에 관한 음향음성학적 연구 (An acoustic study of word-timing with references to Korean)

  • 김대원
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.323-327
    • /
    • 1994
  • There have been three contrastive claims over the classification of Korean. To answer the classification question, timing variables which would determine the durations of syllable, word and foot were investigated with various words either in isolation or in sentence contexts using Soundcoup/16 on Macintosh P.C., and a total of 284 utterances, obtained from six Korean speakers, were used. It was found 1) that the durational pattern for words tended to maintain in utterances, regardless of position , subjects and dialects 2) that the syllable duration was determined both by the types of phoneme and by the number of phonemes, the word duration both by the syllable complexity and by the number of syllables, and the foot duration by the word complexity, 3) that there was a constractive relationship between foot length in syllables and foot duration and 4) that the foot duration varied generally with word complexity if the same word did not occur both in the first foot and in the second foot. On the basis of these, it was concluded that Korean is a word timed language where, all else being equal, including tempo, emphasis, etc., the inherent durational pattern for words tends to maintain in utterances. The main difference between stress timing, syllable timing and word timing were also discussed.

  • PDF

구절 변환을 위한 한영 동사 사전 구성 (The Construction of Korean-to-English Verb Dictionary for Phrase-to-Phrase Translations)

  • 옥철영;김영택
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.44-57
    • /
    • 1991
  • 변환방식의 기계번역은 변환사전에서 제공하는 정보의 종류와 그의 정밀성에 따라서 변환과정의 복잡도와 번역의 질이 결정되어 진다. 사람에 의한 번역은 양국어 사전에서 제공하는 구절 중심의 번역정보를 이용함으로써, 그 번역의 결과는 정확하고 자연스럽다. 본 논문에서는 양국어 사전에서 제공하는 구절 중심의 여러가지 번역정보들을, 한영 기계번역시스템이 이용할 수 있는 형태의 동사 변환사전을 제안하였다. 제안된 변환사전에서는 첫째로, 구절 중심의 번역에서 동사의 역어가 선택되어지는 기준을 제공하여, 변환과정에서 추가적인 의미해석없이도 역어를 효과적으로 선택할 수 있도록 하였다. 둘째로 동사의 역어가 취하는 구체적인 구문구조를 제공하여, 여러 단계의 구조변환의 복잡도를 줄이면서도 두 언어간의 표현방식의 차이점을 해결할 수 있게 하였다.

  • PDF

정렬기법을 활용한 와/과 병렬명사구 범위 결정 (Range Detection of Wa/Kwa Parallel Noun Phrase by Alignment method)

  • 최용석;신지애;최기선;김기태;이상태
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2008년도 추계학술대회
    • /
    • pp.90-93
    • /
    • 2008
  • In natural language, it is common that repetitive constituents in an expression are to be left out and it is necessary to figure out the constituents omitted at analyzing the meaning of the sentence. This paper is on recognition of boundaries of parallel noun phrases by figuring out constituents omitted. Recognition of parallel noun phrases can greatly reduce complexity at the phase of sentence parsing. Moreover, in natural language information retrieval, recognition of noun with modifiers can play an important role in making indexes. We propose an unsupervised probabilistic model that identifies parallel cores as well as boundaries of parallel noun phrases conjoined by a conjunctive particle. It is based on the idea of swapping constituents, utilizing symmetry (two or more identical constituents are repeated) and reversibility (the order of constituents is changeable) in parallel structure. Semantic features of the modifiers around parallel noun phrase, are also used the probabilistic swapping model. The model is language-independent and in this paper presented on parallel noun phrases in Korean language. Experiment shows that our probabilistic model outperforms symmetry-based model and supervised machine learning based approaches.

  • PDF

SentenceBERT 모델을 활용한 해양안전심판 재결서 분석 방법에 대한 연구 (Maritime Safety Tribunal Ruling Analysis using SentenceBERT)

  • 윤보리;박세길;배혜림;심성현
    • 해양환경안전학회지
    • /
    • 제29권7호
    • /
    • pp.843-856
    • /
    • 2023
  • 전 세계 선박 통행량의 증가에 따른 선박 충돌 사고의 증가는 큰 경제적, 환경적, 물리적 및 인간적 손해를 가져왔다. 선박 사고의 원인은 선원의 판단 오류나 부주의, 항로의 복잡성, 기상 조건, 선박의 기술적 결함 등 다양한 요인이 겹쳐 작용하여 사고를 유발하기 때문에 문장의 깊은 의미와 문맥 정보를 고려할 수 있는 방법론이 필요하다. 따라서, 본 연구는 부산해심 지역에서의 최근 20년 동안의 선박 충돌사고 데이터를 포함하고 있는 해양안전심판 재결서를 SentenceBERT 모델을 활용해 분석하였다. 분석 결과 사고의 주요 원인이 될 수 있는 키워드가 도출되었으며, 특정 키워드 출현 빈도를 바탕으로 군집 분석을 시행하고 시각화하였다. 추후 사고의 원인을 미리 파악함으로써, 이를 통해 선박 충돌 사고의 예방 및 사고 대응 전략 개발의 기초 자료로써 활용하고자 한다.

다양한 퍼지 환경을 갖는 지능형 교수 시스템의 학습 성취도 평가 모듈 설계 (Design of Learning Achievement Evaluation Module of Intelligent Computer Assisted Instruction with Various Fuzzy Environment)

  • 원성현
    • 경영과정보연구
    • /
    • 제2권
    • /
    • pp.311-334
    • /
    • 1998
  • By decreasing in CPU price and development of computer assembling technology, personal computer fake a good chance to accelerate its supply. Recently, as being introduced new computing technology so called multi media, teaming assist system which is based on single media such as studying book, cassette tape, video tape, or something else is rapidly being replaced by new assist education system based on multi media in which it is operated by the personal computer. In the computer assist education system, there is an evaluation module which appraise learner's study level into the next study strategy. At the view of this point, this part is very important. In this part, there are some factors like Importance, complexity, or difficulty which commonly include fuzzy factors in our surrounding. But until now, we are still out of the level to handle the evaluation module adequately among the some studies. In this study, we would like to suggest a new module that evaluate learning achievement of ICAI which have a variety of fuzzy environment. We combine Independent fuzzy environment like importance, complexity, difficulty into making total evaluation of learner's achievement. By the result, with expressing by linguistic form, this study can provide the theoretical basis in which we will be able to carry out sentence toward evaluation among elementary school.

  • PDF

『노걸대』 분석을 통해서 바라본 우리 반도의 외국어 교육 (Foreign Language Education of Korean Peninsula: Insights from Nogeldae)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권6호
    • /
    • pp.408-414
    • /
    • 2017
  • 본 연구는 고려말에 저자미상의 실용적인 목적으로 만들어진 외국어 교재 "노걸대"에 대하여 어떻게 고려말부터 조선 500년 동안 지속적으로 외국어 교재로 사용될 수 있었는지 외국어 교재로서 그 지속성의 가치는 어디에 있는지를 알아보고자 하는데 있다. 이를 위해서 "노걸대"에 있는 대화문 구성된 의사소통 상황별로 정광의 "노걸대" 역주본에 나와 있는 106편의 대화를 만남(12편), 숙박(17편), 대도행(21편), 대도 생활(34편), 귀국(11편)으로 구분하여 평균문장길이, 어휘길이, 타입-토큰 비율, 본동사 앞 단어 수, 명사구 평균 수식어수 항목 측정치를 활용하여 외국어 교재로서의 계열성을 파악하고자 한다. "노걸대"는 제시된각 의사소통기능에서 일부 명사구 내의 계열성이 무시된 경우를 제외하면 전체적으로 복잡도의 계열성을 확인할 수 있었다. 문장 길이, 문장의 복잡도 계열성은 전체적으로 확인되었다. 어휘의 다양성은 계열성이 제대로 구성되었다고 볼 수는 없으나 어휘의 반복율이 높은 것은 기본적인 어휘의 사용이 많이 이루어졌다는 것을 의미한다.

Using Brackets to Improve Search for Statistical Machine Translation

  • Dekai, W.U.;Cindy, N.G.
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 1995년도 Language, Information and Computation = Proceedings of the 10th Pacific Asia Conference, Hong Kong
    • /
    • pp.195-204
    • /
    • 1995
  • We propose a method to improve search time and space complexity in statistical machine translation architectures, by employing linguistic bracketing information on the source language sentence. It is one of the advantages of the probabilistic formulation that competing translations may be compared and ranked by a. principled measure, but at the same time, optimizing likelihoods over the translation spa.ce dictates heavy search costs. To make statistical architectures practical, heuristics to reduce search computation must be incorporated. An experiment applying our method to a prototype Chinese-English translation system demonstrates substantial improvement.

  • PDF

단어 간 관계 패턴 학습을 통한 하이퍼네트워크 기반 자연 언어 문장 생성 (Hypernetwork-based Natural Language Sentence Generation by Word Relation Pattern Learning)

  • 석호식;작가멧;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.205-213
    • /
    • 2010
  • 본 논문에서는 단어간 관계 패턴을 학습한 후 이에 기반하여 자연 언어 문장을 생성하는 방법을 소개한다. 기존의 문장 생성 방법론에서는 내재된 문법 규칙의 존재를 가정하거나 템플릿을 사용하고 있으나, 본 논문에서 소개하는 방법론에서는 태깅 등의 부가 정보 없이 단어의 동시 등장 빈도만을 활용하여 단어간 관계 패턴을 학습한다. 단어간 관계 패턴은 하이퍼네트워크 방법론에 기반하여 학습되었다. 학습이 진행됨에 따라 하이퍼네트워크의 복잡도가 높아지며, 학습 모델에 축적되는 언어 관계 패턴의 수가 증가한다. 학습된 모텔의 유효성은 학습 패턴에 기반한 자연 언어 문장 생성을 통해 확인하였다. 실험 결과 학습이 진행됨에 따라 문법적으로 성립하는 문장의 비율이 향상하였다. 파서를 이용하여 생성된 문장을 구성하는 문법 규칙을 분석한 후 문법 규칙의 분포를 학습에 사용한 코퍼스의 문법 규칙 분포와 비교한 결과 학습에 사용된 코퍼스의 문법적 특성을 학습할 수 있는 잠재력을 갖고 있음을 확인하였다.