• Title/Summary/Keyword: 문장 오류

Search Result 240, Processing Time 0.022 seconds

Syntax Process in English Sentence Types : Comparison between Korean-English Bilinguals and Korean Non-bilinguals (이중언어자와 한국 대학생의 문장 유형별 영어 통사처리 특성 조사)

  • Park, Jin-Han;Oh, Chang-Young;Yum, Eun-Young;Chung, Chan-Sup
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.123-127
    • /
    • 1996
  • 영어와 한국어의 통사구조의 차이로 인하여, 이중언어자와 비이중언어자인 한국 대학생의 영어 문장 유형에 따른 통사 처리에 있어 차이가 있을 것이다. 네가지 영어 문장 유형, 수동태, 관계사절, 물주구문, 가정법 구문 등으로 문장 완성 과제를 실험하여 이중언어자와 비이중언어자의 문장완성 시간과 오류율을 측정하였다. 실험 결과 비이중언어자인 한국 대학생은 다른 문장 유형에 비하여 물주구문에서의 통사처리 수행에 있어 이중언어자와 유의한 차이를 보였다. 이로부터 이중언어자와 한국 대학생의 영어 문장의 통사 정보처리의 자동화 및 어순효과 정보와 생물 주어(word animacy)구문 단서, 즉 대부분의 주어는 살아있는 사물의 명사로 이루어져 있다는 단서(Gass, l987)의 사용에 대하여 논의하였다.

  • PDF

Classifying Korean Comparative Sentences Using Transformation-based Learning (변환 기반 학습을 이용한 한국어 비교 문장 유형 분류)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.31-34
    • /
    • 2009
  • 본 연구의 목표는 비교 문장들을 일곱 가지 유형으로 자동 분류하는 것으로서, 비교 문장 추출, 비교 문장 유형 분류, 유형별 비교 관계 분석으로 이어지는 비교마이닝 세 단계 중 두 번째 과제이다. 본 연구에서는 변환 기반 학습(Transformation-based Learning) 기법을 이용한다. 자연어 처리 분야 여러 부문에서 사용되고 있는 변환 기반 학습은 오류를 감소시키는 최적의 규칙을 자동으로 생성하여 정답을 찾는 규칙 기반 학습 방법이다. 웹상의 다양한 도메인에서 추출한 비교 문장들을 대상으로 실험한 결과, 일곱 가지 비교 문장 유형을 분류하는데 있어서 정확도 80.01%의 우수한 성능을 산출하였다.

  • PDF

Examining the Feasibility of Utilizing a Large Language Model for Korean Grammatical Error Correction (한국어 맞춤법 교정을 위한 초거대 언어 모델의 잠재적 능력 탐색)

  • Seonmin Koo;Chanjun Park;JeongBae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.61-65
    • /
    • 2023
  • 최근, 대부분의 태스크가 초거대 언어 모델로 통합되고 있을 정도로 많은 관심 및 연구되고 있다. 초거대 언어 모델을 효과적으로 활용하기 위해서는 모델의 능력에 대한 분석이 선행되어야 하나, 한국어에 대한 분석 및 탐색은 상대적으로 부족하다. 본 논문에서는 한국어 맞춤법 교정 태스크를 통해 초거대 언어 모델의 능력을 탐색한다. 맞춤법 교정 태스크는 문장의 구조 및 문법을 이해하는 능력이 필요하며, 사용자의 만족도에 영향을 미칠 수 있는 중요한 태스크이다. 우리는 맞춤법 세부 유형에 따른 ChatGPT의 제로샷 및 퓨샷성능을 평가하여 초거대 언어 모델의 성능 분석을 수행한다. 실험 결과 제로샷의 경우 문장부호 오류의 성능이 가장 우수했으며, 수사 오류의 성능이 가장 낮았다. 또한, 예제를 더 많이 제공할수록 전체적인 모델의 성능이 향상되었으나, 제로샷의 경우보다 오류 유형 간의 성능 차이가 커지는 것을 관찰할 수 있었다.

  • PDF

Improving Word Spacing Correction Methods for Efficient Text Processing (효율적인 문서처리를 위한 띄어쓰기 교정 기법 개선)

  • 강미영;권혁철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.486-488
    • /
    • 2003
  • 한국어 문서에서 가장 많이 나타나는 띄어쓰기 오류는 의미적이고 통사적인 중의성이나 오류를 야기한다. 이 논문은 부산대 인공지능 연구실에서 개발한 부분 문장 분석을 기반으로 하는 한국어 걸자 및 운법 검사기(2.2)에 구현되어 있는 어절 내 한 번 띄어쓰기 오류 교정 기법 및 어절 간 띄어쓰기 오류 교점 기법을 확장하고 개선하며 어절 내 여러 번 띄어쓰기 기법을 개발함을 목표로 한다.

  • PDF

Analysis of Sentential Paraphrase Patterns and Errors through Predicate-Argument Tuple-based Approximate Alignment (술어-논항 튜플 기반 근사 정렬을 이용한 문장 단위 바꿔쓰기표현 유형 및 오류 분석)

  • Choi, Sung-Pil;Song, Sa-Kwang;Myaeng, Sung-Hyon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.2
    • /
    • pp.135-148
    • /
    • 2012
  • This paper proposes a model for recognizing sentential paraphrases through Predicate-Argument Tuple (PAT)-based approximate alignment between two texts. We cast the paraphrase recognition problem as a binary classification by defining and applying various alignment features which could effectively express the semantic relatedness between two sentences. Experiment confirmed the potential of our approach and error analysis revealed various paraphrase patterns not being solved by our system, which can help us devise methods for further performance improvement.

Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora (공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법)

  • Han, Gyeong-Eun;Baek, Seul-Ye;Lim, Jae-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

Open Sourced and Collaborative Method to Fix Errors of Sejong Morphologically Annotated Corpora (공개와 협업을 통한 세종 형태 분석 말뭉치 오류 개선 방법)

  • Han, Gyeong-Eun;Baek, Seul-Ye;Lim, Jae-Soo
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.228-232
    • /
    • 2017
  • 본 논문에서는 21세기 세종계획 "현대문어 형태 분석 말뭉치"에서 나타나는 오류를 개선하는 방법으로 패치 시스템을 제안한다. 이 패치 시스템은 패치 파일과 패치 적용-생성 스크립트로 구성되며, 사용자들은 패치 파일을 사용하여 원래의 말뭉치에서 어떤 파일과 어절을 수정하였는지 확인할 수 있어 개발 목적에 맞는 학습 말뭉치를 생성할 수 있다. 또한 이 시스템을 이용해 서로의 수정 사항을 공유하고, 지속적으로 세종 말뭉치의 오류를 개선할 수 있다. 본 논문에서는 총 1,015만 어절을 대상으로 31만여 개의 오류를 수정하였다. 오류의 유형으로는 문장, 어절 분리 오류, 철자 오류, 불일치 오류, 분석 오류, 형식 오류가 있으며, 오류 수정 사항을 패치 파일에 반영하였다.

  • PDF

운율 분석용 DB 작성을 위한 자동 레이블러(Automatic labeler)의 성능 평가 및 유용성

  • 강상훈;이항섭;김회린
    • Proceedings of the KSPS conference
    • /
    • 1996.10a
    • /
    • pp.468-471
    • /
    • 1996
  • 이 논문에서는 대량의 음성합성용 운율 DB를 용이하게 구축하기 위해 음성번역시스템을 이용한 자동 레이블러의 성능을 다양한 음성데이타를 대상으로 평가하였다. 실험 결과 FM radio news문장, 대화체 문장 및 낭독체 문장 등에는 레이블링 대상 음소의 약 80% 이상이 오류가 30msec 이내인 범위로 레이블링 되며, 고립단어에 대해서는 약 60%의 성능을 보여주고 있다. 현재 당 연구실에서는 자동 레이블러를 이용하여 합성용 운율 DB 및 합성단위를 작성하고 있으며. 자동 레이블러를 이용함으로서 일관성 있는 레이블링 결과를 얻을 수 있을 환 아니라 작성하는데 소요되는 시간도 줄일 수 있었다

  • PDF

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation (XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

Improved Sentence Boundary Detection Method for Web Documents (웹 문서를 위한 개선된 문장경계인식 방법)

  • Lee, Chung-Hee;Jang, Myung-Gil;Seo, Young-Hoon
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.6
    • /
    • pp.455-463
    • /
    • 2010
  • In this paper, we present an approach to sentence boundary detection for web documents that builds on statistical-based methods and uses rule-based correction. The proposed system uses the classification model learned offline using a training set of human-labeled web documents. The web documents have many word-spacing errors and frequently no punctuation mark that indicates the end of sentence boundary. As sentence boundary candidates, the proposed method considers every Ending Eomis as well as punctuation marks. We optimize engine performance by selecting the best feature, the best training data, and the best classification algorithm. For evaluation, we made two test sets; Set1 consisting of articles and blog documents and Set2 of web community documents. We use F-measure to compare results on a large variety of tasks, Detecting only periods as sentence boundary, our basis engine showed 96.5% in Set1 and 56.7% in Set2. We improved our basis engine by adapting features and the boundary search algorithm. For the final evaluation, we compared our adaptation engine with our basis engine in Set2. As a result, the adaptation engine obtained improvements over the basis engine by 39.6%. We proved the effectiveness of the proposed method in sentence boundary detection.