• 제목/요약/키워드: 문장 수준

검색결과 223건 처리시간 0.065초

기계학습기법을 이용한 영어작문 문장 수준평가 시스템 (A English Composition Level Assessment System Using Machine Learning Techniques)

  • 엄진희;곽동민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

2015 개정 초등과학 교과서의 이독성 분석을 통한 어휘 및 문장 수준에 관한 연구 (A Study on Vocabulary and Sentence Level through Readability Analysis of 2015 Revised Elementary Science Textbook)

  • 윤공민;홍영식
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.317-325
    • /
    • 2021
  • 본 연구는 2015 개정 초등과학 교과서의 이독성을 분석하여 어휘 및 문장의 수준을 확인하고, 추후 교과서를 집필하는 과정에서 학년별로 적절한 수준의 이독성을 갖는 어휘와 문장을 사용할 수 있는 계기를 마련하는 데 목적이 있다. 이를 위해 2015 개정 초등과학 교과서의 이독성을 측정하고, 과학 용어를 정의하는 문장 및 이해를 돕는 문장의 이독성을 어휘와 문장 수준에서 분석한 후, 학년별 수준 분석과 함께 이전 교과서의 이독성과 비교하였다. 연구 대상의 선정은 연구자를 포함한 교직 경력 10년 이상의 교사 3인의 협의를 거쳐 실시하였다. 분석 결과는 다음과 같다. 첫째, 어휘의 등급 평균은 1.5~2.1 수준으로 초등학생 수준에 적합한 어휘가 사용되고 있었으나 4학년의 경우 4~5등급 어휘가 비교적 높은 비율로 분포되어 있었다. 2015 개정 과학 교과서 3, 6학년 용어 정의 부분의 이독성은 이전 교육과정 과학 교과서의 어휘 이독성보다 낮았지만, 타 교과와는 비슷하거나 낮은 수준을 유지하고 있었다. 둘째, 3, 5학년의 문장 수준은 4, 6학년과 달리 문장 길이가 비교적 길고 단문의 비율이 낮아 문장 수준 이독성이 낮았다. 특히 2015 개정 교육과정 3학년 교과서의 용어 정의 부분의 평균 어휘 수와 단문 비율은 매우 낮은 문장 수준 이독성을 보이고 있어 개선이 필요하다. 셋째, 타 교육과정 교과서의 이독성과 비교할 때, 어휘 수준의 이독성은 적절하지만 3학년 과학 교과서의 경우 문장 당 어휘 수와 복문의 비율이 높아 이독성이 낮았다. 또한 쉬운 어휘의 사용과 함께 문장의 길이를 짧게 하여 이독성을 높이기 위한 노력은 계속되어야 할 것이다.

채팅 시스템 구현을 위한 3단계 문장 검색 방법 (A three-step sentence searching method for implementing a chatting system)

  • 전원표;송영길;김학수
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제37권2호
    • /
    • pp.205-212
    • /
    • 2013
  • 기존 채팅 시스템은 일반적으로 사용자 입력 문장과 데이터베이스 내 목표 문장들 사이의 어휘 일치도에 기반을 둔 방법을 사용한다. 그러나 이러한 방법은 어휘 불일치 문제를 자주 일으킨다. 이러한 문제를 해결하기 위해 순차적으로 적용되는 3단계 문장 검색 방법을 제안한다. 첫 번째 단계는 어휘 수준에서 사용자 입력 문장과 목표 문장들 사이의 공통 키워드 열을 비교하는 것이다. 두 번째 단계는 의미 수준에서 사용자 입력 문장과 데이터베이스 내 문장들 사이의 문장 유형과 의미 표지를 비교하는 것이다. 마지막 단계는 미리 정의된 어휘-구문 패턴을 사용자 입력 문장과 매칭하는 것이다. 실험에서 제안된 방법은 단순 키워드 매칭 방법 보다 더 나은 응답 정확도와 사용자 만족도를 보였다.

한국어 서술어의 문장만 위치에서의 억양패턴에 대한 자동인식 (Automatic Recognition of Sentence-final Intonatio Patterns for Korean Predicates)

  • 이기영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.131-134
    • /
    • 1995
  • 최근, 문장단위의 음성을 인식할 수 있는 시스템을 개발하는 단계에 접어들면서 자발적인 발성음성의 인식 또는 음성언어 이해의 차원을 위한 시스템의 개발을 위해 운율특징을 이용하는 연구가 요구되고 있으나, 지금까지 개발되어온 음성이식시스템은 주로 독립단어의 인식수준에 머물고있기 때문에 운율을 이용하고자 하는 연구가 상대적으로 미흡한 수준에 있다. 본 연구에서? 나국어의 중의성 문장에서 서술어 부분을 세그멘트하고 이 부분의 억양패턴을 자동인식하여 중의성 문장이 서술형, 의문형, 명령형, 권유형인지를 파악하므로써 인식시스템에서 억양패턴을 이용할 수 있는 가능성을 제시하였으며, 서술형 문장음서으이 서술어 부분의 억양변황에 의해 의문형, 명령형, 권유형 무장으로 변환시키므로써 서술어 부분의 억양패턴에 따라 문장의 형태가 구분될 수 있음을 확인하였다.

  • PDF

의미점화와 추론을 통한 연상 조응사의 처리 (Processing of the Associative Anaphor through Semantic Priming and Inference)

  • 윤홍옥;이성범;조숙환;전영진
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.65-71
    • /
    • 2002
  • 우리의 기억에 표상되어 있는 개념의 본질과 근원 그리고 이들의 관계에 대한 연구는 연상과 기억구조의 관계에 집중되어 왔다 따라서, 어떤 한 개념과 다른 한 개념이 관계되어 있다는 의미적 혹은 연상적 점화의 양상은 의미기억 구조를 적절히 예시할 수 있을 것이다. 본 연구는 어휘수준에서 보여지는 연상의 양상이 문장수준에서도 유사한 예측을 해낼 수 있는지를 살펴보고자 한다. 즉, 어휘수준에서 연상적 관계에 있는 두 개념이 선행사와 연상 조응사라는 문법성을 띠면서 문장에서 예상되는 역할을 수행할 때는, 의미기억의 또 다른 양상을 보여줄 것이라 예측되며, 이것은 문장의 의미·화용적 추론의 기제로 유인되고 있음을 제안하려고 한다. 또한, 의미·연상적 점화와 추론의 기제간의 적절한 상호작용은 문장의 응집성과 처리속도 간에도 유의미한 예측을 할 수 있음을 제안한다.

  • PDF

문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법 (Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction)

  • 박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF

단어 단위 문장 분배기를 사용한 의존 구조 분석기 통합 (Dependency Parser Integration using Word Level Sentence Routing)

  • 이지민;이진식;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-77
    • /
    • 2010
  • 본 논문은 의존 구조 분석기를 통합하기 위해 입력 문장의 단어 특성을 활용하는 단어 단위 분배기를 제안한다. 본 모델은 기존의 문장 수준 분배기와는 달리 입력 문장의 단어 특성에 따라 가장 적절한 의존 구조 분석기를 선택하고, 선택된 의존 구조 분석기의 결과를 최종 결과로 사용한다. 기존의 문장 단위 분배기보다 단어 수준의 풍부한 특질을 활용할 수 있다는 장점과 큰 크기의 코퍼스를 사용할 수 있다는 장점이 있다. 총 6개 언어의 LAS를 측정했는데, MALT 보다는 평균 1.98%, MST 보다는 0.54%의 성능 향상이 있었다.

  • PDF

구간 분할 기반 한국어 구문분석 (A Method of Korean Parsing Based on Sentence Segmentation)

  • 김광백;박의규;나동렬;윤준태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-168
    • /
    • 2002
  • 오늘날 자연어 구문 분석 기술은 만족할 만한 수준에 도달하지 못하고 있고 한국어 구문분석 기술 역시 만족할만한 수준과는 거리가 멀다. 특히 문장의 길이가 긴 문장의 경우 구문분석기가 너무 많은 계산 량으로 인해 제대로 동작하지 못하는 경우가 빈번히 발생하고, 비록 구문구조 결과를 내더라도 정확도가 낮은 경우가 많다. 그 이유는 문장의 길이가 길어질수록 중의성이 매우 증가하여 많은 수의 구문분석 결과가 가능하기 때문이다. 이 중에서 정확한 구문구조를 선택하는 문제는 매우 어려워서 기존의 긴 전체 문장에 대한 구문구조를 한번에 계산하려는 시도는 앞으로도 계속 좋은 결과를 기대하기 어렵다. 따라서 우리는 문장의 길이에 상관없이 항상 안정적으로 결과를 내며, 구문분석에 소요되는 시간이 비교적 짧고, 정확도 역시 높은 구문분석기를 개발하고자 한다. 이를 위하여 전체 문장을 여러 개의 구간으로 분할하여 각 구간을 독립적으로 구문 분석한다. 그 다음 각 구간의 결과를 통합하여 전체 문장에 대한 결과를 생성하는 기법을 택하였다.

  • PDF

문서 내 전역 관계 추출: 생략된 개체의 고려 (Global Relation Extraction for Documents: Regarding Omitted Entities)

  • 김규경;김경민;조재춘;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-49
    • /
    • 2018
  • 최근 존재하는 대부분의 관계 추출 모델은 언급 수준의 관계 추출 모델이다. 이들은 성능은 높지만, 문서에 존재하는 다수의 문장을 처리할 때, 문서 내에 주요 개체 및 여러 문장에 걸쳐서 표현되는 개체간의 관계를 분류하지 못한다. 이는 높은 수준의 관계를 정의하지 못함으로써 올바르게 데이터를 정형화지 못하는 중대한 문제이다. 해당 논문에서는 이러한 문제를 타파하기 위하여 여러 문장에 걸쳐서 개체간의 상호작용 관계도 파악하는 전역 수준의 관계 추출 모델을 제안한다. 제안하는 모델은 전처리 단계에서 문서를 분석하여 사전 지식베이스, 개체 연결 그리고 각 개체의 언급횟수를 파악하고 문서 내의 주요 개체들을 파악한다. 이후 언급 수준의 관계 추출을 통하여 1차적으로 단편적인 관계 추출을 실행하고, 주요개체와 관련된 관계는 외부 메모리에 샘플로 저장한다. 이후 단편적 관계들과 외부메모리를 이용하여 여러 문장에 걸쳐 표현되는 개체 간 관계를 알아낸다. 해당 논문은 이러한 모델의 구조도와 실험방법의 설계에 대하여 설명하였고, 해당 실험의 기대효과 또한 작성하였다.

  • PDF

Sent2Vec 문장 임베딩을 통한 한국어 유사 문장 판별 구현 (Implementation of Korean Sentence Similarity using Sent2Vec Sentence Embedding)

  • 박상길;신명철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.541-545
    • /
    • 2018
  • 본 논문에서는 Sent2Vec을 이용한 문장 임베딩으로 구현한 유사 문장 판별 시스템을 제안한다. 또한 한국어 특성에 맞게 모델을 개선하여 성능을 향상시키는 방법을 소개한다. 고성능 라이브러리 구현과 제품화 가능한 수준의 완성도 높은 구현을 보였으며, 자체 구축한 평가셋으로 한국어 특성을 반영한 모델에 대한 P@1 평가 결과 Word2Vec CBOW에 비해 9.25%, Sent2Vec에 비해 1.93% 더 높은 성능을 보였다.

  • PDF