• 제목/요약/키워드: Readability corpus

검색결과 4건 처리시간 0.015초

MTReadable: Arabic Readability Corpus for Medical Tests Information

  • Alahmdi, Dimah;Alghamdi, Athir Saeed;Almuallim, Neda'a;Alarifi, Suaad
    • International Journal of Computer Science & Network Security
    • /
    • 제21권5호
    • /
    • pp.84-89
    • /
    • 2021
  • Medical tests are very important part of the health monitoring process. It is performed for various reasons like diagnosing diseases, determining medications effectiveness, etc. Due to that, patients should be able to read and understand the available online tests and results in order to take proper decisions regarding their health condition. In fact, people are varying in their educational level and health backgrounds that make providing such information in an easily readable format by the majority of people considered as a challenge in the health domain since ever. This paper describes the MTReadable corpus which constructed for evaluating the readability of online medical tests. It covered 32 basic periodic check-up tests with over 36k words. These tests information are annotated and labelled based on three readability levels which are easy, neutral and difficult by three non-specialists native Arabic speakers. This paper contributes to enriching the Arabic health research community with an investigation of the level of readability of online medical tests and to be a baseline for further complex health online reports and information.

이독성을 통한 초등학교 5, 6학년 영어 교과서 읽기 지문의 연계성 분석 (Analysis of the Continuity of Reading Passages in the 5th and 6th Grade Elementary School English Textbooks Based on Readability)

  • 장한결;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.116-124
    • /
    • 2022
  • 본 연구의 목적은 초등학교 5, 6학년 영어 교과서에 수록된 읽기 지문의 이독성을 분석하여 학년 간 수직적 연계성과 출판사 간 수평적 연계성을 살펴보는 것이다. 이를 위해 10종의 교과서에 수록된 읽기 지문을 코퍼스로 구축한 후, Coh-Metrix를 통해 각 교과서에 수록된 읽기 지문의 이독성을 분석하였다. 또한 일원배치 분산분석을 통해 산출된 이독성에 학년 간, 출판사 간에 통계적으로 유의한 수준의 차이가 있는지 살펴보았다. 이를 통해 얻어진 결과는 다음과 같다. 첫째, 동일 학년 내 읽기 지문의 출판사간 난이도 차이를 분석하여 수평적 연계성을 살펴본 결과 RDL2 지수에서 5학년 교과서간에 유의한 차이가 있었다. 둘째, 출판사 내에서의 학년 간 수직적 연계성을 분석한 결과 FRE와 FKGL 기준으로 교과서 A의 난이도가 5학년에 비해 6학년에서 높았으며, 이는 통계적으로 유의한 수준의 차이였다. 반면 RDL2를 기준으로 했을 경우 교과서 B의 난이도가 5학년에 비해 6학년에서 더 낮아지는 결과를 보았다. 이러한 결과는 FRE와 FKGL은 문장 길이와 단어 길이 중심으로 이독성을 산출하는 반면, RDL2는 내용어 중복, 단어 빈도 수, 문장의 통사적 유사성 등을 기초로 하고 있기 때문으로 보인다.

교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델 (A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus)

  • 이세희;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.427-434
    • /
    • 2009
  • 인터넷 및 모바일 환경의 빠른 발전과 함께 신조어나 줄임말과 같은 철자 오류들을 포함하는 텍스트들이 활발히 통용되고 있다. 이러한 철자 오류들은 텍스트의 가독성을 떨어뜨림으로써 자연어처리 응용들을 개발하는데 걸림돌이 된다. 이러한 문제를 해결하기 위해서 본 논문에서는 철자오류 교정사전과 신문기사 말뭉치를 이용한 철자 오류 교정 모델을 제안한다. 제안 모델은 구하기 쉬운 신문기사 말뭉치를 학습 말뭉치로 사용하기 때문에 데이터 구축비용이 크지 않다는 장점이 있다. 또한 교정사전 기반의 단순 매칭 방법을 사용하기 때문에 띄어쓰기 교정 시스템이나 형태소 분석기와 같은 별도의 외부 모듈이 필요 없다는 장점이 있다. 신문기사 말뭉치와 실제 휴대폰에서 수집한 문자 메시지 말뭉치를 이용한 실험 결과, 제안 모델은 다양한 평가 척도에서 비교적 높은 성능(오교정률 7.3%, F1-척도 97.3%, 위양성율 1.1%)을 보였다.

윤치호 영어 일기와 영어 쓰기 교육 (Yun Chi-ho's English Diary and English Writing Education)

  • 서민원
    • 한국콘텐츠학회논문지
    • /
    • 제14권8호
    • /
    • pp.528-541
    • /
    • 2014
  • 본 연구는 54년간 영어로 일기를 작성한 윤치호의 영어 일기 중 영어 모국어 환경에서 작성한 초기 13개월과 후기 10개월의 일기를 양적, 질적으로 분석하였다. 그가 초기에 영어로 쓴 일기의 특성을 알아보고자 영어 모국어 환경에서 작성한 일기 중 574편을 코퍼스로 구성하여 전산 언어학적 방법으로 분석하였고, 질적 분석을 위해서 57편의 일기를 선정하여 각 일기에서 발췌한 문장의 내용적 특성을 기술하였다. 양적인 분석의 결과 초기의 일기에 비하여 후기의 일기에서 사용된 단어 수와 평균 문장 길이가 증가하였다. 또한 통사적 복잡도와 참조적 응집성이 증가하였다. 일기 내용을 분석한 결과, 후기의 일기에서 언어 형식상의 개선이 드러났으며, 종교(기독교), 일상생활, 학업에 관련된 내용을 주로 작성한 것이 나타났다. 자신의 영어 학습에 대한 반성적 사고의 내용은 초기의 일기에 많이 드러난 것으로 나타났다. 이러한 분석을 통하여 꾸준한 영어 일기와 편지의 작성이 영어 글쓰기 학습에 긍정적 영향을 줄 수 있다는 결론을 도출하였다.