• 제목/요약/키워드: 띄어쓰기 변이

검색결과 3건 처리시간 0.017초

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여 (Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus)

  • 이재성;김미숙;오영순;이영성
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.155-162
    • /
    • 2006
  • 의학용 시소러스인 MeSH (Medical Subject Heading)는 영어 의학 논문 색인을 위한 통제어 시소러스로서 오랫동안 사용되고 있다. 본 논문에서는 한국어 MeSH를 이용하여 한국어 의학 논문의 요약문에 자동으로 영문 MeSH 색인어를 부여하는 '교차언어 키워드 부여' 방법을 제안하고 색인 전문가 및 저자의 색인 효율과 비교한다. 이 색인어 부여 과정은 우선 한국어 MeSH 용어를 문장에서 인식하여 추출하고, 이 용어를 다시 영어 MeSH 용어로 바꾼 후, 용어의 중요도를 계산하여 상위의 용어를 색인어로 부여한다. 특히, 한국어 MeSH 용어 추출을 위해 효과적으로 띄어쓰기 변이를 처리할 수 있는 방법을 제안한다 실험 결과, 띄어쓰기 변이를 효과적으로 처리하여 한국어 MeSH의 크기를 약 42% 정도 줄였을 뿐만 아니라, 후보 색인어 추출의 효과도 높였다. 또 이 방법을 이용하여 색인어 자동 부여를 한 후, 색인 전문가 및 저자의 색인 결과를 비교한 결과, 이 자동 색인 방법이 전문가의 색인 능력보다는 부족했지만, 저자의 색인 능력과는 별 차이가 없음을 보였다.

쓰기 장애 환자와 정상 초등학교 학생의 쓰기 특성 비교 (COMPARATIVE STUDY UPON THE CHARACTERISTICS OF WRITING BETWEEN THE PATIENTS WITH WRITING DISABILITIES AND NORMAL ELEMENTARY SCHOOL STUDENTS)

  • 조수철;신성웅
    • Journal of the Korean Academy of Child and Adolescent Psychiatry
    • /
    • 제12권1호
    • /
    • pp.51-70
    • /
    • 2001
  • 쓰기 장애를 가진 아동과 정상 초등학교 학생을 대상으로 그들의 글씨에 대해서 조사하였다. 전체적으로는 쓰기 장애 아동의 글씨가 정상 아동보다 크고, 글자 사이의 간격은 넓은 대신 단어 사이의 간격은 좁았다. 글씨의 크기는 남녀 모두 그리고 학년에 관계없이 차이를 보이고 있었고, 나이가 듦에 따라 글씨의 크기는 점점 작아졌으며 특히 여자에 있어서는 쓰기 장애 아동(r=-0.16)보다 정상 아동(r=-0.45)에서 작아지는 속도가 빨랐다. 글자 사이의 간격은 남학생의 경우 초등학교 1, 2학년 때에는 글자 사이의 획의 침범으로 인해 쓰기 장애 아동이 정상 아동보다 간격이 더 좁았는데, 이런 차이는 초등학교 3, 4, 5학년 때에는 거의 없어지고, 초등학교 6학년에 이르면 글자 사이의 간격이 정상 아동보다 더 넓어지는 것이 확인되었다. 여학생의 경우에는 쓰기 장애 아동이 정상 아동보다 글자 사이의 간격이 초등학교 1학년부터 지속적으로 넓었다. 이런 차이는 쓰기 장애의 기전이 남자와 여자가 서로 다르다는 것을 시사해주는 소견이었다. 단어 사이의 간격은 남녀 모두 그리고 모든 학년에서 쓰기 장애 아동이 정상 아동보다 좁았는데, 이는 우리말의 경우 띄어쓰기 문제가 쓰기 장애에서 상당히 중요한 부분임을 짐작하게 하는 단서였다. 글자 사이의 간격이나 단어 사이의 간격은 나이가 들수록 감소하는 경향을 보였지만 여학생의 경우 쓰기 장애와 정상 아동에서 연령과 단어 사이의 간격 사이에 의미 있는 상관관계를 나타내지 않아서 대조를 이루었다. 상관관계 분석에서는 글씨의 크기와 글자 사이의 간격 사이에 약한 상관관계를(r=0.11-0.15)보였으나 글자 사이의 간격과 단어사이의 간격은 서로 밀접한 상관관계를 나타내었다(r=0.99). 음운적 오류는 대개 종성(받침)에서 관찰되었다 특히 겹받침(ㄳ, ㄵ, ㄶ, ㄺ, ㄻ, ㄼ, ㄾ, ㄿ, ㅀ, ㅄ)을 제대로 기억해내지 못하였고, 구개음화나 음운의 동화로 인해 음가(音價)가 변하는 경우에 오류를 보였다. 의미적 오류는 두 군에서 그다지 빈도가 높지 않았다. 띄어쓰기의 오류는 음운적 오류와 상관관계가 높았고, 대체적으로 여자보다 남자에서 많았다. 이상을 종합하여 볼 때, 쓰기 장애 아동과 정상 아동 사이에는 글씨의 크기, 글자 사이의 간격, 단어 사이의 간격, 음운적 오류, 띄어쓰기 오류 등에서 분명한 차이를 보였고, 나이에 따라 변화하는데 정상 아동과 쓰기 장애 아동은 서로 발달 속도에서 질적인 차이를 보였다. 남자와 여자의 글씨는 초등학교 2, 3학년부터 명백한 차이를 보이면서 쓰기 장애의 유형도 둘 사이에 차이가 존재한다는 것을 확인할 수 있었다.

  • PDF