• 제목/요약/키워드: 한글문서

검색결과 625건 처리시간 0.032초

전자기록 에뮬레이션 서비스 개발 사례 연구 (A Case Study for the Emulation Service of Electronic Records)

  • 임진희;최주호;이재영
    • 한국기록관리학회지
    • /
    • 제14권3호
    • /
    • pp.55-82
    • /
    • 2014
  • 우리나라 공공기록의 디지털 컴포넌트를 장기보존하면서 다양한 기능성을 충분히 재현해내기 위해서는 에뮬레이션 전략이 필요하다. 이를 위해 이 연구에서는 먼저 대표적인 해외의 에뮬레이션 프로젝트인 CAMiLEON, KB, Planets, KEEP 등에 대한 사례를 통해 디바이스 에뮬레이션, 운영체제 에뮬레이션, 애플리케이션 에뮬레이션 등의 전형적인 에뮬레이션 방안을 비교분석하였다. 다음으로 우리나라 공공기관의 디지털 컴포넌트 포맷 현황을 살펴본 결과 아래아한글문서와 엑셀문서가 전체 디지털 컴포넌트의 90프로에 가까운 비율을 보인다는 점과 파일의 확장자와 실제 내부 포맷이 상이하게 관리되고 있기도 하다는 점을 발견하였다. 아래아한글문서와 엑셀문서 등 주요 포맷들이 문서보존포맷으로 변환되어 보존될 경우 상실하게 되는 기능성과 렌더링 특성을 조사하였으며, 운영체제 에뮬레이터와 애플리케이션 에뮬레이터 프로토타입을 개발하여 이들 문서의 기능성을 손실없이 재현해 보여줄 수 있음을 확인하여 에뮬레이션 전략의 가능성을 보여주고 있다.

한국어 SNS 문서에 적합한 문장 경계 인식 (Robust Sentence Boundary Detection for Korean SNS Documents)

  • 염하람;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-535
    • /
    • 2021
  • 다양한 SNS 플랫폼이 등장하고, 이용자 수가 급증함에 따라 온라인에서 얻을 수 있는 정보의 활용 가치가 높아지고 있다. 문장은 자연어 처리 시스템의 기본적인 단위이므로 주어진 문서로부터 문장의 경계를 인식하는 작업이 필수적이다. 공개된 문장 경계 인식기는 SNS 문서에서 좋은 성능을 보이지 않는다. 본 논문에서는 문어체로 구성된 일반 문서뿐 아니라 SNS 문서에서 사용할 수 있는 문장 경계 인식기를 제안한다. 본 논문에서는 SNS 문서에 적용하기 위해 다음과 같은 두 가지를 개선한다. 1) 학습 말뭉치를 일반문서와 SNS 문서 두 영역으로 확장하고, 2) 이모티콘을 사용하는 SNS 문서의 특징을 반영하는 어절의 유형을 자질로 추가하여 성능을 개선한다. 실험을 통해서 추가된 자질의 기여도를 분석하고, 또한 기존의 한국어 문장 경계 인식기와 제안한 모델의 성능을 비교·분석하였다. 개선된 모델은 일반 문서에서 99.1%의 재현율을 보이며, SNS 문서에서 88.4%의 재현율을 보였다. 두 영역 모두에서 문장 경계 인식이 잘 이루어지는 것을 확인할 수 있었다.

  • PDF

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘 (Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences)

  • 강승식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.441-447
    • /
    • 2000
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

한글 문서에서 형태적 중의 오류의 교정 (A method for morphological correction of ambiguous error)

  • 김민주;정준호;이현주;최재혁;김항준;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-48
    • /
    • 1998
  • 교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

  • PDF

국내 독서장애인을 위한 Math Expression Reader의 구현 및 사용성 평가 (Implementation & Usability Evaluation of Math Expression Reader for Domestic Reading Disables)

  • 이재화;이종우;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제15권7호
    • /
    • pp.951-961
    • /
    • 2012
  • 국내에서 제작되는 전자도서들은 현재 문서 내에 작성된 수식 및 수학 기호들을 음성으로 변환하지 못하여 독서 장애인들에게 제약적인 음성서비스를 제공하고 있다. 본 논문에서는 국내 독서 장애인들을 위해 일반문서에 삽입되어 있는 수식표현을 한글로 읽어줄 수 있는 'Math Expression Reader'를 구현하였다. 그리고 'Math Expression Reader'를 통해 생성된 한글 수식 독음을 일반인그룹과 시각장애인들에게 각각 들려줌으로 생성된 한글수식독음을 얼마나 정확히 이해하고 알아들을 수 있는지 평가하고 그 결과를 비교 분석하였다.

한글 로마자 자동 표기 시스템 설계 및 구현 ( 전사법(轉寫法) 기계적 변환에 관한 연구 ) (The design and implementation of automatic translation system for hangul's romanization ( A study on mechanic conversion using transcription ))

  • 김홍섭;박종섭;이현걸
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.437-447
    • /
    • 1993
  • 국제 협약에 따라 한글에 관한 정보는 로마자로 표기해야 한다. 우리나라는 1959년 2월 로마자 표기법'을 제정, 수차례 개정을 통해 1983년 6월 문교부(Ministry Of Education)안을 발표했으나, 표지판, 역명, 교과서, 공공문서들에서 활용되었지만, 영자신문, 외국 학술지등은 M-R( Mccune-Reishauer ) 표기법을, 인명, 신문 및 방송매체 등은 혼합표기방식을 사용함으로써 인(人). 지명(地名), ID, 대표어등 정보 검색시 혼란을 야기시켰고, 개정안에 따를 표기 정정으로 수백억원에 가까운 예산을 낭비하였으며, 최근 ISO(International Standard Organization)에서는 남북한 단일화 및 기계적 변환을 요구하고 있으나, 반달표 표기곤란, 편리성 결여, 북한의 주장등의 사유로 제정등을 거론하고 있는 실정에 있다. 잘 쓰지 않는 ASCII 코드 중에서 반달점 폰트를 제작하고 단어, 문장, 문서를 STRING으로 받아 알고리즘화된 음운법칙을 적용하여 소리글자로 변환하고 MOE테이블에서 대응글자를 참조하여 기계적 변환이 가능하도록 하였으며, 세련된 디자인, 풀다운 팝업방식을 채택, 2HD 1장으로 국내최초로 개발하였다.

  • PDF

임계 획 밀도를 이용한 한글, 한자, 영문구분 (A Distinction of the Korean Character, Chinese Character and English Character using the Threshold Stroke Density)

  • 원남식
    • 한국산업정보학회논문지
    • /
    • 제5권4호
    • /
    • pp.32-38
    • /
    • 2000
  • 다중 문자 환경의 문서인식 시스템에서 문자를 인식하기 전에 문자의 종류를 먼저 구분하는 것은 인식률의 향상에 중요한 요인이 된다. 각 나라의 문자는 그 문자마다 고유의 구성상의 다양한 특징을 가진다. 본 연구에서는, 문자를 구분하기 위한 방법으로 획 밀도 값을 이용하였고, 대상 문자는 한글, 영문과 한자로 하였다. 다양한 형태의 활자가 사용되는 문서에 적용하기 위해 입력 데이터는 정규화 과정을 거친 후 처리되었다. 제안된 방법은 80% 이상의 높은 확률로 구분이 가능함을 실험 결과로써 입증하였다.

  • PDF

Topic signatur e와 n-gram을 이용한 댓글 분류 시스템 (Comments Classification System using Topic Signature and n-gram)

  • 배민영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)와 n-gram을 이용한 댓글 분류 시스템을 개발한다. 토픽 시그너처는 문서요약이나 문서분류에서 자질 선택을 위한 방법으로 많이 사용되어지며, n-gram은 모든 언어에 적용 가능한 장점이 있다. 악성댓글은 대체로 문장 길이가 짧고 유행어나 변형어의 출현 빈도가 높으며 비정형화된 특징이 있다. 따라서 우리는 댓글을 n-gram으로 나누어 자질로 선택한다. 분류를 위해 베이지안(Bayesian)모델을 사용하였다. 본 논문에서는 한글과 영어 댓글에 대한 판별 실험을 통하여 구현한 시스템이 복잡한 전처리 과정이 필요한 기존에 제안된 방법들보다 더 나은 성능을 보이며, 언어에 관계없이 적용 가능하다는 것을 실험 결과를 통해 확인할 수 있었다.

  • PDF

인터넷환경하에서 효율적 전송을 위한 문서형식에 관한 연구 (A Study of Document Format for Effective Transmission on the Internet Environments)

  • 조현양;최흥식
    • 한국문헌정보학회지
    • /
    • 제34권1호
    • /
    • pp.229-242
    • /
    • 2000
  • 최근 급속히 발달한 인터넷을 통해 단순한 전자우편 뿐만 아니라 학술 논문 등 실제 물리적인 문서를 표현하는 전자문서의 교환이 빈번하게 이루어지고 있다. 인터넷 환경에서 문서를 원활히 서비스하고 열람할 수 있도록 하기 위해서는 온라인 문서처리에 대한 해결책이 선행되어야 한다. 특히 이공계 연구개발자들이 생산하는 문헌은 복잡한 수식과 그림, 도표 등을 포함하고 있으며, TeX, 한글, MS Word 등 다양한 워드프로세서를 사용하고 있다. 이들이 생산한 전자 문헌들을 인터넷에서 온라인으로 제공하기 위해서는 HTML과 같은 전자문서 형식으로의 변환이 우선되어야 한다. 본 연구에서는 현재 사용되고 있는 전자문서 형식들이 가지고 있는 특성과 장단점을 비교 연구하였다. 우선 문서 교환을 목적으로 하는 전자문서 형식이 가져야 할 특성으로 범용성, 신속성, 장치 독립성, 간결성, 확장성 등을 제시하고 이를 기준으로 현재 사용되거나 제안되고 있는 전자문서 형식들을 평가하였다.

  • PDF

질의응답시스템을 위한 문서의 품질 평가 (Document Quality Evaluation for Question Answering System)

  • 이형규;김민정;신중휘;이정태;윤여찬;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.177-182
    • /
    • 2008
  • 본 논문에서는 질의응답시스템에서 응답 추출 대상 문서로 사용할 적절한 문서를 찾는 방법으로 기계 학습 기반의 문서 품질 평가 기법을 사용한다. 본 논문에서는 기존 연구와 달리 객관적인 정보를 많이 포함하고 있는 문서를 선별하는 목적으로 문서 품질 평가를 위한 유용한 자질들을 제안한다. 본 논문에서 정의한 정보성 자질은 정보의 양을 측정하는 자질과 정보의 객관성을 측정하는 자질로 구성된다. 실험 결과, 기존 문서 품질 평가 연구에서 주로 사용된 자질들만 사용한 경우와 새로운 자질들을 추가한 경우를 비교하였을 때, 1.5배 정도 높은 평균 정확률을 보였다. 제안하는 자질들 중에는 정보성 자질이 매우 유용한 자질이었고, 가독성 자질은 비교적 낮은 성능을 보였다. 문서의 여과 실험 결과, 96.4%의 재현율을 유지하면서 전체 문서 집합 중, 60%에 해당하는 저품질 문서를 여과할 수 있었다.

  • PDF