• 제목/요약/키워드: Hangul text

검색결과 96건 처리시간 0.023초

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

한글-어울림-멋짓 (Hangul-Oullim-Meotjit)

  • 안상수
    • 디자인학연구
    • /
    • 제20권3호
    • /
    • pp.335-344
    • /
    • 2007
  • <훈민정음>이야말로.세계적인.멋지음(디자인)이다.. 한글은.큰.멋짓이다.. 한글.디자인의.의도,.철학적.배경,.운용.원리.및. 사용.방법을.간명하게.적어놓은. <훈민정음>.역시.세계적인.디자인.이론서이다.. 디자인의.우리말은.'멋지음',.'멋짓'이다.. 디자인은.그.무엇의.멋지음이다.. 멋지음은.때로.꼴을.가지지.않은.것,. 얼을.짓는.것(디자인하기)이며,. 생각을.어떤.꼴로.만들어내는.'지음'이기도.하다.. 멋짓은.디자이닝의.행위를.포괄한다.. 그.중.시각디자인은.'봄멋짓',. 패션디자인.은.'옷멋짓'.등이라.할.수.있다.. 글꼴멋짓(타이포그라피)은.봄멋짓의.등뼈.. 한글.멋짓은.우리.멋짓의.기둥. 멋의.바탕은.어울림이다.. 다름이.살아있는.멋.. 그것은.우리.디자인의.제다움(정체성)과도. 통하는.것이다.. 이렇듯.'멋지음,.멋짓'이라는.우리말로.보면. 다른.나라.말에서.오는.'디자인'이라는.말에서.느끼던.것과.다르게.새로운.면이.느끼게.되며.보이게.된다..

  • PDF

한글 워드임베딩과 아프리오리를 이용한 검색 시스템의 질의어 확장 (Query Extension of Retrieve System Using Hangul Word Embedding and Apriori)

  • 신동하;김창복
    • 한국항행학회논문지
    • /
    • 제20권6호
    • /
    • pp.617-624
    • /
    • 2016
  • 한글 워드임베딩은 명사 추출과정을 거치지 않으면, 학습에 필요하지 않은 단어까지 학습하게 되어 효율적인 임베딩 결과를 도출할 수 없다. 본 연구는 한글 워드임베딩, 아프리오리, 텍스트 마이닝을 이용하여, 특정 도메인에서 질의어 확장에 의해 보다 효율적으로 답변을 검색할 수 있는 모델을 제안하였다. 워드임베딩과 아프리오리는 질의어에 대해서 의미와 맥락에 따라 연관 단어를 추출하여, 질의어를 확장하는 단계이다. 한글 텍스트 마이닝은 명사 추출, TF-IDF, 코사인 유사도를 이용하여, 유사답변 추출과 사용자에게 답변하는 단계이다. 제안모델은 특정 도메인의 답변을 학습하고, 연관성 높은 질의어를 확장함으로서 답변의 정확성을 높일 수 있다. 향후 연구과제로서, 데이터베이스에 저장된 사용자 질의를 분석하고, 보다 연관성 높은 질의어를 추출하는 연구가 필요하다.

한글 문자 인식에서의 오인식 문자 교정을 위한 단어 학습과 오류 형태에 관한 연구 (A Study on Word Learning and Error Type for Character Correction in Hangul Character Recognition)

  • 이병희;김태균
    • 한국정보처리학회논문지
    • /
    • 제3권5호
    • /
    • pp.1273-1280
    • /
    • 1996
  • 본 논문에서는 문자 인식 과정을 거치고 난 후에 발생하게 되는 오인식된 문자들 을 언어적 지식을 이용하여 교정하는 문자 인식 후처리에 관하여 논한다. 문자 인식의 오인식 교정시스템의 경우 후보 단어가 많을 때 많은 후보 단어중에서 가장 적당한 단어를 후보 단어로 올려주기 위해서는 여러 가지 정보가 필요하다. 본 논문에서는 이러한 정보로 이용할 수 있는 것으로 단어들의 특성과, 문자 인식에 발생하는 오인식 형태, 단어 학습에 관하여 논한다. 이를 위한 실험으로 15 만여의 단어가 수록된 국어 사전을 이비력하고 초중고 국어교과서에 나타난 단어 들의 사용빈도를 조사하여 국어 사전에 등록된 단어 중에서 10.7%정도가 실제 초중고 국어교과서에 사용되고 있다는 것을 알 수 있었다. 또한 실제 문자 인식 시스템들을 가지고 여러 문서를 입력하고 인식하여 오인식이 자주 일어나는 글자들 의 형태를 분류하여 보았다. 그리고 한국어 처리 관련 서적이나 논문을 처리하고자 한국어에 관련된 책의 찾아보기에 나타난 단어 를 학습시켜 후보 단어들의 다른 인하여 정확한 단어를 예측하기 힘들던 문제를 해결 하고자 하였다.

  • PDF

아래아 한글 파일의 텍 파일로의 변환 소프트웨어 구현 (Implementation of Hangul to $T_EX$ conversion software)

  • 김성원;이한나;박상훈;오창혁
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.99-107
    • /
    • 2010
  • 본 연구에서는 아래아 한글 형식으로 작성된 논문 파일을 $T_EX$ 형식의 파일로 변환하는 소프트웨어를 구현하였다. 아래아 한글은 문서작성 또는 출판의 도구로써 사용되는 국내에서 많은 사용자를 가진 워드프로세서이며, 이를 이용한 수식이 포함된 논문 원고의 편집은 상대적으로 수월한 것으로 알려져 있다. $T_EX$은 일반 텍스트 편집기로 작성된 문서를 컴파일하여 고품질의 문서를 얻는 수식 전문조판 프로그래밍 언어이다. 구현된 소프트웨어는 정해진 작성 형식에 따라 아래아 한글로 작성된 논문 원고의 본문, 표, 문단 형식, 수식, 특수문자 등을 지정된 스타일 파일에 맞춘 $T_EX$ 형식으로 변환 한다. 구현의 예제로써 한국데이터정보과학회지 (JKDISS)의 아래아 한글 논문 형식과 $T_EX$ 스타일 파일을 사용하였다.

한글 텍스트 메시징을 위한 AIS 지역 기반 메시지 설계 (Design of Regional Function Message of AIS for Hangul Text messaging)

  • 유동희
    • 융합신호처리학회논문지
    • /
    • 제14권2호
    • /
    • pp.77-81
    • /
    • 2013
  • 안전한 선박의 항행 및 관제를 위해 사용되고 있는 국제 표준 AIS(Automatic Identification System)는 27개의 메시지를 정의하여 선박의 항행 정보 및 다양한 정보들을 교환하게 한다. 27개의 메시지 중 6번과 8번 메시지는 특정 응용에 필요한 정보들을 교환할 수 있도록 이진 바이너리 데이터 형태로 정의되어 있는데, 국제적으로 정의한 IFM(International Function Message)과 나라별 또는 지역별 RFM(Regional Function Message)으로 현재 사용되고 있다. 국제 표준은 영어로 표준화가 되어 있어, 국내 항만에서 관제를 할 때 한글 텍스트 교환에 대한 필요성이 선박의 정적 동적 정보 정정 분야에서 제기되면서 이를 RFM으로 정의하기 위한 연구로 본 논문의 연구가 시작되었다. 본 논문에서는 국내 RFM으로 한글 기반 텍스트 메시징 서비스를 제공하기 위해 국제표준을 분석하고 한글 텍스트를 교환하기 위해 수정되어야 하는 표준 부분과 처리 절차 등을 고려하여 RFM 메시지를 제안하였다. 그리고 RFM 메시지를 통해 선박 정보를 정정하는 프로토콜을 제안하였다.

PHDCM : 병렬 컴퓨터에서 한글 텍스트의 효율적인 축약 (PHDCM : Efficient Compression of Hangul Text in Parallel)

  • 민용식
    • The Journal of the Acoustical Society of Korea
    • /
    • 제14권2E호
    • /
    • pp.50-56
    • /
    • 1995
  • 본 논문은 3가지 상태의 전이 그래프를 이용해서, 병렬 컴퓨터인 MasPar에 적합한 한글에 대한 효율적인 부호화를 제시하고자 한다. 본 논문에서 제시한 PHDCM(Parallel Hangul Dynamic Coding Method)의 방법을 이용한 경우에 한글 한음절당 약 3.5비트이상의 축약이 가능함을 보였다. 그리고 기존의 방법과 비교해 볼때 1비트이상의 축약이 가능함도 보였다. 또한 약 천만자의 한글을 이용해서, 병렬 컴퓨터인 MasPar에 프로세서 64개를 이용하여 실제 실행을시켰을때의 가속도 (Speedup)은 49.314임을 보였다.

  • PDF

JBIG2 부호화에서의 한글의 효율적 처리에 관한 연구 (A Study on Effective Processing of Hangul for JBIG2 Coding)

  • 강병택;김현민;고형화
    • 한국통신학회논문지
    • /
    • 제25권6B호
    • /
    • pp.1050-1059
    • /
    • 2000
  • In this paper, we propose a method to improve JBIG2 compression ratio which can be applied to Hangul text. Hangul character is composed of a few symbols which is called JASO, which needs inevitable increase of position information to be transmitted. To reduce this disadvantage, we have proposed an algorithm that generate aggregated symbol in combination of JASO symbols. Proposed algorithm shows better performance in Huffman coding than in arithmetic coding. In lossless coding, proposed algorithm showed 4.5∼16.7(%) improvement for Huffman coding and 2.9∼10.4(%) improvement for arithmetic coding. In lossy coding, proposed algorithm showed 3.7∼17.0(%) improvement for Huffman coding and 2.1∼10.5(%) improvement for arithmetic coding.

  • PDF

PDF를 활용한 고문헌의 원문디지털화 방안에 대한 고찰 (Study on Methods of Digitalization of Older Books Using PDF)

  • 리상용
    • 한국문헌정보학회지
    • /
    • 제34권1호
    • /
    • pp.133-153
    • /
    • 2000
  • 본 논문은 1999년 4월에 출시된 Acrobat 4.0에서 지원하는 PDF(Portable Document Format)를 이용해서 고문헌의 원문을 디지털화하여, 웹상에서 이용자가 고문헌의 원문을 손쉽게 검색할 수 있도록 하기 위한 방안에 대해 연구한 것이다. 이전의 Acrobat 3.0판은 한글 지원에 문제가 많았으나, 이번에 개정된 4.0판에서는 다국어폰트의 지원으로 한글, 중국어, 일본어 등의 PDF변환이 가능해졌다. 따라서 <한글97>(속칭<아래아 한글>)로 구축된 고문헌의 원문파일을 PDF로 변환은 물론 편집도 가능하게 되었다. PDF파일의 뷰어인 Acrobat Reader는 웹상에서 무상으로 다운로드 받을 수 있으므로, 이 PDF를 이용하여 고문헌의 원문을 디지털화 한다면, 향후 개선되어야 할 문제가 있긴 하지만, 이용자가 인터넷상에서 손쉽게 고문헌의 원문을 검색할 수 있게 될 것이다.

  • PDF