• 제목/요약/키워드: 한자처리

검색결과 67건 처리시간 0.025초

한자음으로 일본어 사전을 검색하는 방법(독음입력법) (Japanese Dictionary Input System in Korean Traditional Reading Rule of Chinese Character)

  • 정철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-144
    • /
    • 2005
  • When a Japanese learner in Korea tries to find Japanese dictionary, he must know the pronunciation of the target word. But it's not easy to know the pronunciation of target word from Japanese sentence. Because most of general Japanese sentence shows only HanJa(Chinese character) instead of Kana(Japanese alphabet). If the Japanese learner knows the Korean traditional pronunciation of the target word, he can input the word to electronic Japanese dictionary with the Korean pronunciation. For this solution, the dictionary service provider must convert the Japanese word to Korean pronunciation, in advance. After setting of the conversions as a additional searching process, we can find the target word through Korean pronunciation of the Japanese HanJa, This process is possible for the three reasons below, 1. Korean, Japanese and Chinese are using the nearly same HanJa. The difference is small. 2. Most Japanese learner in Korea, knows the Korean pronunciation of the HanJa. 3. The Korean pronunciation of the HanJa is nearly unique, a HanJa has a Korean pronunciation, generally.

  • PDF

DaHae: 일한 기계번역을 위한 일본어 형태소 분석기 (DaHae: Japanese Morphological Analyzer for Japanese to Korean Machine Translation)

  • 여상화;정한민;장원;김태완;황도삼;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.195-207
    • /
    • 1995
  • 일본어는 한자, 히라가나, 가다가나 등 다양한 종류의 문자를 사용하며 이들의 혼용 비율이 매우 높아 띄어쓰기를 하지 않아도 문서의 가독성을 유지한다. ICOT 사전, EDR 사전, ATLAS I/JK사전 등 기존의 전자 사전에서 복합 자종의 표제어가 차지하는 비율(한자+히라가나의 표제어 제외)은 평균 8.8%로 그 수가 매우 작다. 따라서, 문장 내에서 자종의 변화는 단어를 구분하는 하나의 delimiter로 이용될 수 있다. 본 시스템에서는 형태소 분석의 전단계로 전처리기를 두어 자종정보(character type information)에 의한 fragment 분리 및 예외 단어, 정형표현 처리를 수행하며 각 fragment 의 형태소 분석 방법을 제시한다. 형태소 분석기는 전처리기의 처리 결과를 입력받아 각각의 fragment를 전처리기가 제시한 분석 방법에 따라 분석하여 입력 문장의 가능한 모든 분석을 추출한다. 이 방법은 불필요한 사전 탐색과 접속 체크 회수를 줄여 분석 성능을 향상시킨다.

  • PDF

성부 중심 한자강의가 정량화 뇌파에 미치는 영향에 관한 연구 (A Study on The Effects of The phonetics-Centered Chinese character Lecture on Quantitative EEG)

  • 이병찬;원희욱
    • 한국산학기술학회논문지
    • /
    • 제20권12호
    • /
    • pp.482-492
    • /
    • 2019
  • 이 연구의 목적은 성부 중심 한자 교육 방법을 적용한 강의가 정량 뇌파에 미치는 효과를 검증하는 데 있다. 마음과 관련된 한자 100자를 성부 중심으로 공부하여 마음에 대한 어원을 깨우치는 과정에서 사고능력이 증진되고 이해력이 높아지는 효과가 있을 것이라는 가정 아래 정량 뇌파 분석을 통해 효과를 분석하고 확인하는 방식을 사용했다. 이를 위해 S대학교 평생교육원 재학생, 수료생을 대상으로 실험집단과 비교집단을 각각 9명씩 모집하여 2017년 6월3일부터 2018년 2월22일까지 연구를 진행했다. 실험집단은 1회 4시간, 6주간 총 6회로 총 24시간에 걸쳐 성부 중심 한자 강의에 참여하였고, 통제집단은 일상 활동을 유지했으며, 한자 강의 전과 후에 정량 뇌파를 측정하였다. 뇌파측정은 서울불교대학원 부설 뇌과학 연구소에서 시행하였으며, 뇌파측정 데이터 수집은 19채널 뇌파측정도구인 브레인 마스터, 데이터 처리는 뉴로 가이드를 각각 사용하였다. 연구 결과는 크게 두 가지로 요약할 수 있다. 첫째, 성부 중심 한자 교육 방법을 적용한 강의을 받은 실험 군의 Delta파의 절대 세기와 변화량이 교육을 받은 후에 비교군에 비해 유의하게 감소하였다. 둘째, 실험군을 대상으로 강의 전과 후의 LORETA 분석 결과 언어의 의미, 음운론과 관련이 있는 뇌 부위(Broadmann 40)에서 델타파가 유의하게 감소했다.

최대 블록화 방법을 이용한 묵자획 특징 추출에 관한 연구 (A Study on the Feature Extraction of Strokes using the Maximum Block Methode)

  • 김의정;김태균
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.1141-1151
    • /
    • 1997
  • 본 논문에서는 오프라인 한자의 특징 추출을 위한 최대 블록화 방법(Maximum Block Method:MBM)을 제안한다. 최대 블록화란 처며 찾아진 화소로부터 블록을 점차 키워 나 아가감 으로서 입력문자의 골격선과 특징점을 추출하는 방법이다.기존의 세선화 방법 에서는 국소적인 잡음의 영향과 굴곡점, 누락점 등에서 발생되는 왜곡 현상이 특징 추출 을 어렵게 하는 단점이 있었다. 본 논문에서는 최대 블록 생성으로 인하여 잡음블록의 제거와 합성으로 직선과 사선획을 찾으므로서, 정확한 특징점 추출하는 앙법임을 입증 하였다. 실험 데이타로는 프린터 결과물, 중고등학교 한자 교과서와 기타 문서 등을 사용하였다. 한자 이외에도 한글 및 영, 숫자를 입력하여 실험한 결과, 인식의 전처리 과정인 골격선 추출과 획의 특징 추출에서 매우 효과적인 방법임을 확인하였다.

  • PDF

임계 획 밀도를 이용한 한글, 한자, 영문구분 (A Distinction of the Korean Character, Chinese Character and English Character using the Threshold Stroke Density)

  • 원남식
    • 한국산업정보학회논문지
    • /
    • 제5권4호
    • /
    • pp.32-38
    • /
    • 2000
  • 다중 문자 환경의 문서인식 시스템에서 문자를 인식하기 전에 문자의 종류를 먼저 구분하는 것은 인식률의 향상에 중요한 요인이 된다. 각 나라의 문자는 그 문자마다 고유의 구성상의 다양한 특징을 가진다. 본 연구에서는, 문자를 구분하기 위한 방법으로 획 밀도 값을 이용하였고, 대상 문자는 한글, 영문과 한자로 하였다. 다양한 형태의 활자가 사용되는 문서에 적용하기 위해 입력 데이터는 정규화 과정을 거친 후 처리되었다. 제안된 방법은 80% 이상의 높은 확률로 구분이 가능함을 실험 결과로써 입증하였다.

  • PDF

천자문과 로제 시소러스 범주체계 비교 (Category Comparison between Thousand-Character Text and Roget's Thesaurus)

  • 김상락;양재군;배재학
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-89
    • /
    • 2008
  • 본 논문에서는 천자문과 로제 시소러스의 어휘 분류체계를 분석하였다. 전처리 작업으로서 천자문과 로제 시소러스를 데이터베이스화 하였다. 그리고 분석 작업의 용이성과 연구의 효율성을 높이기 위해서 천자문 대응 로제 시소러스 검색 시스템을 개발하였다. 연구결과 로제 시소러스 총 39개 과(Section) 가운데에서 'Creative Thought' 과를 제외하고 대부분의 과가 천자문 한자와 관련성을 가지는 것으로 나타났다. 'Space in General', 'Dimensions', 'Matter in General' 3개의 과가 가장 높은 대응률을 보였다. 상관계수값도 약 0.94로 나타나 천자문 한자와 로제 시소러스의 범주 관련성이 아주 높다는 사실을 발견하였다.

  • PDF

도장영상 인식 시스템의 개발 (Development of a System for Recognizing Stamp Images)

  • 송민정;한경숙
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.125-137
    • /
    • 2003
  • 동양 문화권에서는 각종 계약과 서류 결재 등을 위하여 서명대신에 도장이 오랫동안 사용되어 왔으며 아직까지도 보편적인 인증 수단으로 사용되고 있다. 지문과 달리, 도장 영상은 유사한 패턴을 갖지 않고 도장이 찍히는 압력등 입력 상태에 따라서 선명도가 크게 달라진다. 본 연구에서는 입력 장치로부터 얻은 한글 또는 한자 도장 영상을 스트레칭, 이진화 및 잡음처리를 거쳐 판별하는 시스템을 개발하였다. 이 시스템을 가장 보편적으로 사용되는 원형모양의 50개의 도장 영상 (20개 한글 도장, 20개 한자 도장, 10개 유사 도장)에 대하여 실험한 결과, 46개의 도장 영상을 성공적으로 인식하여 비교적 높은 판별도 (92%)를 보였다. 한글과 한자 도장 사이의 차이는 거의 없었으며, 도장을 찍을 때의 각도 차이나 압력 차이가 판별도를 결정하는 중요한 요인으로 작용함을 알 수 있다. 인식할 수 있는 도장 영상의 모양을 원형뿐 아니라 타원과 사각형으로 확장하고 판별도를 좀더 향상하면, 현재 육안으로 확인하는 도장 영상 인식을 자동화하는데 실제로 유용하게 사용될 수 있을 것이다.

  • PDF

유니코드의 구조와 문제점 (A Study on the Unicode Architecture)

  • 주리정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.23-28
    • /
    • 2001
  • 유니코드는 현재 또는 과거에 존재했던 다양한 언어의 문자를 처리하기 위한 국제 표준코드이며 2바이트로 형성될 수 있는 65,000여 개의 영역에 전세계문자들을 차례대로 배열, 각 문자에 일련의 코드값을 지정하였다. 우리나라는 ISO 10646-1:1993의 유니코드 체계를 그대로 수용하여 1995년 KS C 5700-1995 표준규격으로 채택하였다. 이러한 유니코드의 경우 한글과 한자의 정렬문제, 옛한글이나 구결문자의 표현에 있어 제약이 있다. 이에 본고에서는 유니코드의 기본적인 개념, 그리고 한글 유니코드와 그 문제점에 대해 고찰하였다.

  • PDF

XML 기반 고문서 편찬 관리시스템 (XML based Classics Archive Management System)

  • 진두석;최윤수;안성수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1693-1696
    • /
    • 2002
  • 최근 고문서 전산화 작업에 대한 관심이 증가함에 따라 대규모의 고문서 전산화 작업이 진행 되어지고 있다. 그러나 현재의 표준화 되어있는 코드체계만을 가지고는 고문서를 표현 할 수 없으며 문서의 구조에 포함된 의미적 특징을 손상시키지 않고 데이터베이스를 구축하기가 매우 어렵다. 또한 이러한 작업은 수개월에서 수년에 걸쳐 여러 차례의 교정 작업이 수행된다. 그러므로 효과적인 고문서 전산화를 위해서는 문서 편찬, 교정, 서비스가 동시에 수행되는 시스템이 필요하다. 따라서 본 논문에서는 기존 코드체계를 확장하여 고문서 전산화에 필요한 확장한자 처리가 가능한 유니코드 기반 입력기를 소개하고, 고문서의 의미적 특징을 손상시키지 않기 위해서 문서 구조정보의 표현이 가능한 XML을 이용한 실시간 문서 편찬 관리시스템을 소개한다.

  • PDF

DB 자동 구축을 위한 필기 형식문서 인식 시스템의 개발 (Development of Handwritten Form Recognition System for Automated Database Construction)

  • 김동준;조성정;류성호;이택헌;김진형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.1047-1050
    • /
    • 2000
  • 형식문서는 현재 정보의 체계화된 표현 및 저장 수단으로서 널리 사용되어 왔다. 최근 이러한 형식문서들을 데이터베이스화해주는 시스템들이 보급되고 있다. 그러나 대부분 외국의 시스템을 기반으로 작성되어 한글, 영어, 숫자, 한자등 다양한 필기 문자들이 사용되는 국내 환경의 특수성을 적절히 반영하지 못하고 있다. 그 결과, 대부분의 경우 아직도 사람이 직접 자료를 입력해야만 한다. 본 논문에서는 이러한 국내 실정에 맞게 다양한 언어의 필기 문자 인식기를 결합하여 형식 문서의 정보를 자동으로 데이터베이스에 입력해 주는 시스템을 제안한다. 제안된 시스템은 영상을 인식한 뒤 그 결과를 검증하는 방법을 통하여 정보의 입력을 보다 효율적으로 수행할 수 있을 뿐 아니라, 전체 작업을 단계별로 분할하여 병렬적으로 수행할 수 있게 함으로써 처리율을 향상시킬 수 있게 하였다.

  • PDF