A Research on Module Arrangement of Korean Spelling Corrector to Optimize Correction Rate

교정률 최적화를 위한 한국어 철자교정기의 모듈 배열

  • 윤근수 (울산과학대학 컴퓨터정보학부) ;
  • 권혁철 (부산대학교 전기전자정보컴퓨터공학부)
  • Published : 2005.05.01

Abstract

We find a module may that takes optimal correction rate of Korean spelling corrector. If there are a lot of module numbers of spelling corrector, it is difficult to calculate optimal correction rate of spelling corrector because permutation of N-modules is N!. This Korean spelling corrector consists of 19 modules. It is impossible to arrange 19 modules actually and the correction rate is various according to input data. We found the range of correction rate using parallel processing between modules and the optimal correction rate using sequential processing of modules. Input data that are used in an experiment is 753,191 eojeol's sets that happen in newspaper publishing company during several years. About this error set, theoretical maximum correction rate of spelling corrector is $97.28\%$ (732,764/753,191). But we got the optimal correction rate $96.62\%$ (727,750/733,191). This optimal correction rate is almost near to $99.31\%$ (727,750/732,764) of the maximum correction rate.

본 논문은 한국어 철자교정기의 최적교정률을 보이는 모듈들의 나열순서를 찾는 연구이다. 철자교정기의 모듈 개수가 n개이면 모듈나열 경우의 수는 n!가지가 가능하므로 철자교정기의 최적 교정률을 계산하기가 힘들어 진다. 실험에 사용한 한국어 철자교정기는 현재 19개 모듈들로 구성되어 있다. 입력데이타에 대해서 19!개 모듈을 적용하여 최적교정률을 찾는 것은 현실적으로 불가능하다. 따라서 주어진 입력데이타에 대해 이론적인 최대교정률과 최소교정률을 구하여 교정률 범위를 구하고, 최대교정률에 근접한 최적교정률에 대한 모듈나열순서를 구하는 것이 논문의 목적이다. 최적교정률을 구하기 위해 경험적 지식을 사용하였다. 실험에 사용한 입력데이타는 신문사에서 몇 년간 발생한 오류어절 753,191개의 집합이다. 이 오류집합에 대해 철자교정기의 이론적인 최대교정률은 $97.28\%$ (732,764개/753,191개)이나 경험적으로 우리가 찾은 최적교정률은 $96.62\%$ (727,750개 /733,191개)이다. 철자교정기의 성능은 $99.31\%$ (727,750개 /732,764개)이다.

Keywords

References

  1. N.H.Macdonald, L.T.Frase, P.Gingrich, and S.A. Keenan, 'The WRITER'S WORKBENCH : Computer aids for text analysis,' lEEE Trans. Commun. COMM-30, No.1, pp.105-110, 1982 https://doi.org/10.1109/TCOM.1982.1095380
  2. Stephen D. Richardson, 'Enhanced Text Critiquing using a Natural Language Parser,' research report RC-1l332, IBM Thomas J. Watson Research Center, 1983
  3. G.E. Heidorn, Jensen, L.A. Miller, R.J. Byrd, and M.S. Chodorow, 'The EPISTLE Text-Critiquing System,' IBM Syst. J. Vol 21, No 3, pp.305-326, 1982
  4. 강재우, '접속정보를 이용한 한국어 철자 띄어쓰기 검사기의 설계 및 구현', 한국과학기술원 전산학과 석사학위 논문, 1990
  5. 박종만, '효율적인 한국어 형태소분석기 및 철자 검사 교정기의 구현', 서울대학교 석사학위 논문, 1990
  6. 심광섭, '음절 간 상호정보를 이용한 한국어 자동띄어쓰기', 정보과학회논문지(B), 23-9, 991-1000, 1996
  7. 강승식, 장병탁, '음절특성을 이용한 범용 한국어 형태소 분석기 및 맞춤법 검사기', 정보과학회 논문지, 제23권 제5호, 1996
  8. 김덕봉, 최기선, 강재우, '한국어 형태소와 사전-접속정보를 이용한 한글 철자 및 띄어쓰기 검사기', 언어 연구, 제26권 제1호, pp.87-113, 1990
  9. 이병훈, 윤준태, 송만석, '말뭉치를 기반으로 한 한국어 철자교정기의 구현', 한글 및 한국어 정보처리 학술발표논문집, pp.285-293, 1993
  10. 정한민, 이근배, 이종혁, '자판특성을 이용한 Neuro-Fuzzy 한국어 철자교정기의 구현', 한글 및 한국어 정보처리 학술발표논문집, pp317-328, 1993
  11. 이원일, 홍남희, 이종혁, 이근배. 1993. Binary n-gram과 형태소 분석기를 이용한 한국어 철자 교정기. '93 KISS 학술발표 논문집 20:1 (Apr 1993), 813-
  12. 이도길, 이상주, 임희석, 임해창, '한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델', 정보과학회 논문지: 소프트웨어 및 응용 제30권 제4호, pp.358-370, 2003
  13. Chul-Min Sim, Min-Jung Kim, Hyuk-Chul Kwon, 'Automatic Revision of Korean Texts by Collocation Words.' Proceedings of te '94 International Conference on Computer Processing of Oriental Languages, pp.280-284, 1994
  14. 채영숙, '연어 규칙에 기반한 한국어 문서교정시스템의 구현', 부산대학교 전자계산학과 박사학위 논문, 1998