• 제목/요약/키워드: 한글 주소처리

검색결과 18건 처리시간 0.024초

한글 주소의 오인식 수정을 위한 효율적인 후처리 알고리즘 (An Efficient Postprocessing Algorithm for Error Correction in Hangul Address Recognition)

  • 이성환;김은순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.555-566
    • /
    • 1992
  • 본 논문은 한글 주소의 오인식 수정에 관한 연구로서, 필기자의 다양한 필기 형태와 입력 장치의 특성으로 인하여 문자 인식 단계에서 발생할 수 있는 혼동을 줄이고 오류를 효율적으로 수정하는 후처리 알고리즘을 소개한다. 특히, 주소의 행정 구역부에 대해서는 정합해야 할 문자 모델의 범위를 줄여줌으로써 높은 인식률과 처리 속도를 기록하였으며, 문자 인식의 결과에 임계값과 백트랙킹 방법을 도입한 후처리 알고리즘을 적용하여 더욱더 높은 인식률을 나타낼 수 있었다. 번지부와 건물부에 대한 오인식도 제안된 각각의 알고리즘을 적용함으로써 효과적으로 수정할 수 있었다. 우리나라의 25,000여 행정 구역을 바탕으로 작성 가능한 주소들 중에서 임의의 150개 주소 데이타에 대하여 제안된 후처리 방법을 포함한 다양한 후처리 방법으로 실험한 결과, 행정 구역부에 대하여 98%이상의 높은 인식률을 보임으로써, 제안된 후처리 알고리즘이 효과적임을 알 수 있었다.

  • PDF

고속 필기 한글 주소 인식을 위한 낱자 인식 (Character Recognition for Fast Handwritten Korean Address Reading)

  • 정선화;임길택;송재관;남윤석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.589-592
    • /
    • 2001
  • 본 논문에서는 고속 필기 한글 주소 인식을 위한 낱자 인식기를 제안한다. 인식 대상은 우편번호 여섯 자리에 할당된 주소에 출현 빈도가 높은 필기 한글 469 자이다. 제안된 방법은 낱자 인식 기법을 채택하고 있으며, 인식률과 처리속도를 향상시키기 위하여 2 단계 인식 전략을 채택하였다. 인식기로는 다층퍼셉트론, 최소거리분류기, Subspace 방법을 고려한다. 다층퍼셉트론은 비교적 높은 인식률과 처리속도를 보유하지만 출력값이 확률이 아님으로써 후처리를 필요로 하는 시스템에서 사용하기 어렵다. 최소거리분류기는 간단한 알고리즘으로 처리속도가 높고 확률을 출력하는 장점을 갖지만 인식률이 낮아 활용되기 어렵다. 또한 Subspace 방법은 인식률이 높고 확률을 출력하지만 처리속도가 매우 느리다는 단점이 있다. 따라서 제안방법에서는 처리속도가 높은 인식기 - 다층퍼셉트론, 최소거리분류기 - 를 사용하여 선인식을 수행한 후, 이 결과를 활용하여 인식 대상을 제한한 후 Subspace 방법을 사용하여 정확하게 인식하는 전략을 도입함으로써, 높은 인식결과를 유지하면서 처리속도를 높이고 후처리에 적합하도록 하였다. PE92 데이터베이스를 사용하여 실험한 결과 제안방법이 한글 469 자에 대하여 비교적 높은 인식률과 처리속도를 갖음을 알 수 있었다.

  • PDF

효율적인 순로코드 발생을 위한 고속 한글 주소검색 시스템 개발 (High-Speed Korean Address Searching System for Efficient Delivery Point Code Generation)

  • 김경환;이석구;신미영;남윤석
    • 정보처리학회논문지D
    • /
    • 제8D권3호
    • /
    • pp.273-284
    • /
    • 2001
  • 실제로 사용되는 주소의 분석을 통해 한글주소의 해석방법을 제안하고, 제안한 주소해석 방법을 이용한 주소 검색시스템의 구현에 대하여 서술한다. 주소 상위 및 하위영역의 일치검증을 각각 순차적으로 수행하는 2단계 과정을 통해 최종 배달점에 대한 순로코드를 발생한다. 우편 번호와 주소 상위영역 일치검증 단계에서는 우편버호를 이용하여 주소사전에서 검색된 주소단어와 인식된 문자 후보들과의 비교를 통해 우편 번호를 검증하게 되며, 주소 상위영역과 주소 하위영역이 분리된다. 주소 상위영역 일치검증 과정의 성능향상을 위해 혼동행렬을 제안하고, 주소 인식결과에 혼동행렬을 적용하여 검증 성공률의 향상을 통해 혼동행렬의 유용성을 확인하였다. 주소 하위영역 검증은 번지정보와 건물명 정보를 이용하여 순로코드를 발생하였다. 부분적으로 완성된 광주와 부산지역의 DPF(Delivery Point File)와 레이블링된 데이터를 이용해 분석 가능한 주소에 대해 높은 정확도를 가지고 순로코드를 발생함을 확인할 수 있었다.

  • PDF

CRM 위한 효율적인 주소 정제 시스템 개발 (Development of Efficient Address Cleaning System for CRM)

  • 박규진;송원문;김은주;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.313-318
    • /
    • 2007
  • 최근 기업들은 인터넷, 이벤트 등의 다양한 매체를 통해 방대한 양의 고객 주소 데이터를 수집하고 있다. 이렇게 수집된 고객 주소 데이터는 DM발송 등을 통한 마케팅 및 캠페인에 활용함으로써 서비스의 질을 향상시키고, 고객의 충성도를 높인다. 그러나 사용자가 입력한 주소의 일부는 띄어쓰기가 정확하지 않은 주소, 정보가 누락된 주소, 오타가 있는 주소, 구주소 등의 입력으로 주소의 표준 형태를 갖지 않거나 일관성이 없다. 또한 2007년 4월부터 부분시행예정인 신주소 체계를 위해 기존의 주소를 적절히 변환해야만 한다. 본 논문에서는 부정확하거나 불완전한 주소를 표준 형태의 정확한 주소로 변경하는 효율적인 주소 정제 시스템을 제안하고 개발한다. 본 시스템은 먼저 입력 주소의 유니코드 분석을 통한 한글 입력 오류 교정과 해쉬테이블을 이용한 건물명의 표준 형태 변환을 수행한다. 이 과정이 완료된 주소들은 주소 트리 모델 구축을 통해 띄어쓰기가 부정확한 주소의 처리, 역주소테이블(inverted address table)을 이용한 누락 주소의 처리(enrichment), 구주소에 대한 트리 모델을 생성한 신주소 변환 처리 등의 프로세스를 통해 정제하게 된다. 실험을 위해 오타와 띄어쓰기, 누락된 정보가 있는 주소를 생성하여 타 정제 시스템과 성능을 비교하였다. 생성된 데이터를 비교한 결과 기존 주소 정제 시스템의 오류율 7.5% 보다 제안된 방법으로 개발된 본 시스템의 오류율이 0.45%로 낮음을 확인하였다.

  • PDF

모음 우선 인식에 의한 즐단위 필기체 한글의 인식 (Recognition of Handprinted Hangul Line using Vowel Pre-Recognition Method)

  • 함경수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.195-200
    • /
    • 1994
  • 본 논문에서는 글자 구분선 없이 자유로이 쓰여진 필기체 한글의 인식 방안을 보인다. 즐단위의 한글 입력 영상에서 글자의 골격선을 추출하는 새로운 방법과 골격선들 간의 접촉점과 끝점을 그래프의 노드로 표현하고, 획은 그래프의 가지로 표현하는 방안을 보인다. 한글의 글자 구성 원리는 모음을 중심으로 모아쓰므로, 그래프로 표현된 즐단위의 한글에서 모음의 시작위치 및 속성을 가지는 로드로부터 한글의 모음을 가장 먼저 유도하여 인식하고, 우측 글자 및 자소끼리의 접촉을 분리하여 초성 자음 및 종성 자음을 인식하여, 좌에서 우의 방향으로 한 문자씩 인식해 나간다. 본 논문에서의 자유로이 필기된 한글의 인식 실험은 우리나라의 주소 50개를 서로 다른 25인이 필기한 영상 데이터를 사용하였고 한글 문자의 인식율은 89%이다.

  • PDF

극한 언어 환경에 대응 가능한 영한 자동 주소번역 시스템 (Automatic English-Korean Address Translation System for Extremely Unpredictable Error Generating Language Environments)

  • 김경식;황명진;이승필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-242
    • /
    • 2016
  • 데이터베이스 기반 자동 주소번역은 입력 오류에 취약하며 범용 기계번역을 이용한 주소번역은 입력 및 번역 주소에 대한 품질 평가가 어렵다. 본 논문에서는 예측할 수 없는 입력 오류에도 대응할 수 있는 자동 주소번역 시스템을 제안한다. 제안 시스템은 n-gram 기반 검색, 미검색/오검색 분류, 번역, 신뢰도 자동평가로 구성된다. 신뢰할 수 있는 입력으로 자동 분류한 영문 국내주소를 국문으로 번역한 결과 95%이상의 정확도를 보였다.

  • PDF

주소해석 및 검색을 위한 우편주소파일 설계 (Design of Postal Address File for Address Interpretation and Retrieval)

  • 장태우;김호연;임길택
    • 한국산업정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.74-88
    • /
    • 2007
  • 우편물을 배달순서대로 정렬하는 순로구분의 자동화를 위해서는 우편물에 표기된 주소를 인식해야 하며, 이 과정에서 표준화된 우편주소 데이터베이스는 필수적이다. 우편주소 데이터베이스는 주소인식뿐만 아니라 우편물 정보처리 등 다양한 측면에서 사용 가능하여 우편물 처리의 자동화와 정보화에 매우 중요하다. 본 연구는 우편주소 데이터베이스에서의 정보체계 표준을 위한 스키마 및 이에 따른 우편주소파일의 설계 방법과 설계된 스키마에 따른 주소해석 과정 및 방법에 관한 것이다. 주소를 표준화된 형태로 변환하는 데에 필요한 정보를 분석하여 이를 우편주소파일 설계과정에 포함시킴으로써 향후 순로구분 자동화를 위한 한글 주소인식 시스템과 고객 바코드 인증을 위한 주소 데이터베이스 매칭 및 주소검색 시스템에 활용할 수 있도록 하기 위해 우편주소파일을 설계하였다.

  • PDF

애플리케이션 기반에서 Punycode 를 적용한 다국어 이메일 주소 제안 및 구현 (The Proposal and Implementation of The Internationalized Email Address applying Punycode in Application Layer)

  • 박민수;이희찬;송관호;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.944-947
    • /
    • 2010
  • 새로 제정된 이메일 프로토콜 표준에 따라 사용자는 이메일 주소에 한글과 같은 다국어를 포함할 수 있다. 다국어 이메일 주소를 사용하여 송수신자가 메일을 전송하기 위해서는 양측 메일 서버가 모든 문자를 표현할 수 있는 UTF-8 인코딩 방식을 지원하도록 정의하고 있지만 현재의 네트워크 상에는 UTF-8 인코딩 방식을 지원하는 메일 서버와 지원하지 않는 메일 서버 모두가 존재하고 있다. 이는 곧 메일이 정상적으로 수신자에게 전송이 되지 못하는 결과를 발생시킨다. 본 논문에서는 UTF-8 을 지원하는 서버와 지원하지 않는 서버의 기존 상태를 유지하면서 메일을 정상적으로 송수신을 하기 위해 애플리케이션에서 퓨니코드 변환을 적용시킨 전달 기법을 제안하였으며 직접 구현하여 정상적으로 작동하는 것을 확인 하였다.

공공정보시스템 부호체계 개선방안 연구 (A Study on the Improvement of the Code System in Public Information Systems)

  • 김지용;이송희;최진영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.303-306
    • /
    • 2010
  • 공공정보시스템에서 외래어 표기법에 어긋나는 귀화자 성명이나 브랜드명(법인명)을 사용할 경우에, 비표준 확장한글을 인식하지 못하여 성명이나 주소를 포함하는 글자가 "?"로 표시되는 깨짐현상이 발생하여 공공서비스 이용에 많은 불편함을 초래하고 있다. 그 원인으로는 첫째로, 외래어 표기법을 준수하지 않았다는 것, 두 번째로는 기존에 구축된 공공정보시스템 대부분이 'EUC-KR' 인코딩 방식을 사용하고 있으므로 비표준 확장한글을 표현하지 못하고 있기 때문이다. 이에 본 논문에서는 기존의 운영환경을 그대로 유지하면서, 비표준 확장한글을 지원할 수 있는 시스템 운영방안을 제안하였다. 연구결과는 실제 공공정보시스템 운영시에 적용할 수 있으며, 사용자에게 보다 나은 서비스를 제공할 수 있다.

음성 기반 도로명 주소 인식 및 주소 검증 기법 (A Method of Recognizing and Validating Road Name Address from Speech-oriented Text)

  • 이건수;김중연;강병권
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.31-39
    • /
    • 2021
  • TV홈쇼핑을 통한 상품 구매 과정에서, 전화망을 통한 배송지 정보의 확보는 필수적인 과정이며 동시에, 서비스 운영 효율을 높이기 위한 주요한 자동화 적용 대상 과정이다. 본 연구는 음성으로 기록된 배송지 정보를 자동으로 인식 및 검증하려는 방법을 제안한다. 본 제안 방법은 음성 기반의 주소 정보를 처리하는 데 필요한 다음의 세 가지 기능을 포함한다. 첫 번째 기능은 한글 발화문으로 부터 원래 주소의 표기 형태로 올바르게 변환하는 것이고, 두 번째 기능은 음성 녹취 과정에서 주소의 구성 요소별 순서 변화 혹은 동일 구성 요소의 중복 발화 같은 주소 잡음을 처리하는 것이며, 마지막 기능은 띄어쓰기 처리를 통한 최종 주소의 가독성을 보장할 수 있는 기능이다. 제안된 방법을 구현하기 위해 우정사업본부 주소 DB와 행정안전부의 주소 DB를 사용하였으며, 통화에서 획득한 주소 발화로부터 도로명 주소를 도출하고, 도출된 주소의 유효성을 검증하였다. 또한 제안 방법의 구현 결과물은 STT를 통한 발화 인식 결과뿐만 아니라, 키보드를 이용한 표준 입출력으로도 입력 채널을 확장하여, 주소 검증이 필요한 비음성 기반의 서비스에서도 활용될 수 있도록 하였다. 제안 방법은 주소 구성 요소의 위치 변화 잡음에 강건하게 동작했지만, 요소 생략의 경우 오작동 경향이 존재했다. 이는 생략된 요소에 의해 하위 요소의 지역을 명시하지 못하는 경우 처리하지 못한 모호함 때문이었다.