• 제목/요약/키워드: Edit-distance

검색결과 48건 처리시간 0.024초

어절 생성 사전을 이용한 한국어 철자 교정 (Spelling Correction in Korean Using the `Eojeol` generation Dictionary)

  • 이영신;박영자;송만석
    • 정보처리학회논문지B
    • /
    • 제8B권1호
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF

행정구역 위계정보와 편집거리를 이용한 오류입력에 강한 도로명주소 변환 (Error tolerant Korean Roadname Address Conversion using Hierarchical Administrative Division and Edit Distance)

  • 송재용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1182-1185
    • /
    • 2013
  • 도로명주소가 법적 주소체계로 지정되고 2014년도부터 전면 시행을 앞두고 있는 상황에서 기존의 지번주소를 도로명주소로 변경하려는 수요가 늘고 있으며 그에 따라 주소 전환 서비스를 제공하는 솔루션들이 증가하고 있다. 행정구역 체계에 따라 단계별로 입력된 지번주소의 도로명주소로의 변환은 크게 어렵지 않고 변환 성공율도 상당히 높지만 자유롭게 입력하여 정제되지 않은 형태의 주소는 전환에 실패하는 경우가 많다. 본 논문에서는 전산입력된 지번주소를 도로명주소로 변환시 주소형태가 정제되지 않은 상황에서도 변환 성공률을 높이기 위해 행정구역 줄임, 일부 주소정보 누락, 오타 등 여러 가지 변형 케이스에 대해서도 유연하게 변환을 수행하는 방안을 연구하였다. 이를 통해 기존 지번 주소의 표준 형태로의 정제는 최대 두 배까지 변환효율을 높일 수 있었다. 그러나 변환시 사용하는 도로명주소 매칭 테이블에 자료의 누락, 건물명의 불일치, 지번과 건물의 1:1 매칭이 되지 않는 경우가 존재하여 원활한 주소 전환을 위해서는 데이터의 정비가 필요하다.

에디트 거리 알고리즘을 이용한 디지털 도어락의 보안성 강화에 관한 연구 (A Study on Security Consolidation by using Edit Distance Algorithm)

  • 박준표;조병구;최현식;정연돈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.710-713
    • /
    • 2008
  • 디지털 도어락은 사용의 편이성와 안전성으로 인해 보편적으로 사용되고 있다. 본 논문에서는 에디트 거리 알고리즘을 활용하여 비밀번호를 사용하는 디지털 도어락의 보안성을 강화하는 방법을 제안한다. 즉, 에디트 거리 알고리즘을 이용하여 비용을 산출함으로써 사용자가 실수할 수 있는 범위들을 정의하여 인증된 사용자인지 인증 받지 않은 사용자인지 효과적으로 예측한다. 실험을 통해 본 논문에서 제안하는 방법을 통해 비밀번호를 사용하는 디지털 도어락의 보안을 강화할 수 있음을 확인할 수 있다.

한글 편집거리 알고리즘을 이용한 한국어 철자오류 교정방법 (A Method for Spelling Error Correction in Korean Using a Hangul Edit Distance Algorithm)

  • 박승현;이은지;김판구
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.16-21
    • /
    • 2017
  • 컴퓨터가 상용화되면서 일반인들은 문서를 작성하기 위해 컴퓨터를 이용하는 방법을 자주 사용하게 되었다. 컴퓨터를 이용하여 문서를 작성하는 방법은 작성 속도가 빠르고 손의 피로가 적지만 철자오류가 발생할 확률이 매우 높다. 보통 철자오류는 발견하기 쉽기 때문에 곧바로 수정이 가능하지만, 사용자의 지식 부족 혹은 눈에 잘 띄지 않는 철자오류도 존재하기 때문에 철자오류가 존재하지 않는 문서를 작성하기 어렵다. 온라인상에서는 문서 작성에 대한 규칙 및 예절이 미비하기 때문에 철자오류에 의한 문제가 적지만 중요문서에서 발생하는 철자오류는 신뢰도 하락과 같은 큰 문제를 일으킨다. 철자오류 교정은 전문가 또한 완벽하게 수행하기 힘들기 때문에 비전문가인 일반인들을 위한 교정방법연구가 필요하다. 본 논문에서는 한글 편집거리 알고리즘을 이용해 철자오류를 교정하는 연구를 진행한다. 이전 연구를 통해 검출한 철자오류를 수집한 말뭉치 사전에서 등장하는 단어 중 철자오류 단어와 가장 유사한 단어를 발견하여 주위 단어와의 동시등장빈도를 계산하는 것으로 철자오류 교정을 수행하게 된다.

입말 표기를 이용한 영어 단어 검색 (Retrieving English Words with a Spoken Work Transliteration)

  • 김지승;김광현;이준호
    • 한국문헌정보학회지
    • /
    • 제39권3호
    • /
    • pp.93-103
    • /
    • 2005
  • 영어 사전 검색 서비스 이용자들은 원하는 영어 단어의 철자를 정확하게 기억하지 못하고, 발음만을 기억하는 경우가 있다. 이러한 이용자들에게 도움을 주기 위해 본 연구에서는 입말 표기, 즉 영어 단어 발음의 한글 표기를 이용하여 영어 단어를 효과적으로 검색할 수 있는 방법을 제안한다. 이를 위하여 코닉스(KONIX) 코드를 개발하며, 입말 표기와 영어 단어를 코닉스 코드들로 변환한다. 그리고 변환된 코닉스 코드들 사이의 음성적 유사도를 편집 거리 방법과 2-그램 방법을 이용하여 계산한다. 또한 제안한 방법이 입말 표기에 의한 영어 단어 검색에 매우 효과적임을 실험을 통하여 입증한다.

가변길이 그램의 역리스트 생성을 이용한 효율적인 유사 문자열 검색 기법 (An Efficient String Similarity Search Technique based on Generating Inverted Lists of Variable-Length Grams)

  • 김종익
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1275-1280
    • /
    • 2016
  • 유사 문자열 검색을 위해 기존의 기법들은 우선 후보 문자열 집합을 생성한 후에 후보 문자열을 검증하는 방법을 사용한다. 이때, 유사 문자열 검색의 성능을 결정짓는 가장 중요한 요소는 후보 생성 방법이다. 기존의 기법들은 질의 문자열로부터 고정길이 q-그램들을 선택하고, 선택된 q-그램에 해당하는 역리스트를 이용해 후보 문자열을 생성한다. 본 논문에서는 질의 문자열 내의 가변길이 그램들을 사용하여 후보 문자열을 생성할 수 있는 기법과 질의 문자열로부터 최적의 가변길이 그램들의 조합을 선택하는 동적 프로그래밍 알고리즘을 제안한다. 실험을 통해 제안하는 기법이 기존의 기법들 보다 유사 문자열 검색의 성능을 향상시킴을 보인다.

발음 변이와 개선된 편집 거리를 이용한 음성 인식 후처리 (Post-Processing of Speech Recognition Using Phonological Variables and Improved Edit-distance)

  • 김예진;박영민;강상우;정상근;이청재;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-12
    • /
    • 2014
  • 본 논문에서는 오인식된 고유명사의 후처리 방법을 제안한다. 최근 음성 인식 후처리를 위해 통계적 방법을 이용하는 연구가 활발히 진행되어 왔다. 하지만 고유명사의 음성 인식 후처리는 대용량의 데이터 수집에 많은 비용이 필요하므로 통계적 방법을 효과적으로 적용하기 어렵다. 따라서 본 논문에서는 발음 변이 현상을 고려하여 편집 거리 알고리즘을 개선한 기법을 제안한다. 본 논문에서는 고유명사의 음성 오인식 교정 성능을 검증하였고, 그 결과 P@3의 결과가 비교 모델보다 55%의 성능 향상률을 보였다.

  • PDF

비가시성 인터랙션 표면 생성을 통한 인터랙티브 입체영상 시연 시스템 개발 (Development of a Interactive Stereoscopic Image Display System using Invisible Interaction Surface Generation)

  • 이동훈;양황규
    • 한국전자통신학회논문지
    • /
    • 제6권3호
    • /
    • pp.371-379
    • /
    • 2011
  • 본 논문에서는 입체 영상 디스플레이 시스템 환경 하에서 다중의 사용자가 입체 영상 내의 사물과 상호작용이 가능한 입체 인터랙티브 콘텐츠 시스템 개발 방법을 제안한다. 상호작용을 위한 방법으로는 최근 대중적으로 많이 보급된 멀티터치 방식을 이용하여 사용자의 제스쳐 정보를 입체 영상 환경 하의 사물에 적용한다. 기존 멀티터치 방식은 디스플레이 표면과의 직접적 접촉을 통해 상호작용이 발생하나, 입체 영상의 경우 디스플레이 표면과 참여자 간의 적정 거리가 떨어져야 한다는 제약조건으로 기존 방법을 적용하기 어렵다. 이를 해결하기 위해 공간 상에 상호작용을 위한 비가시성 표면을 생성하고, 생성된 표면과 참여자의 신체와의 접촉을 상호작용의 이벤트로 간주한다. 또한 본 논문에서는 상호작용이 가능한 입체 영상 저작을 위해 게임 엔진 기반의 입체 영상 생성 및 편집 기법을 제시한다.

funcGNN과 Siamese Network의 코드 유사성 분석 성능비교 (Comparison of Code Similarity Analysis Performance of funcGNN and Siamese Network)

  • 최동빈;조인수;박용범
    • 반도체디스플레이기술학회지
    • /
    • 제20권3호
    • /
    • pp.113-116
    • /
    • 2021
  • As artificial intelligence technologies, including deep learning, develop, these technologies are being introduced to code similarity analysis. In the traditional analysis method of calculating the graph edit distance (GED) after converting the source code into a control flow graph (CFG), there are studies that calculate the GED through a trained graph neural network (GNN) with the converted CFG, Methods for analyzing code similarity through CNN by imaging CFG are also being studied. In this paper, to determine which approach will be effective and efficient in researching code similarity analysis methods using artificial intelligence in the future, code similarity is measured through funcGNN, which measures code similarity using GNN, and Siamese Network, which is an image similarity analysis model. The accuracy was compared and analyzed. As a result of the analysis, the error rate (0.0458) of the Siamese network was bigger than that of the funcGNN (0.0362).

기계학습 기반 국내 뉴스 헤드라인의 정확성 검증 연구 (Objectivity in Korean News Reporting : Machine Learning-Based Verification of News Headline Accuracy)

  • 백지수;이승언;한지영;차미영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-286
    • /
    • 2021
  • 뉴스 헤드라인에 제3자의 발언을 직접 인용해 전언하는 이른바 '따옴표 저널리즘'이 언론 보도의 객관주의 원칙을 해치는지는 언론학 및 뉴스 구독자에게 중요한 문제이다. 이 연구는 온라인 포털사이트를 통해 실시간 유통되는 한국어 기사의 정확성을 판별하기 위한 기계학습(Machine Learning) 모델을 제안한다. 이 연구에서 제안하는 모델은 Edit Distance와 FastText 기법을 활용해 기사 제목과 본문 내 인용구의 유사성을 측정하고, XGBoost 모델을 활용해 최종 분류한다. 아울러 이 모델을 통해 229만 건의 뉴스 헤드라인에 대해 직접 인용구가 포함된 기사가 취재원의 발언을 주관적인 윤색없이 독자들에게 전하고 있는지를 판별했다. 이뿐만 아니라 딥러닝 기반의 KoELECTRA 모델을 활용해 기사의 제목 내 인용구에 대한 감성 분석을 진행했다. 분석 결과, 윤색이 가미되지 않은 직접 인용형 기사의 비율이 지난 20년 동안 10% 이상 증가했으며, 기사 제목의 인용구에 나타나는 감정은 부정 감성이 긍정 감성의 2.8배 정도로 우세했다. 이러한 시도는 앞으로 계산사회과학 방법론과 빅데이터에 기반한 언론 보도의 평가 및 개선에 도움을 주리라 기대한다.

  • PDF