• 제목/요약/키워드: 단어 오류

검색결과 213건 처리시간 0.029초

한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소 (A Non-morphological Approach for DBpedia URI Spotting within Korean Text)

  • 김영식;함영균;김지성;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

문서 클러스터링을 이용한 문맥 광고 시스템 (Contextual Advertisement System based on Document Clustering)

  • 이동광;강인호;안동언
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.73-80
    • /
    • 2008
  • 본 연구에서는 문서 클러스터링을 이용하여 동음 이의어와 핵심단어 선정 실패로 인해 발생하는 자동 광고 시스템의 오류를 해결하는 광고 키워드 추출방식을 제안한다. 먼저 대규모 뉴스기사를 대상으로 유사한 내용을 가지며 동일한 광고 키워드와 연관이 있는 기사들을 자동으로 분류하여 광고 키워드에 대한 문맥 정보를 구축한다. 또한 광고 대상물에 대한 광고주의 요약 정보나 광고 대상 웹페이지를 분석하여 광고 키워드에 대한 문맥 정보를 추출하는 방식을 보인다. 이렇게 구축된 문서 분류와 광고 키워드용 문맥 정보를 이용하여 광고 대상 문서가 속한 문서 분류를 추정하여 단어들의 의미적인 애매성을 해결하고, 추정한 문서 분류와 관련 있으면서 문맥적으로 중요성을 가지는 핵심 단어들을 선정하여 광고 키워드를 추출한다. 상용 광고 시스템과의 비교 분석 결과 신문 기사나 일반 블로그를 대상으로 최소 21%의 성능 향상을 얻었다.

HMM의 교정 학습과 후처리를 이용한 연결 숫자음 인식에 관한 연구 (A Study on the Recognition of the Connected Digits Using CorrectIve Trammg WIth HMM and Post Processing)

  • 우인봉
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.161-165
    • /
    • 1994
  • HMM은 좋은 결과를 보이면서 현재 음성 인식 분야에서 널리 사용되는 알고리즘이다. 그러나, 이 HMM의 학습방법인 maimum like-ihood estimation 은 인식률을 극대화하는 모델의 파라메터 값을 생성하지 못하는 단점이 있다. 이러한 문제점을 보와하기 위하여 연결어 인식 알고리즘인 Segmental K-means의 학습과정에 교정 학습법을 도입하여 모델 파라메터 값을 재조정 해 준다. 한국어 연속 숫자음은 영어 연속 숫자음과 달리 연음 현상의 영향을 많이 받는다. Level building 과정에서 연음에 의한 오류를 감소시키기 위해 연음에 의해 발생할 수 있는 단어를 별도의 모델로 추가했다. 이렇게 추가된 단어 모델들에 대한 몇가지 규픽을 인식 결과에 적용하여 출력을 다시 조정한다. 본 시스템은 TMS320C30 프로세서 내장한 DSP 보드와 IBM PC 사엥서 구현되었고, 표준 패턴은 실험실 잡음 환경에서 남성화자 3명을 대상으로 작성하였다. 인식 결과 21종 전화번호 252개 데이터에 대하여 화자 종속으로 92.1% 인식률을 나타내었다.

  • PDF

시간 표현에 대한 부분 문법 기술 및 FST를 이용한 시간 구문 분석 (Representation of Local Grammar for Temporal Expression and Analysis of Temporal Phrase with FST)

  • 김윤관;윤준태;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.231-236
    • /
    • 1999
  • 시간표현은 문장에서 다른 명사와 결합하여 복합어를 이루는 경우가 있고, 용언과 결합하여 시간 부사의 역할을 하는 경우가 있는데, 이는 구문 분석에 있어서 중의적 해석이 두드러지며, 그 결과 구문 분석의 오류를 빈번히 야기하기도 한다. 본 논문에서는 이러한 시간 관계의 표현을 대량의 말뭉치로부터 획득하고 이들을 부분문법(local grammar)으로 표현한 후, 이것을 FST(Finite State Transducer)를 이용하여 부분 구문분석을 하고자 한다. 이를 위해 5천만 어절의 말뭉치에서 259개의 시간 단어를 추출하였고, 시간 단어들의 의미적 또는 기능적 사용에 의해서 26개의 어휘 범주로 분류하고 각 범주들의 결합관계를 일반화하였다. 실험을 통하여 인식을 위한 시간표현의 결합관계는 최고 97.2%의 정확률을 보였고, 품사태깅에 있어서는 평균 96.8%의 정확률을 보였다. 이는 시간 표현의 결합관계가 부분 구문분석에 있어서 유용한 정보임을 보여준다.

  • PDF

웹 기반 영상과 문서의 자동결합기법에 관한 연구 (A Study of Development on technique for document & image unite)

  • 나종원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.187-190
    • /
    • 2006
  • 텍스트위주의 자료와 영상회의 자료를 결합하여 통합하고 이를 웹을 통해 서비스 하도록 구현하였다. 멀티미디어 회의정보 등록시 사용자는 DAM실행 파일을 자신의 PC에서 실행하고 프로그램에 내장된 윈도우 탐색기를 통해 등록하고자 하는 회의파일을 선택하면 XML 자동 피싱모듈이 실행되면서 자료 저장을 위한 핵심정보와 검색을 위한 단어색인 및 인덱스를 수행하여 오류시에는 에러메세지를 보여주고 성공시에는 분석된 핵심정보를 제공해준다. 서버로 전송된 멀티미디어 회의자료는 종류/시간/등으로 구분되어 윈도우 탐색기 형태의 트리구조와 사용자가 직접 단어를 입력하여 원하는 회의 정보를 검색하는 2가지 형태의 검색서비스를 제공하게 된다. 사용자는 본인의 서비스 환경에 따라 영상+문서, 문서 등을 자유롭게 선택하여 볼 수 있다. DAM의 경제적인 효과에 대하여 정확한 통계 자료가 국내에 아직 발표되지 않아 유사분야인 WCM시장 분석을 근거로 예상하였으며 시스템이 다양하고 복잡해질수록 투자대비 경제적인 효과가 높아 동기화 기술분야 시장이 확대될 것으로 기대된다.

  • PDF

유해정보 차단 시스템 설계와 구현에 관한 연구 (A Study on Design and Implementation of Intercepting System on Hurtfulness Information)

  • 심재권;이진관;한경록;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.943-946
    • /
    • 2002
  • 본 논문은 심각한 문제를 일으키고 있는 유해 정보들이 인터넷을 통해 무분별하게 제공되기 때문에 우리의 청소년들이 접근을 차단할 수 있는 시스템의 설계와 구현에 관한 연구이다. 유해 정보를 차단하기 위해 여러 차단 소프트웨어들이 개발되어서 기존의 차단 소프트웨어들은 차단 목록 데이터베이스를 사용해서 목록에 있는 경우 차단을 하거나 등급 표시에 따르도록 한다. 차단 목록 데이터베이스의 지속적인 업데이트, 등급 표시에 따른 오류나 사전 검열 등이 문제점으로 나타났다. 이 문제점 해결을 위해 본 논문에서는 사이트 상에서 제공되어지는 내용을 AC 머신을 이용하여 유해 단어를 추출하고 유해 정보 데이터베이스를 이용해서 유해 단어에 가중치를 부여했다. 그 결과로 유해 정보를 포함한 사이트는 90%의 차단률을 보여 효율적인 시스템으로 판명되었다.

  • PDF

시맨틱 웹을 이용한 다국어-지원 신문기사 번역시스템의 설계 및 구현 (Design and Implementation of a Multilingual-Supported Article Translation System using Semantic Web)

  • 강정석;이기영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.786-788
    • /
    • 2010
  • 최근 시맨틱 웹의 등장과 발전은 웹 2.0의 발전과 더불어 새로운 웹의 문화를 바꾸어 놓았다. 시맨틱 웹의 적용분야는 다양하지만 그중에서 의미 정보 검색과 다국어 정보 검색 기술을 통한 다국어 지원 번역이 연구 분야로의 필요성이 있다. 기존 기계번역이 번역률에 있어서 가장 큰 한계점은 단어 의미 중의성과 문법적은 오류이다. 따라서 본 논문에서는 시맨틱 웹과 단어 의미 중의성을 해소 시킬 새로운 알고리즘을 제안함으로써 단점을 제거하여 번역률을 향상시켜 모바일에 적용하였다. 모바일에 입력된 신문기사 이미지를 OCR을 통해 텍스트로 변환하고 사전 및 분야 온톨로지와 문장 규칙 추론을 동해 처리 속도 및 정확도 높은 번역시스템을 설계 및 구현하였다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

반음소 모델링을 이용한 거절기능에 대한 연구 (A Study on the Rejection Capability Based on Anti-phone Modeling)

  • 김우성;구명완
    • 한국음향학회지
    • /
    • 제18권3호
    • /
    • pp.3-9
    • /
    • 1999
  • 본 논문에서는 독립단어 음성인식 시스템을 위하여 반음소(anti-phone) 모델링을 이용한 인식 거절(rejection)기능에 대해 기술한다. 음성인식 거절 기능은 음성인식기를 제작할 ? 정해놓은 인식대상 단어 이외의 단어가 입력되었을 때 그 단어가 인식할 수 없는 단어임을 알려주는 기능이다. 음성인식 거절기능을 구하는 방식은 핵심어 검출(keyword spotting)방식과 발화검증(utterance verification)방식으로 구분된다. 핵심어 검출 방식은 인식 대상 단어 외의 단어를 별도로 모델링하여 하나의 인식대상 단어처럼 사용하는 방식이고, 발화검증 방식은 각 음소마다 그와 유사한 anti-model을 작성한 후 정상적인 음소 모델과 anti-model과의 유사도를 비교하여 결정하는 방식이다. 본 연구에서는 독립단어 음성인식 시스템에 적용될 수 있는 발화 검증 방식에 의해 음성인식 거절 기능을 구현하였다. 특히 유사도를 결정함에 있어서 산술평균, 기하평균, 조화평균을 사용하고 각각을 비교하여, 기하평균을 사용하는 방식이 우수한 성능을 보임을 알 수 있었다. 음성의 신뢰도(confidence score)를 정규화하기 위해서 Sigmoid 함수를 사용하는데 이 함수의 가중치(weight) 상수의 변화에 대해 인식률을 비교함으로써 가장 적절한 가중치 상수값을 결정하였다. 그리고 유사음소집합(cohort set)에 대한 실험에서는 유사음소집합의 크기가 클수록 더 좋은 성능을 보이는 결과를 얻었다. 음성인식 테스트 결과에서는 신뢰도 임계치 값을 구하고 이 값을 사용하여 인식률을 계산하였으며, 거절의 오류까지 포함된 음성인식률은 약 76%였다. 이 연구결과는 현재 한국통신에서 시험 서비스 중인 음성인식 증권정보 안내 시스템에 적용될 예정이다.

  • PDF

한국어의 사.피동문 처리에 관한 연구:실어증 환자의 처리 양상을 바탕으로 (The Processing of Causative and Passive Verbs in Korean)

  • 문영선;김동휘;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.267-272
    • /
    • 2000
  • 본 연구에서는 한국어의 사·피동문을 실어증 환자가 처리하는 양상에 대하여 살펴보았다. 한국어의 사·피동문은 용언에 파생접사가 붙어 이루어지는 경우와 '-게 하다'나 '-어 지다'와 같이 구문 변형으로 하여, 실어증 환자에게 실험을 하였다. 실험에 참여한 환자는 명칭성 실어증 환자, 이해성 실어증 환자, 표현성 실어증 환자, 전반성 실어증 환자로 구성되어 있다. 본 실험에서는 단어 채워 넣기 과제(word completion task)를 사용하였다. 명칭성 실어증 환자의 경우 피동에서는 처리 오류를 보이는 반면, 사동에는 아무런 문제도 보이지 않았다. 표현성 실어증 환자의 경우, <피동-비변형>에서 오류를 많이 보였다. 이를 통해 한국어의 사·피동은 영어와 달리 통사상의 문제가 아니라는 결론을 내릴 수 있다. 즉 이미 사·피동 접사에 의해 파생된 단어가 어휘부에 저장되어 있고, 각 단어의 논항 정보에 따라 문장이 생성되는 것이다. 표현성 실어증 환자가 피동의 비변형에서 지배적인 오류를 보이는 것은 피동의 비변형이 타동사로서 변형인 피동형에 비해 하나의 논항을 더 취하기 때문이다. 이해성 실어증 환자의 경우 사·피동 생성에 별 어려움을 보이지 않았다. 이는 이해성 실어증 환자가 개별 어휘의 논항 정보에 손실을 적게 입고 있음을 시사하는 결과이다. 본 연구에서는 서로 다른 유형을 보이는 환자들을 대상으로 한국어의 사·피동의 처리양상을 대조한 결과, 첫재 사·피동은 서로 다른 통사, 의미상의 처리 양상을 보이고 있고, 둘째 파생접사가 결합된 형태로 어휘부에 저장되어 있는 개별 사·피동사에 의해 형성되는 것임을 확인하였다.d CO2 quantity causes flame temperature to fall since at high strain retes diluent effect is prevailing and at low strain rates the products inhibits chain branching. It is also found that the contribution of NO production by N2O and NO2 mechanisms are negligible and that thermal mechanism is concentrate on only the reaction zone. As strain rate and CO2 quantity increase, NO production is remarkably augmented.our 10%를 대용한 것이 무첨가한 것보다 많이 단단해졌음을 알 수 있었다. 혼합중의 반죽의 조사형 전자현미경 관찰로 amarans flour로 대체한 gluten이 단단해졌음을 알수 있었다. 유화제 stearly 칼슘, 혹은 hemicellulase를 amarans 10% 대체한 밀가루에 첨가하면 확연히 비용적을 증대시킬 수 있다는 사실을 알 수 있었다. quinoa는 명아주과 Chenopodium에 속하고 페루, 볼리비아 등의 고산지에서 재배 되어지는 것을 시료로 사용하였다. quinoa 분말은 중량의 5-20%을 quinoa를 대체하고 더욱이 분말중량에 대하여 0-200ppm의 lipase를 lipid(밀가루의 2-3배)에 대하여 품질개량제로서 이용했다.

  • PDF