• 제목/요약/키워드: Language Translation

검색결과 559건 처리시간 0.026초

A Unicode based Deep Handwritten Character Recognition model for Telugu to English Language Translation

  • BV Subba Rao;J. Nageswara Rao;Bandi Vamsi;Venkata Nagaraju Thatha;Katta Subba Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.101-112
    • /
    • 2024
  • Telugu language is considered as fourth most used language in India especially in the regions of Andhra Pradesh, Telangana, Karnataka etc. In international recognized countries also, Telugu is widely growing spoken language. This language comprises of different dependent and independent vowels, consonants and digits. In this aspect, the enhancement of Telugu Handwritten Character Recognition (HCR) has not been propagated. HCR is a neural network technique of converting a documented image to edited text one which can be used for many other applications. This reduces time and effort without starting over from the beginning every time. In this work, a Unicode based Handwritten Character Recognition(U-HCR) is developed for translating the handwritten Telugu characters into English language. With the use of Centre of Gravity (CG) in our model we can easily divide a compound character into individual character with the help of Unicode values. For training this model, we have used both online and offline Telugu character datasets. To extract the features in the scanned image we used convolutional neural network along with Machine Learning classifiers like Random Forest and Support Vector Machine. Stochastic Gradient Descent (SGD), Root Mean Square Propagation (RMS-P) and Adaptative Moment Estimation (ADAM)optimizers are used in this work to enhance the performance of U-HCR and to reduce the loss function value. This loss value reduction can be possible with optimizers by using CNN. In both online and offline datasets, proposed model showed promising results by maintaining the accuracies with 90.28% for SGD, 96.97% for RMS-P and 93.57% for ADAM respectively.

Representing Topic-Comment Structures in Chinese

  • Pan, Haihua;Hu, Jianhua
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.382-390
    • /
    • 2002
  • Shi (2000) claims that topics must be related to a syntactic position in the comment, thus denying the existence of dangling topics in Chinese. Under Shi's analysis, the dangling topic sentences in Chinese are not topic-comment but subject-predicate sentences. However, Shi's arguments are not without problems. In this paper we argue that topics in Chinese can be licensed not only by a syntactic gap but also by a semantic gap/variable without syntactic realization. Under our analysis, all the dangling topics discussed in Shi (2000) are, in fact, not subjects but topics licensed by a semantic gap/variable that can turn the relevant comment into an open predicate, thus licensing dangling topics and deriving well-formed topic-comment constructions. Our analysis fares better than Shi's in not only unifying the licensing mechanism of a topic to an open predicate without considering how the open predicate is derived, but also unifying the treatment of normal and dangling topics in Chinese,

  • PDF

영-한 기계번역 성능 평가 연구 (Towards a Methodology for Evaluating English-to-Korean Machine Translation Systems)

  • 시정곤;김원경;고창수
    • 한국언어정보학회지:언어와정보
    • /
    • 제4권2호
    • /
    • pp.1-26
    • /
    • 2000
  • The purpose of this paper is to establish the standard method of evaluation English-to-Korean MT systems We focus on test suites, evaluation procedure and evaluation results. Four computer programs on the market are tested on a test suite consisting of 1,501 sentence, The quality of translation and the capacity of MT system are the key points for evaluation . The sentences in the suite are classified according to the grammatical properties they reveal. The classificatory scheme has the structure of a directory: each sentence belongs to a subclass, which belongs to a major class,. We place the sentences in the test suite on a scale of difficulty (hard ordinary easy) and each output sentence is graded on a scale of four accuracy levels. We also test the programs with respect to their speed.

  • PDF

음성/영상 연동성능 향상을 위한 입술움직임 영상 추적 테스트 환경 구축 (A Lip Movement Image Tracing Test Environment Build-up for the Speech/Image Interworking Performance Enhancement)

  • 이수종;박준;김응규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.328-329
    • /
    • 2007
  • 본 논문은 로봇과 같이 외부 음향잡음에 노출되어 있는 상황 하에서, 대면하고 있는 사람이 입술을 움직여 발성하는 경우에만 음성인식 기능이 수행되도록 하기 위한 방안의 일환으로, 입술움직임 영상을 보다 정확히 추적하기 위한 테스트 환경 구현에 관한 것이다. 음성구간 검출과정에서 입술움직임 영상 추적결과의 활용여부는 입술움직임을 얼마나 정확하게 추적할 수 있느냐에 달려있다. 이를 위해 영상 프레임율 동적 제어, 칼라/이진영상 변환, 순간 캡쳐, 녹화 및 재생기능을 구현함으로써, 다각적인 방향에서 입술움직임 영상 추적기능을 확인해 볼 수 있도록 하였다. 음성/영상기능을 연동시킨 결과 약 99.3%의 연동성공율을 보였다.

  • PDF

Imaging a scene from experience given verbal experssions

  • Sakai, Y.;Kitazawa, M.;Takahashi, S.
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1995년도 Proceedings of the Korea Automation Control Conference, 10th (KACC); Seoul, Korea; 23-25 Oct. 1995
    • /
    • pp.307-310
    • /
    • 1995
  • In the conventional systems, a human must have knowledge of machines and of their special language in communicating with machines. In one side, it is desirable for a human but in another side, it is true that achieving it is very elaborate and is also a significant cause of human error. To reduce this sort of human load, an intelligent man-machine interface is desirable to exist between a human operator and machines to be operated. In the ordinary human communication, not only linguistic information but also visual information is effective, compensating for each others defect. From this viewpoint, problem of translating verbal expressions to some visual image is discussed here in this paper. The location relation between any two objects in a visual scene is a key in translating verbal information to visual information, as is the case in Fig.l. The present translation system advances in knowledge with experience. It consists of Japanese Language processing, image processing, and Japanese-scene translation functions.

  • PDF

A comparison between Korean and Mongolian eomi and josa for Korean to Mongolian machine translation system

  • Enkhsaruul, A.;Song, Chang Geun;Kim, Yu-Seop
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-232
    • /
    • 2007
  • In this paper we propose comparison of both verb and noun endings between Korean and Mongolian languages. It is based on the similarity between two languages which have the same sentence structures and their eomi and josa structure. Korean verb and noun endings match into those of corresponding Mongolian endings. Josa and eomi are classified as a one-to-one, a one-to-many, and a many-to-many cases as well as some abnormal cases. In order to encourage development of Korean to Mongolian machine translation system, this paper would introduce one of the significant units in grammar.

  • PDF

뉴스 타이틀 번역을 위한 중한 기계번역 시스템 (Chinese-Korean Machine Translation System for News Title Translation)

  • 황금하;송희정;김지현;송영미;강원석;서충원;채영숙;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.350-357
    • /
    • 2000
  • 본 논문은 근 몇 년간 꾸준히 진행되어진 중한 기계번역시스템에 대한 연구의 기초 위에서, 뉴스 타이틀 번역이라는 특정 도메인에 초점을 맞추어 이의 언어적 특성을 살펴보고, 중한 언어적 유사성에 기반 한 뉴스 타이틀 번역을 위한 중한 기계번역시스템에 대하여 설명한다.

  • PDF

ExoBrain을 위한 한국어 의미역 가이드라인 및 말뭉치 구축 (Korean Proposition Bank Guidelines for ExoBrain)

  • 임수종;권민정;김준수;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.250-254
    • /
    • 2015
  • 본 논문은 한국어 의미역을 정의하고, 기계학습에 기반하여 한국어 의미역 인식 기술을 개발할 때 필요한 학습 말뭉치를 구축할 때 지켜야할 가이드라인을 제시하고자 한다. 한국어 의미역 정의는 전세계적으로 널리 쓰이고 있는 Proposition Bank를 따르면서, 한국어의 특성을 반영하였다. 또한 정의된 의미역 및 태깅 가이드라인에 따라 반자동 태깅 툴을 이용하여 말뭉치를 구축하였다.

  • PDF

도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구 (A Study of Semantic Role Labeling using Domain Adaptation Technique for Question)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF

의미 정보를 이용한 한국어 의미역 인식 연구 (A Study of Korean Semantic Role Labeling using Word Sense)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-22
    • /
    • 2015
  • 기계학습 기반의 의미역 인식에서 주로 어휘, 구문 정보가 자질로 주로 쓰이지만, 의미 정보를 분석하는 의미역 인식은 단어의 의미 정보 또한 매우 주요한 정보이다. 그러나, 기존 연구에서는 의미 정보를 활용할 수 있는 방법이 제한되어 있기 때문에, 소수의 연구만 진행되었다. 본 논문에서는 동형이의어 수준의 의미 애매성 해소 기술, 고유 명사에 대한 개체명 인식 기술, 의미 정보에 기반한 필터링, 유의어 사전을 이용한 클러스터 및 기존 프레임 정보를 확장하는 방법을 제안한다. 제안하는 방법은 기존 연구 대비 뉴스 도메인인 Korean Propbank는 3.14, 위키피디아 문서 기반의 WiseQA 평가셋인 GS 3.0에서는 6.57의 성능 향상을 보였다.

  • PDF