• 제목/요약/키워드: Word translation

검색결과 146건 처리시간 0.022초

웹 기반하의 국어의 로마자 전사 표기 자동 변환 시스템 (Automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.108-114
    • /
    • 2002
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 국어의 로마자 표기 자동변환이 가능하게 설계 및 구현하였다. 특히, 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 유니코드(Unicode)와 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(')등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

온톨로지 기반의 지능형 번역 에이전트를 이용한 실시간 번역 연구 (Using Machine Translation Agent Based on Ontology Study of Real Translation)

  • 김수경;김경아;안기홍
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2006년도 춘계학술대회
    • /
    • pp.229-233
    • /
    • 2006
  • 기계번역(Machine Translaton, MT), 다국어 정보 검색, 의미 정보 검색 등에 대한 연구는 시소러스, 지식베이스, 사전 검색, 의미망, 코퍼스등과 같은 다양한 방법으로 이루어지고 있다. 시맨틱 웹이 등장과 시맨틱 웹 기반 기술의 발전에 따라 위 연구들을 시맨틱 웹에 적용시킬 필요성도 제안되었다. 특히 한국어 시소러스, 워드넷(WordNet), 전자 세종 사전, 가도까와(Kadokawa) 시소러스와 같은 지식베이스가 개발되었으나 활용 분야에 따라 그 구축 방법론이 다르게 적용되어, 위 연구에 효과적으로 통용될 수 있는 지식베이스는 실질적으로 구축되지 못한 실정이다. 따라서 본 연구에서는 세종 사전과 가도까와 시소러스, 한/일 기계 번역 사전 그리고 전문 용어 사전을 기반으로 한국어와 일본어 지식베이스를 위한 사전 온톨로지 서버를 정의하여 의미 정보를 구성하고, Semantic Web Rule Markup Language (이하 SWRL)을 이용해 구문 정보 규칙을 정의한다. 그리고 SWRL 기반 정방향 추론 엔진을 이용하여 번역에 필요한 추론 엔진을 구성하고 문장 구문형성 규칙 추론 엔진을 통해 사용자에게 한국어와 일본어의 문장 구성 변환을 제공한다. 본 연구는 현재 기계 번역이 갖고 있는 다의성, 술부 어순의 차이, 경어체 등 아직 해결해야 할 많은 부분들에 대한 해결 방안으로서 시맨틱 웹 기반 기술과의 활용방안을 제시하고자 한다.

  • PDF

디자인 피쳐에 의존하지 않는 솔리드 모델의 수정 (Modification of Solid Models Independent of Design Features)

  • 우윤환
    • 한국CDE학회논문집
    • /
    • 제13권2호
    • /
    • pp.131-138
    • /
    • 2008
  • With the advancements of the Internet and CAD data translation techniques, more CAD models are transferred from a CAD system to another through the network and interoperability is getting a common word in the CAD industry. However, when a CAD model is translated for an incompatible system into a neutral format such as STEP or IGES, its precious feature information is lost. When this feature information is lost, the advantage of feature based modeling is not valid any longer, and modification for the model is purely dependent on geometric and topological manipulations. However, the capabilities of the existing methods to modify these feature-independent models are limited as the modification involves a topological change in the model. To address this issue, we present a volumetric method to modify the solid models in neutral format. First, this method selectively decomposes the solid model to separate the portion of interest called feature volume. Next, the designer modifies the feature volume without concerning a topological change. Finally, the feature volume is united with the original solid model to complete the modification process. The results of test cases are presented to attest the usefulness of the proposed method.

"영추(靈樞).오십영(五十營)"에 대한 연구(硏究) (The Study on the "Oh Sib Young(五十營)" of the "Young Chu(靈樞)")

  • 강경래;육상원
    • 대한한의학원전학회지
    • /
    • 제20권1호
    • /
    • pp.39-48
    • /
    • 2007
  • The first chapter of the Oh Sib Young(五十營) explains that the length of the measurement of channels(脈度) is sixteen zahngs two cheocks(16丈2尺). The second chapter says that nourishing gi(營氣) circles around(周行) the whole body 50 times during 13,500 times of breathing in twenty-four hours. The third chapter explains that the total length reaches 810 zhangs(810丈) if it circles around 50 times. Through construction of word, comparison of annotation, investigation, literal translation, free translation, conclusion analysis of these ancient writings, the following results were obtained. In the second chapter, "twenty five bun(二十五分)" should be modified into "twenty bun one Ii six ho(二十分一釐六毫) " or "twenty bun and the rest(二十分有奇)", "forty bun(四十分)" should be changed into "forty bun sam Ii two ho(四十分三釐二毫)" or "forty bun and the rest", and "five su twenty bun(五宿二十分)" should be modified into "five su twenty one bun six li(五宿二十分六釐)" or "two hundred ten bun and the rest(二百十分有奇)" in order to clarify their meanings.

  • PDF

웹 기반하의 국어의 로마자 표기 자동 변환 시스템 설계 (Design of automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.6-11
    • /
    • 2001
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 자동변환이 가능하게 설계하였다. 특히 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 레이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(´)등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법 (Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus)

  • 박에스더;이형규;김민정;임해창
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.57-78
    • /
    • 2011
  • 패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을 때 번역률이 향상됨을 확인할 수 있었다.

  • PDF

딥러닝 기반 한국어 맞춤법 교정을 위한 오류 유형 분류 및 분석 (Classification and analysis of error types for deep learning-based Korean spelling correction)

  • 구선민;박찬준;소아람;임희석
    • 한국융합학회논문지
    • /
    • 제12권12호
    • /
    • pp.65-74
    • /
    • 2021
  • 최근 기계 번역 기술과 자동 노이즈 생성 방법론을 기반으로 한국어 맞춤법 교정 연구가 활발히 이루어지고 있다. 해당 방법론들은 노이즈를 생성하여 학습 셋과 데이터 셋으로 사용한다. 이는 학습에 사용된 노이즈 외의 노이즈가 테스트 셋에 포함될 가능성이 낮아 정확한 성능 측정이 어렵다는 한계점이 존재한다. 또한 실제적인 오류 유형 분류 기준이 없어 연구마다 사용하는 오류 유형이 다르므로 질적 분석에 어려움을 겪고 있다. 이를 해결하기 위해 본 논문은 딥러닝 기반 한국어 맞춤법 교정 연구를 위한 새로운 '오류 유형 분류 체계'를 제안하며 이를 바탕으로 기존 상용화 한국어 맞춤법 교정기(시스템 A, 시스템 B, 시스템 C)에 대한 오류 분석을 수행하였다. 분석결과, 세 가지 교정 시스템들이 띄어쓰기 오류 외에 본 논문에서 제시한 다른 오류 유형은 교정을 잘 수행하지 못했으며 어순 오류나 시제 오류의 경우 오류 인식을 거의 하지 못함을 알 수 있었다.

코퍼스를 기반으로 한 어휘 과제가 고등학생의 영어 어휘 학습과 태도에 미치는 영향 (The effects of corpus-based vocabulary tasks on high school students' English vocabulary learning and attitude)

  • 이현진;이은주
    • 영어어문교육
    • /
    • 제16권4호
    • /
    • pp.239-265
    • /
    • 2010
  • This study investigates the effects of corpus-based vocabulary tasks on the acquisition of English vocabulary in an attempt to explore the influence of corpus use on EFL pedagogy. For this to be realized, a total of 40 Korean high school students participated in the study over a 4-week period. An experimental group used a set of corpus-based tasks for vocabulary learning, whereas a control group carried out a traditional task (i.e., the L1-L2 translation) for vocabulary learning. To assess learning gains, the students were asked to complete the pre- and post-treatment tests measuring the word form, meaning, and use aspects of target lexical items. Results of the study indicate that in the experimental group the corpus-based vocabulary tasks were beneficial for the learning of word forms and use. In particular, corpus-based benefits were greatest in the low-proficiency EFL learners' collocational aspects of vocabulary use. On the other hand, in the control group, the traditional vocabulary tasks benefited the meaning aspects of target vocabulary items the most. In addition, survey results revealed that most students were positive about the corpus-based learning experience although some expressed reservations about the heavy cognitive load and the time-consuming nature of the analysis of corpus data primarily due to learners' lack of language proficiency.

  • PDF

성서에서 언급되는 농산물에 관한 연구 -곡물을 중심으로- (A Study on The Agricultural Products Mentioned in the Bible with Priority to the Cereals)

  • 김성미;이광
    • 동아시아식생활학회지
    • /
    • 제8권4호
    • /
    • pp.441-453
    • /
    • 1998
  • Varieties of the cereals produced in the Biblical times and the ways these cereal foods have been grafted into Korean food culture has been pursued, and the regulations of agricultural life and the metaphors or parables of cereals represented throughout the Bible have been studied. The word "grain" appears eight times in the KJV and one hundred seventeen times in the RSV. On the other hand, the word "corn" shows up one hundred and one times in the KJV but not in the RSV at all. Wheat, one of the earliest cultivated and the most important grains for food is mentioned fifty two times in KJV and generally the rich in those days lived on wheat in the parched state or in the form of bread. Barley, one of the staple cereal crops of Palestine is referred to thirty six times in the KJV. It was less expensive than wheat and so was used mainly for the food of such animals as horses, donkeys and cattle, but sometimes it was mixed with flour and used for making bread for men, mostly for Poor men. The spelt (in ASV and RSV) and the rie(in KJV) appearing in Exodus 9:32 is a kind of grain, which is translated into Na-mack (in Hangul Revised Bible ; HRB), Ssal-bori (in Hangul Common Translated Bible : HCB) and Ho-mil (in Hangul King James Bible; HKJB) but which should be put into Spelt-mil in Korean. The lentil appearing in Genesis 25 : 34 is translated into Pat (red-bean) and Bul-kong respectively in HRB and HCB but the same word in the Second Book of Samuel is translated into Pat in both HRB and HCB. HCB translates lentil into Bul-kong in Genesis and into Pat in the Second Book of Samuel (23:11). HCB and HKJB which put lentil into Pat in previous parts translate the word into Nok-tu in the Second Book of Samuel. The word, lentil here should be put into lentil-kong and parched pulse into "Poken-Chong-ja" not into Poken-Nok-tu. Millet which is translated into Cho should be put into Gui-jang. filches should not be classified as a grain or a cereal but as a flavor or a condiment, so the word filches should be put into So-Hoi-hyang or Hoi-hyang. Regulations in reference to agriculture are included in the Bible. That is, it is seen that the Bible regulates the observance of the sabbatical year and feasts, the partition of land, how to sow and so on. It is also observed that grains are used for metaphors or parables: wheat represents the peaceful times and straws are compared to trifles. As seen above, there should be more prudent examinations and standards for the translation of grains into Pat, Pul-kong, Nok-tu, Gui-ree, Ssal-bo-ri and Na-mack.i-ree, Ssal-bo-ri and Na-mack.

  • PDF

자연어처리 모델을 이용한 이커머스 데이터 기반 감성 분석 모델 구축 (E-commerce data based Sentiment Analysis Model Implementation using Natural Language Processing Model)

  • 최준영;임희석
    • 한국융합학회논문지
    • /
    • 제11권11호
    • /
    • pp.33-39
    • /
    • 2020
  • 자연어 처리 분야에서 번역, 형태소 태깅, 질의응답, 감성 분석등 다양한 영역의 연구가 활발히 진행되고 있다. 감성 분석 분야는 Pretrained Model을 전이 학습하여 단일 도메인 영어 데이터셋에 대해 높은 분류 정확도를 보여주고 있다. 본 연구에서는 다양한 도메인 속성을 가지고 있는 이커머스 한글 상품평 데이터를 이용하고 단어 빈도 기반의 BOW(Bag Of Word), LSTM[1], Attention, CNN[2], ELMo[3], KoBERT[4] 모델을 구현하여 분류 성능을 비교하였다. 같은 단어를 동일하게 임베딩하는 모델에 비해 문맥에 따라 다르게 임베딩하는 전이학습 모델이 높은 정확도를 낸다는 것을 확인하였고, 17개 카테고리 별, 모델 성능 결과를 분석하여 실제 이커머스 산업에서 적용할 수 있는 감성 분석 모델 구성을 제안한다. 그리고 모델별 용량에 따른 추론 속도를 비교하여 실시간 서비스가 가능할 수 있는 모델 연구 방향을 제시한다.