• 제목/요약/키워드: 구문 관계 정보

Search Result 244, Processing Time 0.024 seconds

Errors and Their Circumstances in Korean Japanese M/T Systems in Japan (일본의 한일(韓日) 기계번역(機械飜譯) 시스템에 있어서의 오역(誤譯)과 그 언어환경)

  • Kang, Yong-Hee
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.303-310
    • /
    • 1997
  • 일본의 한일(韓日) 기계번역(機械飜譯) 시스템을 평가한 결과 각기 다른 번역 시스템임에도 불구하고 오역(誤譯)의 패턴에 있어서는 유사(類似)한 점이 많았다. 이는 사전(辭典)의 입력 단위와 구문(構文)분석의 해석단계에서 오역(誤譯)의 언어환경에 대비하지 못한 점을 지적할 수 있다. 본 연구는 오역(誤譯)의 TYPE을 언어적 환경과 기계적 환경으로 구분하여 그 영향관계를 밝혀서 오역(誤譯)의 환경에 대비한 사전(辭典)과 그 모듈의 작성을 목적으로 삼는다.

  • PDF

Grammatical Relation Analysis using Support Vector Machine in BioText (바이오 문서에서 지지 벡터 기계를 이용한 문법관계 분석)

  • Park, Kyung-Mi;Hwang, Young-Sook;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.287-292
    • /
    • 2003
  • 동사와 기본구 사이의 문법관계 분석은 품사부착과 기본구 인식이 수행된 상태에서, 동사와 의존관계를 갖는 기본구를 찾고 각 구의 구문적, 의미적 역할을 나타내는 기능태그를 인식하는 작업이다. 본 논문에서는 바이오 문서에서 단백질과 단백질, 유전자와 유전자 사이의 상호작용관계를 자동으로 추출하기 위해서 제안한 문법관계 분석 방법을 적용하고 따라서 동사와 명사고, 전치사고, 종속 접속사의 관계만을 분석하며 기능태그도 정보추출에 유용한 주어, 목적어를 나타내는 태그들로 제한하였다. 기능태그 부착과 의존관계 분석을 통합해 수행하였으며, 지도학습 방법 중 분류문제에서 좋은 성능을 보이는 지지 벡터 기계를 분류기로 사용하였고, 메모리 기반 학습을 사용하여 자질을 추출하였으며, 자료부족문제를 완화하기 위해서 저빈도 단어는 품사 타입 또는 워드넷의 최상위 클래스의 개념을 이용해서 대체하였다. 시험 결과지지 벡터 기계를 이용한 문법관계 분석은 실제 적용시 빠른 수행시간과 적은 메모리 사용으로 상호작용관계 추출에서 효율적으로 사용될 수 있음을 보였다.

  • PDF

Exploiting Chunking for Dependency Parsing in Korean (한국어에서 의존 구문분석을 위한 구묶음의 활용)

  • Namgoong, Young;Kim, Jae-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.7
    • /
    • pp.291-298
    • /
    • 2022
  • In this paper, we present a method for dependency parsing with chunking in Korean. Dependency parsing is a task of determining a governor of every word in a sentence. In general, we used to determine the syntactic governor in Korean and should transform the syntactic structure into semantic structure for further processing like semantic analysis in natural language processing. There is a notorious problem to determine whether syntactic or semantic governor. For example, the syntactic governor of the word "먹고 (eat)" in the sentence "밥을 먹고 싶다 (would like to eat)" is "싶다 (would like to)", which is an auxiliary verb and therefore can not be a semantic governor. In order to mitigate this somewhat, we propose a Korean dependency parsing after chunking, which is a process of segmenting a sentence into constituents. A constituent is a word or a group of words that function as a single unit within a dependency structure and is called a chunk in this paper. Compared to traditional dependency parsing, there are some advantage of the proposed method: (1) The number of input units in parsing can be reduced and then the parsing speed could be faster. (2) The effectiveness of parsing can be improved by considering the relation between two head words in chunks. Through experiments for Sejong dependency corpus, we have shown that the USA and LAS of the proposed method are 86.48% and 84.56%, respectively and the number of input units is reduced by about 22%p.

Analyzing Dependency of Korean Subordinate Clauses Using Support Vector Machine (SVM을 사용한 한국어 종속절의 의존관계 분석)

  • Kim, Sang-Soo;Park, Seong-Bae;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.148-155
    • /
    • 2006
  • 한국어 구문 분석에서 가장 어려운 작업들 중에 하나는 종속절의 의존관계 파악이다. 본 논문에서는 이를 해결하기 위해서 종속절의 의존관계를 걸을 구성하는 서술어부(동사와 어미)의 관련 정보의 유무에 따라 의존관계가 성립한다고 가정했다. 즉 각각의 절들의 서술부의 관련 정보의 유무로 보고, 이진 분류 문제로 이 문제를 해결하였다. 사용한 자질은 정적 자질(static feature)와 동적 자질(dynamic feature)를 구성되어 있다. 정적 자질은 동사와 어미에서 표면적인 어휘 정보이고 이는 단어, POS 테그 및 위치 정보들이다. 동적 자질은 문장에서 절이 가지는 문법적인 형태를 의미하고, 이를 추출하기 위해 간단한 규칙을 만들고 이를 바탕으로 CKY 차트 파서를 통하여 추출하였다. 기계학습 방법으로는 이진 분류 문제에서 널리 사용되는 SVM을 사용하였다. 실험 결과 어휘 정보들 중에서 어미의 정보만 사용하였을 경우는 64.4%의 정확도를 보였고 문법적인 정보인 동적 자질을 사용한 경우는 73.5%로 어휘 정보만을 사용한 경우 보다 9.1%의 성능 향상됨을 보였다

  • PDF

Dependency relation analysis and mutual information technique for ASR rescoring (음성인식 리스코링을 위한 의존관계분석과 상호정보량 접근방법의 비교)

  • Chung, Euisok;Jeon, Hyung-Bae;Park, Jeon-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.164-166
    • /
    • 2014
  • 음성인식 결과는 다수의 후보를 생성할 수 있다. 해당 후보들은 각각 음향모델 값과 언어모델 값을 결합한 형태의 통합 정보를 갖고 있다. 여기서 언어모델 값을 다시 계산하여 성능을 향상하는 접근 방법이 일반적인 음성인식 성능개선 방법 중 하나이며 n-gram 기반 리스코링 접근 방법이 사용되어 왔다. 본 논문은 적절한 성능 개선을 위하여, 대용량 n-gram 모델의 활용 문제점을 고려한 문장 구성 어휘의 의존 관계 분석 접근 방법 및 일정 거리 어휘쌍들의 상호정보량 값을 이용한 접근 방법을 검토한다.

  • PDF

Rule Construction for Determination of Thematic Roles by Using Large Corpora and Computational Dictionaries (대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축)

  • Kang, Sin-Jae;Park, Jung-Hye
    • The KIPS Transactions:PartB
    • /
    • v.10B no.2
    • /
    • pp.219-228
    • /
    • 2003
  • This paper presents an efficient construction method of determination rules of thematic roles from syntactic relations in Korean language processing. This process is one of the main core of semantic analysis and an important issue to be solved in natural language processing. It is problematic to describe rules for determining thematic roles by only using general linguistic knowledge and experience, since the final result may be different according to the subjective views of researchers, and it is impossible to construct rules to cover all cases. However, our method is objective and efficient by considering large corpora, which contain practical osages of Korean language, and case frames in the Sejong Electronic Lexicon of Korean, which is being developed by dozens of Korean linguistic researchers. To determine thematic roles more correctly, our system uses syntactic relations, semantic classes, morpheme information, position of double subject. Especially by using semantic classes, we can increase the applicability of the rules.

Visualization of Path Expressions in a Graphical Object-Oriented Query Language (그래픽 객체지향 질의어에서 경로식의 표현방안)

  • Koo, Yeo-Woon;Cho, Wan-Sup;Rhee, Chung-Se;Choi, Wan
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.260-262
    • /
    • 2000
  • 인터넷-웹 환경에서 객체관계형 데이터베이스를 위한 시각적 질의어(graphical query language)를 설계할 때 복잡한 질의 조건을 간단하고도 직관적으로 표현할 수 있도록 지원하는 것이 중요한 연구과제가 되고 있다. 본 논문에서는 객체관계형 데이터베이스의 경로식 표현을 인터넷/웹 기반으로 설계, 구현하였다. 시각적 표현 기밥을 사용하여 객체관계형 데이터베이스의 스키마(schema)와 질의어를 하나의 통일된 시각적 표시법으로 표현하며, 객체관계형 질의어인 경로식 표현에도 간단한 시각적 표시법을 이용하여 표현한다. 이 그래픽 질의어의 가장 큰 특징은 기존의 텍스트 기반 질의어들에 비하여 간단하고 직관적인 구문을 가지며, 사용자에게 편리한 인터넷/웹 기반의 데이터베이스 인터페이스를 제공한다.

  • PDF

Visualization Techniques for Massive Source Code (대용량 소스코드 시각화기법 연구)

  • Seo, Dong-Su
    • The Journal of Korean Association of Computer Education
    • /
    • v.18 no.4
    • /
    • pp.63-70
    • /
    • 2015
  • Program source code is a set of complex syntactic information which are expressed in text forms, and contains complex logical structures. Structural and logical complexity inside source code become barriers in applying visualization techniques shown in traditional big-data approaches when the volume of source code become over ten-thousand lines of code. This paper suggests a procedure for making visualization of structural characteristics in source code. For this purpose, this paper defines internal data structures as well as inter-procedural relationships among functions. The paper also suggests a means of outlining the structural characteristics of source code by visualizing the source codes with network forms The result of the research work can be used as a means of controling and understanding the massive volume of source code.

An Efficient Algorithm for Detecting Tables in HTML Documents (HTML 문서의 테이블 식별을 위한 효율적인 알고리즘)

  • Kim Yeon-Seok;Lee Kyong-Ho
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.10
    • /
    • pp.1339-1353
    • /
    • 2004
  • < TABLE > tags in HTML documents are widely used for formatting layout of Web documents as well as for describing genuine tables with relational information. As a prerequisite for information extraction from the Web, this paper presents an efficient method for sophisticated table detection. The proposed method consists of two phases: preprocessing and attribute-value relations extraction. For the preprocessing where genuine or ungenuine tables are filtered out, appropriate rules are devised based on a careful examination of general characteristics of < TABLE > tags. The remaining is detected at the attribute-value relations extraction phase. Specifically, a value area is extracted and checked out whether there is a syntactic coherency Futhermore, the method looks for a semantic coherency between an attribute area and a value area of a table that may be inappropriate for the syntactic coherency checkup. Experimental results with 11,477 < TABLE > tags from 1,393 HTML documents show at the method has performed better compared with previous works, resulting in a precision of 97.54% and a recall of 99.22% in average.

  • PDF

Prediction of Prosodic Break Using Syntactic Relations and Prosodic Features (구문 관계와 운율 특성을 이용한 한국어 운율구 경계 예측)

  • Jung, Young-Im;Cho, Sun-Ho;Yoon, Ae-Sun;Kwon, Hyuk-Chul
    • Korean Journal of Cognitive Science
    • /
    • v.19 no.1
    • /
    • pp.89-105
    • /
    • 2008
  • In this paper, we suggest a rule-based system for the prediction of natural prosodic phrase breaks from Korean texts. For the implementation of the rule-based system, (1) sentence constituents are sub-categorized according to their syntactic functions, (2) syntactic phrases are recognized using the dependency relations among sub-categorized constituents, (3) rules for predicting prosodic phrase breaks are created. In addition, (4) the length of syntactic phrases and sentences, the position of syntactic phrases in a sentence, sense information of contextual words have been considered as to determine the variable prosodic phrase breaks. Based on these rules and features, we obtained the accuracy over 90% in predicting the position of major break and no break which have high correlation with the syntactic structure of the sentence. As for the overall accuracy in predicting the whole prosodic phrase breaks, the suggested system shows Break_Correct of 87.18% and Juncture Correct of 89.27% which is higher than that of other models.

  • PDF