• 제목/요약/키워드: compound noun

검색결과 68건 처리시간 0.021초

한국어-일본어 기계번역 시스템의 수식어 처리와 중문처리 (Modifiers and Compound Sentences Processing of a Korean-Japanese Machine Translation System)

  • 주인숙;백모현;진중화;임선태;임인칠
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1046-1049
    • /
    • 1987
  • This paper proposes a Korean-Japanese Machine Translation System that processes unregistered words, modifiers and compound sentences. In mophological analysis, the unregistered words are processed by using unregistered word processing algorithm. The modifiers are processed by consulting noun-attributes and grammar rules. The compound sentence processing algorithm recognizes whether the sentence that includes commas is compound sentence or not. This system performs on IBM-PC/AT DOS using Prolog-1.

  • PDF

미등록어 처리가 강화된 복합명사 분해 (Compound Noun Analysis Strengthened Unknown Noun Processing)

  • 김응균;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.40-46
    • /
    • 2003
  • 본 논문에서는 분해 패턴을 이용한 재사용 분해 알고리즘과 외래어 인식, 이름 명사 인식, 지명 인식에 의한 미등록어 추정을 이용한 복합명사 분해 방법을 제안한다. 재사용 분해 알고리즘은 현재 분해되는 음절보다 짧은 길이의 음절에서 사용된 분해 방법을 재사용하여 분해가 이루어짐을 의미한다. 외래어 인식에서는 한국어 음절에서 비교적 사용 빈도가 낮은 음절들로 외래어가 구성이 됨을 이용한다. 이름 명사는 한국인의 이름 특성에서 한자 독음을 차용하여 작명이 이루어지기 때문에 일정한 수의 음절이 반복적으로 사용되는 점을 이용하여 인식한다. 지명 인식 방법은 지명이 출현하는 패턴을 분석하여 지명 사전의 검색으로 인식한다. 이와 같이 지명 사전에 의한 지명 인식과 알고리즘에 의한 외래어 및 이름 명사 인식 방법을 사용함으로써 미등록어 추정에 정확성을 높이고 분해 정확율 향상에 기여한다. 실험 결과 미등록어가 포함된 약 1,500어절에 대해 약 98%의 정확율이 나타났고, 미등록어가 사전에 모두 등재된 후의 실험에서는 약 99%의 정확율을 보였다.

  • PDF

영어의 접사 연구: 접사 -en, -ing 를 중심으로 (A study of English affixes: Concentrated on the affixes -en and -ing)

  • 박순봉
    • 영어어문교육
    • /
    • 제15권3호
    • /
    • pp.301-314
    • /
    • 2009
  • This study explores the function of the affixes -en and -ing that could influence the theta-roles of verbs to which the affixes are attached. The two affixes often appear in the synthetic compounds in English. The results are as follows. First, the affixes -en and -ing link the theta-role realized in the subject of the verb to the noun followed, which is proposed as Theta-linking Principle: that is, the affixes -en and -ing link the theta-role realized in the subject of the verb to the noun followed. Second, in the synthetic compounds including the affixes -en and -ing, the left element must not be the subject of the verb, which is the Synthetic Compound Constraint. And the affix -er link thematic roles of the sentential subject, such as Agent, Instrument. Thus, this study aims to find out the function of the affixes on the point of lexical functional approach.

  • PDF

의존관계에 기초한 일본어 키워드 추출방법 (The Method of Deriving Japanese Keyword Using Dependence)

  • 이태헌;정규철;박기홍
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.41-46
    • /
    • 2003
  • 본 논문에서 일본어 키워드 추출을 목적으로 요약문서 중에 떨어진 문자열을 합성하고, 그 문장에 나타난 규칙을 가지고 단어 정보(표기, 품사)와 구문 정보를 이용하여 복합명사고로 된 키워드 추출 방법을 제안한다. 저자 자신이 부여한 학술 논문의 키워드 중에서 문서 중에 그대로 존재하지 않는 키워드의 특징을 분석한 결과로 의존 관계에 의한 복합명사 생성 규칙을 구축한다. 또 문장의 내용과 다른 키워드의 추출을 억제하기 위해 생성규칙에 대한 제약과 중복 단어를 고려한 중요도 결정법을 제안한다. 자연ㆍ 음성언어처리에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 63%가 되어 추출 방법의 유효성을 확인 할 수가 있었다.

접사정보 및 선호패턴을 이용한 복합명사의 역방향 분해 알고리즘 (A Reverse Segmentation Algorithm of Compound Nouns Using Affix Information and Preference Pattern)

  • 류방;백현철;김상복
    • 한국멀티미디어학회논문지
    • /
    • 제7권3호
    • /
    • pp.418-426
    • /
    • 2004
  • 본 논문에서는 음절간 상호정 보를 이용하여 한국어 복합명사의 역방향 분해 알고리즘을 제 안한다. 한국어 복합명사는 그 구조가 한자어에 의해 파생 한것이 대부분이며 음절 상호간 선호 음절이 존재하므로, 이 정보와 접사정보를 복합명사의 분해규칙으로 이용한다. 성능을 평가하기 위해 36061개의 복합명사를 이용하여 본 논문에서 제안한 알고리즘의 분해한 결과 99.3%의 분해 정확율을 얻었다. 실험과 관련한 기존 알고리즘간의 비교에서도 우수한 결과를 얻었으며, 특히 4음절과 5음절 복합명사의 경우 대부분 정확한 분해 결과를 얻었다.

  • PDF

통계적 정보를 이용한 복합명사 검색 모델 (A Compound Term Retrieval Model Using Statistical lnformation)

  • 박영찬;최기선
    • 인지과학
    • /
    • 제6권3호
    • /
    • pp.65-81
    • /
    • 1995
  • 복합명사는 한국어에서 가장 빈번하게 나타나는 색인어의 한 형태로서,영어권 중심의 정보검색 모델로는 다루기가 어려운 언어 현상의 하나이다.복합명사는 2개 이상의 단일어들의 조합으로 이루어져 있고,그 형태 또한 여러가지로 나타나기 때문에 색인과 검색의 큰 문제로 여겨져 왔다.본 논문에서는 복합명사의 어휘적 정보를 단위명사들의 통계적행태(statistical behavior)에 기반 하여 자동 획득하고,이러한 어휘적 정보를 검색에 적용하는 모델을 제시하고자 한다.본 방법은 색인시의 복합명사 인식의 어려움과 검색시의 형태의 다양성을 극복하는 모델로서 한국어를 포함한 동양권의 언어적 특징을 고려한 모델이다.

  • PDF

음절수에 따른 한국어 복합 명사 분리 방안 (A Division Method of Korean Compound Noun by number of syllable)

  • 최재혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.262-267
    • /
    • 1996
  • 한국어 맞춤법 검사기는 문서내에서 발생되는 비표준어 오류, 띄어쓰기/붙여쓰기 오류, 조사/어미 오류, 외래어 오류, 철자 오류 등에 대해서 이에 적합한 대치어를 제시해 준다. 일반적으로 한국어의 맞춤법 오류 중 가장 빈번하게 발생되는 것이 띄어쓰기 오류이며, 이 중에서도 복합 명사에 대한 띄어쓰기 오류가 가장 많이 발생한다. 본 논문에서는 복합 명사에 대한 띄어쓰기 교정 방안으로 복합명사의 음절수에 따라 1개의 결과만을 출력하도록 하는 복합 명사 분리 방안을 제시하며, 또한 복합 명사 분리 시의 사전 참조 횟수를 줄이는 방법을 제안한다.

  • PDF

합성명사 의미해석용 사전 구축을 위한 워크벤치 (Workbench for Constructing Dictionary for Semantic Analysis of Compound Noun)

  • 이경순;김도완;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.149-155
    • /
    • 2000
  • 본 논문에서는 한국어에서 빈번하게 나타나는 합성명사의 의미해석을 하기 위한 워크벤치를 설계하고 구현하였다. 합성명사 의미해석을 위한 사전 구축 지원 워크벤치의 기능은 합성명사를 이루고 있는 명사와 명사가 어떠한 의미관계로 결합하고 있는지를 밝히기 위해서 의미관계 패턴을 정의한다. 정의된 의미관계 패턴을 이용하여 합성명사를 자동적으로 추출한다. 추출된 합성명사 사전을 이용해서 각 명사의 상위개념에 대해서도 의미관계를 반영시켜서 합성명사의 의미관계를 해석할 수 있도록 하는 환경을 제공하고 있다.

  • PDF

자동 정렬을 통한 영한 복합어의 역어 추출 (Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method)

  • 이주호;최기선;이재성
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

복합명사 분리 색인 방법이 문서 클러스터링에 미치는 영향 분석 (An Analysis of the Hierarchical Agglomerative Clustering based on various Compound Noun Indexing Method)

  • 양명석;최성필
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.697-699
    • /
    • 2002
  • 본 논문에서는 복합명사에 대한 색인 방법을 다각적으로 적용하여 계층적 결함 문서 클러스터링 시스템의 결과를 분석하고자 한다. 우선 한글 색인 엔진과 HAC(Hierarchical Agglumerative Clustering) 엔진에 대해서 설명하고 한글 색인엔진에서 제공되는 세가지 복합명사 분석 모드에 대해서 설명한다. 또한 구현된 클러스터링 엔진의 특징과 속도 향상을 위한 기법 등을 설명한다. 실험에서는 다양한 요소를 가지고 클러스터링된 문서 집합에 대한 분석 결과를 보인다. 실험 결과에 대한 분석에서 복합명사에 대한 색인 방법이 문서 클러스터링의 결과에 직접적인 영향을 준다는 것을 보여준다.

  • PDF