• 제목/요약/키워드: Compound words

검색결과 97건 처리시간 0.022초

A Deterministic Method for Structural Analysis of Compound Words in Japanese

  • Han, Dongli;Ito, Takeshi;Furugori, Teiji
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.79-91
    • /
    • 2002
  • Structural analysis of compound words is necessary and an important process in natural language processing. Proposed here is a corpus- and statistics- based method for the structural analysis of compound words in Japanese. We determine the structure of a compound word by using Internet corpus and calculating the strength of word association among its constituent words. Experiments with 5, 6, 7, and 8 kanji compound words show that our method works well and its performance is better than those of other comparable studies.

  • PDF

미등록어의 의미 범주 분석을 이용한 복합명사 분해 (Segmentation of Korean Compound Nouns Using Semantic Category Analysis of Unregistered Nouns)

  • 강유환;서영훈
    • Journal of Information Technology Applications and Management
    • /
    • 제11권4호
    • /
    • pp.95-102
    • /
    • 2004
  • This paper proposes a method of segmenting compound nouns which include unregistered nouns into a correct combination of unit nouns using characteristics of person's names, loanwords, and location names. Korean person's name is generally composed of 3 syllables, only relatively small number of syllables is used as last names, and the second and the third syllables combination is somewhat restrictive. Also many person's names appear with clue words in compound nouns. Most loanwords have one or more syllables which cannot appear in Korean words, or have sequences of syllables different from usual Korean words. Location names are generally used with clue words designating districts in compound nouns. Use of above characteristics to analyze compound nouns not only makes segmentation more accurate, helps natural language systems use semantic categories of those unregistered nouns. Experimental results show that the precision of our method is approximately 98% on average. The precision of human names and loanwords recognition is about 94% and about 92% respectively.

  • PDF

Effective Thematic Words Extraction from a Book using Compound Noun Phrase Synthesis Method

  • Ahn, Hee-Jeong;Kim, Kee-Won;Kim, Seung-Hoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권3호
    • /
    • pp.107-113
    • /
    • 2017
  • Most of online bookstores are providing a user with the bibliographic book information rather than the concrete information such as thematic words and atmosphere. Especially, thematic words help a user to understand books and cast a wide net. In this paper, we propose an efficient extraction method of thematic words from book text by applying the compound noun and noun phrase synthetic method. The compound nouns represent the characteristics of a book in more detail than single nouns. The proposed method extracts the thematic word from book text by recognizing two types of noun phrases, such as a single noun and a compound noun combined with single nouns. The recognized single nouns, compound nouns, and noun phrases are calculated through TF-IDF weights and extracted as main words. In addition, this paper suggests a method to calculate the frequency of subject, object, and other roles separately, not just the sum of the frequencies of all nouns in the TF-IDF calculation method. Experiments is carried out in the field of economic management, and thematic word extraction verification is conducted through survey and book search. Thus, 9 out of the 10 experimental results used in this study indicate that the thematic word extracted by the proposed method is more effective in understanding the content. Also, it is confirmed that the thematic word extracted by the proposed method has a better book search result.

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해 (Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.74-79
    • /
    • 2019
  • 기존의 복합명사 분해 알고리즘은 미등록어 단위명사들이 포함된 복합명사를 분해할 때 미등록어를 분리하기 어려운 문제가 발생한다. 이는 현실적으로 모든 고유명사, 신조어, 외래어 등의 모든 단위 명사를 사전에 등록하는 것은 불가능하다는 한계가 존재하기 때문이다. 이 문제를 해결하기 위하여 복합명사 분해 문제를 태그 열 부착(sequence labeling) 문제로 정의하고 음절 단위 임베딩과 딥러닝 기법을 이용하는 복합명사 분해 방법을 제안한다. 단위명사 사전을 구축하지 않고 미등록 단위명사를 인식하기 위하여 복합명사를 구성하는 각 음절들을 연속적인 벡터 공간에 표현하여 LSTM과 선형체인(linear-chain) CRF를 이용하는 방식으로 복합명사를 단위명사들로 분해한다.

한국어-일본어 기계번역 시스템의 수식어 처리와 중문처리 (Modifiers and Compound Sentences Processing of a Korean-Japanese Machine Translation System)

  • 주인숙;백모현;진중화;임선태;임인칠
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1987년도 전기.전자공학 학술대회 논문집(II)
    • /
    • pp.1046-1049
    • /
    • 1987
  • This paper proposes a Korean-Japanese Machine Translation System that processes unregistered words, modifiers and compound sentences. In mophological analysis, the unregistered words are processed by using unregistered word processing algorithm. The modifiers are processed by consulting noun-attributes and grammar rules. The compound sentence processing algorithm recognizes whether the sentence that includes commas is compound sentence or not. This system performs on IBM-PC/AT DOS using Prolog-1.

  • PDF

한영 혼용문에서 괄호 안 대역어구의 자동 인식 (Automatic Recognition of Translation Phrases Enclosed with Parenthesis in Korean-English Mixed Documents)

  • 이재성;서영훈
    • 정보처리학회논문지B
    • /
    • 제9B권4호
    • /
    • pp.445-452
    • /
    • 2002
  • 한영 혼용문에서 번역된 전문용어 등을 사용할 때, 이해를 돕기 위해 그 뒤의 괄호 안에 원어 풀이를 함께 쓰는 경우가 많다. 본 논문에서는 괄호가 사용된 구가 대역어구 관계인지를 판단하고, 어느 범위까지 대역어구인지를 기본사전을 이용하여 확률적으로 계산하고 인식하는 방법을 제시한다. 특히, 사전에 표제어로서 혹은 대역어로서 존재하지 않는 단어들을 처리하기 위해 음운유사도 일치, 대역어 부분일치의 방법과 복합어 처리를 위해 부분일치 방법을 새로 제안하였다. 각 방법들을 단계별로 실험하여 0.4F값$(\alpha$를 0.4로 설정한 F값)으로 측정한 결과, 기본 실험 방법인 사전 대역어 완전일치방법의 경우 23.8%인데 비해, 대역어 부분일치와 음운유사도 일치를 흔합한 방법이 75.9%, 복합어 처리를 추가한 방법이 77.3%의 값을 보여 성능이 최고 3.25배 향상되었다.

사이시옷이 단어 재인에 미치는 영향 (Processing of Korean Compounds with Saisios)

  • 배성봉;이광오
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.349-366
    • /
    • 2012
  • 사이시옷 표기가 단어 의미 파악에 미치는 영향을 조사하기 위하여 두 개의 실험을 실시하였다. 실험 1에서는 사이시옷 표기의 친숙도를 조작하여 사이시옷 표기 유무의 효과를 알아보았다. 사이시옷 표기가 친숙한 단어(나뭇잎 > 나무잎)의 경우에는 사이시옷을 생략한 조건(나무잎)보다 사이시옷을 삽입한 조건(나뭇잎)에서 의미 파악이 빨랐으나, 사이시옷 표기가 친숙하지 않은 단어(북엇국 < 북어국)의 경우에는 그 반대의 결과가 나타났다. 실험 2에서는 사이시옷 표기의 친숙도가 중간 정도인 단어(조갯국 = 조개국)를 이용하여, 사이시옷의 유무가 단어 의미 이해에 미치는 영향을 조사하였다. 사이시옷을 표기한 조건(조갯국)에서 보다 사이시옷을 생략한 조건(조개국)에서 단어의 의미 이해가 더 빨랐다. 실험 1과 2의 결과를 Libben[9][10]의 APPLE 모형을 이용하여 설명하고자 하였으며, 현행 한글맞춤법의 사이시옷 규정에 대한 시사점을 논의하였다.

  • PDF

문화 콘텐츠 영향의 신조 중국어 고찰 (A Study of the New Chinese Words Under the Influence of Culture Content)

  • 맹상삼;이광호
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권8호
    • /
    • pp.131-142
    • /
    • 2019
  • 본 논문은 문화콘텐츠의 영향을 받아 생긴 신조 중국어를 고찰하여 분석한 것이다. 한국 문화 산업이 크게 발달하면서 세계 곳곳에 한류 열풍을 일으켰다. 이를 통해 많은 한국어 단어, 신조 중국어, 그리고 문화에 대한 새로운 의식과 개념이 중국으로 들어오기 시작했다. 그중에서 한류 콘텐츠로 인해 중국 인터넷에서 나타난 신조어가 적지 않다. 신조 중국어는 한류 팬과 한국어 학습자가 많아지면서 폭넓게 사용하는 추세를 보인다. 한류 콘텐츠 영향의 중국 신조 중국어는 중국 신조 중국어의 중요한 부분이라고 여긴다. 이를 정확하게 인식하고 이해하기 위하여 먼저 중국 신조 중국어 구성방식의 6가지 분류, 즉 비유적 의미, 대치, 외래어 차용, 축약, 합성, 파생을 지적하였다. 이러한 구성방식은 한류 콘텐츠 영향의 중국 인터넷 단어에도 그대로 작용하여 3가지 한류 신조 중국어, 즉 한자로 표시하는 신조어, 알파벳으로 표시하는 신조어, 의미 확장, 그리고 새로운 의미의 획득을 통한 신조어로 분석하여 제시하였다. 그리고 그 생성 원인과 전망을 분석하였다. 그리고 각 분류에 따라 구체적인 뉴스 제목이나 노래 등을 실례로 들어 한류 콘텐츠 영향의 중국 신조 중국어의 현상을 확인하였다. 이러한 신조 중국어가 중국 어휘를 풍부하게 만들고, 소통을 순조롭게 하는 데 도움을 줄 것으로 기대한다.

영한 기계번역 시스템의 영한 변환사전 확장 도구 (English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권1호
    • /
    • pp.35-42
    • /
    • 2013
  • 영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.

대중문화 콘텐츠 변화에 따른 한중 신조어 비교 연구 (A Comparative Study on New Words of Korean and Chinese According to Changes in Popular Culture Contents)

  • 맹상삼;이광호
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권6호
    • /
    • pp.125-137
    • /
    • 2020
  • 본 논문은 대중문화 콘텐츠 변화에 의한 신조어를 비교 연구한 것이다. 한국과 중국은 교류가 긴밀해지면서 언어까지 영향을 주고받는다. 이에 따라 신조한 국어와 동일한 언어 특성을 가진 신조중국어가 발견된다. 또한 신조어는 언어의 새로운 발전 결과물이라고 여긴다. 이러한 신조어는 한국과 중국의 젊은층에서 널리 사용하고 있는 상황이다. 따라서 언어가 소통을 전제로 한다는 측면에서 학문적인 연구를 통하여 한중 신조어를 명확히 인식하는 것이 바람직하다. 2018년 신조중국어의 특성을 중심으로 먼저 2017년 이전의 신조중국어와 합성, 약어, 대치 등의 형태적인 요소와 비유, 은어 등 의미적인 측면에 의해 비교하여 분석하였다. 이를 통해 2018년 신조중국어의 특성을 추출하였다. 다음에 이러한 신조어의 구성방법에 의해 2018년의 신조한국어와의 공통점과 차이점도 확인하였다. 그리고 한국어와 중국어 신조어를 분석한 결과, 기존의 언어 재활용 현상이 두드러짐도 확인하였다. 이러한 한중 신조어가 표준어로 정착하는 과정을 보기 위해 신조어의 구성방법을 정확하게 탐색해보고자 하는 것이 중요하다.