• Title/Summary/Keyword: 공기어

Search Result 111, Processing Time 0.025 seconds

Design and Implementation of Keyword Extractor based on Synonyms and Related Terms (동의어와 유의어 개념에 기반 한 키워드 추출기의 설계 및 구현)

  • Park, Eun-Suk;Park, Hyun-Jin;Lee, Samuel Sang-Kon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.163-166
    • /
    • 2007
  • 인간은 문서를 읽고 그 내용을 머릿속에서 개념적으로 정리하여 몇 개의 명사를 이용하여 키워드로 인지한다. 본 논문은 이러한 점에 착안하여 문서를 대표하는 키워드를 추출하는 시스템을 설계하고 구현하였다. 본 논문에서는 단어의 개별적인 개념 정보를 동의어와 유의어 사전을 통해 주요 개념어를 추출하고, 추출된 개념어들 사이의 공기 관계를 계산하여 키워드로써의 중요도를 계산하고자 한다. 이를 통해 문서를 대표할 수 있는 키워드 후보를 생성하는 생성 규칙을 자동화하고 문서를 잘 대표할 수 있는 키워드 추출기를 제안하였다.

  • PDF

A Predictive Answer Indexing Method Using Local and Global Information (지역, 전역 정보를 이용한 정답 후보 색인 방법)

  • Kim, Hark-Soo;Kim, Kyung-Sun;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.267-274
    • /
    • 2002
  • 본 논문은 2-패스에 걸쳐 지역, 전역 정보를 추출하고 이 정보들을 이용하여 효과적으로 정답 후보들을 색인하는 방법을 제안한다. 제안한 정답 후보 색인 방법은 다음과 같다. 먼저, 대상 문서에 포함된 모든 정답 후보들을 추출한다. 그리고, 지역 정보(한 문서 내에서 정답 후보와 주변 내용어 사이의 관계)를 이용하여 각 내용어에 점수를 부여한다. 다음으로 전역 정보(모든 문서를 대상으로 하여 정답 후보와 공기 (co-occurrence)하는 내용어 사이의 관계)를 이용하여 각 내용어에 이미 할당되어 있는 점수를 변경한다. 마지막으로 데이터베이스에 각 정답 후보와 점수가 부여된 내용어들을 역파일 형태로 저장한다. 이러한 색인 방법은 빠른 응답 시간과 비교적 높은 정확률을 필요로 하는 실용적 질의 응답 시스템에 적합하다.

  • PDF

한국어 부사어의 분류와 분포 제약

  • 채희락
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2001.06a
    • /
    • pp.95-96
    • /
    • 2001
  • 문장에서 술어를 수식하는 대표적인 표현은 부사어이다. 부사어는 일반적으로 문장 구성에서 핵심적 역할을 하지 않는 첨가어(adjuncts)이기 때문에 핵심적인 역할을 하는 보충어(complements)에 비해 상대적으로 연구가 덜 이루어진 분야이다. 그렇지만 부사어는 피수식어의 의미를 구체화/한정하는 기능을 하기 때문에 정확한 의사소통을 위해서는 반드시 필요한 요소이며 어순, 호응(concord)등의 통사적 현상과도 밀접한 관련이 있다. 이 연구의 일차적 목적은 이러한 부사어를 통사적, 의미적 기준에 의해 정확하게 분류하고 그들의 분포제약을 밝히는 것이다. 그 다음으로, 부사어와 관련된 통사 현상으로, 부사어와 피수식어의 공 기(co-occurrence)관계 및 부사어와 술어 어미의 호응 관계에 대한 분석을 제공하려고 한다. 부사어는 통사적인 기준과 의미적인 기준으로 분류할 수 있다 (손남익 1995, 김경훈 1996, 임유종 1998). 통사적 기준으로는 단어나 구를 수식하는 성분부사와 문장을 수식하는 문장 부사로 나누는 방법과 위치에 대한 제약이 있느냐 없느냐에 따라 제약부사와 자유부사로 나 누는 방법이 있다. 이 두 통사론적 기준에 의해 분류되는 부사들은 서로 어떤 상관관계를 보이고 있는지 살펴 볼 것이다. 일반적으로 문장부사는 문두에 놓여야 한다는 위치적 제 약 이 있기 때문에 제약부사로 분류된다. 의미적 기준으로 부사어를 분류할 수도 있는데, 시간/ 공간 부사어, 양태/정도 부사어 등으로 나눌 수 있다. 의미적 기준에 의해 분류된 부사어는 통사적 기준에 의해 분류된 것들과는 어떤 상호 관련성을 맺고 있는지 살펴 볼 것이다. 일 반적으로 시간부사와 장소부사는 자유부사에 속하며 양태부사와 정도부사는 제약부사에 속 한다. 부사어와 피수식 요소와의 통사적 공기 관계 및 의미적 관계 그리고 그와 관련된 문 법 현상도 연구의 대상이 된다. 예를 들어, 자유로운 어순을 가진 부사들이지만 “*순이는 빨리 과연 달린다”에서 볼 수 있는 종류의 분포적 특성을 알아 볼것이다 (심재기 1982, 송 철의 1989). 또한 “길이/*길게 빛나다”와 “*길이/길게 드리워졌다”와 같은 대조에서 나타나는 통사, 의미적 기능의 상관 관계 및 제약들의 상호 작용도 살펴 볼 것이다.

  • PDF

Dictionary Making for Disambiguation (동사의 애매성 해소를 위한 구문의미사전의 구축)

  • Song, Young-Bin;Chae, Young-Soog;Park, Yong-Il;Lee, Jun-Min;Seol, Kah-Young;Hwang, Hye-Ri;Han, Na-Ri;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.280-287
    • /
    • 1999
  • 동사의 애매성이란 동일 동사 내부에서 공기하는 명사의 상충적 의미의 분포에 의해 발생한다. 이는 동일한 동사라 하더라도 명사의 상위개념, 흑은 개개의 명사에 따라 동사의 의미가 달라진다는 것을 의미한다. 동사의 애매성 해소를 위한 구문의미사전은 동사가 갖는 격틀과 논항에 오는 명사의 단어 집합에 의해 구성된다. 기계용 사전에서의 동사의 애매성이란 명사의 상위개념, 혹은 개개의 명사에 관한 정보가 결여될 때 나타난다. 지금까지의 구문의미사전은 개개의 동사가 갖는 격틀을 중심으로 논합명사의 예만을 제시하거나 명사의 상위개념을 기술하는 형식으로 구성되어 왔다. 이는 형식적인 패턴의 추출에는 유용하지만 대역어 선정을 위한 구문의미사전과 같은 섬세한 의미 정보를 필요로 하는 사전에서는 거의 효력을 발휘하지를 못한다. 다국어를 전제로 한 동사 대역어의 추출을 목적으로 하는 구문의미사전에서는 동사와 공기하는 논항명사의 철저한 추출과 검증에 의한 명사목록의 구축이 애매성 해소와 정확한 동사 대역어의 선정에 전제가 된다. 본 논문에서는 KAIST Corpus를 기반으로 현재 구축 중인 한국어 구문의미사전의 개요와 구축 과정에서 얻어진 방법론을 소개한다. 이 연구개발 결과는 과학기술부 KISTEP 특정연구개발과제 핵심소프트웨어개발 국어정보처리기술개발 중 "대용량 국어정보 심층 처리 및 품질 관리 기술 개발"의 지원을 받았다.

  • PDF

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • Kim, Su-Min;Baek, Dae-Ho;Kim, Sang-Beom;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

A Study on the Method of Teaching Korean Synonyms Using Online Corpora (온라인 코퍼스를 활용한 한국어 유의어 교수 방안 연구)

  • 전지은
    • Language Facts and Perspectives
    • /
    • v.47
    • /
    • pp.177-203
    • /
    • 2019
  • The purpose of this study is to suggest the possibility of using online corpora for teaching synonyms in Korean. The research included how to develop the effective concordance learning materials for teaching synonyms in Korean using data driven learning(DDL). Because synonyms are similar in meaning and usage, even native speaker can not clearly explain the difference in synonyms. Furthermore, it is not easy to provide proper example sentences for each word, and it is a reality that the differentiation of the synonyms are not sufficiently provided in the Korean textbooks. In recent years, it has been claimed that DDL helps students produce vocabulary as well as comprehend vocabulary. Nevertheless, it is hard to find how the concordance materials should be made for them. In this study, we extract concordance examples from the various kinds of online corpora; written and spoken corpora, korean textbooks, newspapers. We presented how to make corpus-designed activities using concordance materials for teaching Korean synonyms. In order to examine the effects of DDL, five experimental lessons were given to a group of 15 advanced korean learners in the university and follow-up surveys(attitude-questionnaire) were conducted. This study is meaningful in that it proposed a new teaching method in Korean synonym education.

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • 김수민;백대호;김상범;임해창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자여어질의를 입력 받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주 정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분서단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보중에서 정답을 추출하기 위해 각 후보단어의 질의단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용하는 것이 성능의 향상을 보였다.

  • PDF

The Computational Extraction of Semantic Hierarchies for Korean Adjectives (한국어 형용사 의미계층의 전산적 추출)

  • Song, Sang-Houn;Choe, Jae-Woong
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.109-116
    • /
    • 2006
  • 자연 언어의 각 어휘는 서로 관계를 가지고 계층적 입체적 모델로 존재한다. 이러한 전제에서 출발한 연구 가운데 대표적인 것이 의미 계층이다. 본고에서는 한국어 형용사의 의미 계층을 추출하는 것을 목표로 하여, 형식적 객관적 방법론을 정립하고, 결과를 비교적 신속하고 정확하게 이끌어 낼 수 있는 전산적 처리 도입하였다. 우선 전체 구축에 필요한 절차를 세우고 각 단계에서 필요한 방법과 휴리스틱을 정리하였다. 이를 바탕으로 사전 뜻풀이말을 이용하여 반자동으로 작업하였으며, 일부 코퍼스를 활용하였다 최종 알고리즘으로는 Top-Down 방식을 택하였다. 이렇게 추출된 한국어 형용사 의미 계층은 226개의 최상위어에서 시작하여 총 3,792개의 표제어를 망라한다. 또한 수직적 계열 관계만을 명시했을 경우 나타날 수 있는 한계를 보완하기 위해, 동의어 반의어와 같은 수평적 의미 관계와 공기 명사와 같은 결합 관계 등을 함께 기술하였다. 한편 표제항을 뜻풀이말의 공기 명사를 이용하여 의미별로 분류하고 각 분류마다 별도의 의미 계층을 수립하였다.

  • PDF

A Method of Word Sense Disambiguation for Korean Complex Noun Phrase Using Verb-Phrase Pattern and Predicative Noun (기계 번역 의미 대역 패턴을 이용한 한국어 복합 명사 의미 결정 방법)

  • Yang, Seong-Il;Kim, Young-Kil;Park, Sang-Kyu;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.246-251
    • /
    • 2003
  • 한국어의 언어적 특성에 의해 빈번하게 등장하는 명사와 기능어의 나열은 기능어나 연결 구문의 잦은 생략현상에 의해 복합 명사의 출현을 발생시킨다. 따라서, 한국어 분석에서 복합 명사의 처리 방법은 매우 중요한 문제로 인식되었으며 활발한 연구가 진행되어 왔다. 복합 명사의 의미 결정은 복합 명사구 내 단위 명사간의 의미적인 수식 관계를 고려하여 머리어의 선택과 의미를 함께 결정할 필요가 있다. 본 논문에서는 정보 검색의 색인어 추출 방법에서 사용되는 복합 명사구 내의 서술성 명사 처리를 이용하여 복합 명사의 의미 결정을 인접 명사의 의미 공기 정보가 아닌 구문관계에 따른 의미 공기 정보를 사용하여 분석하는 방법을 제시한다. 복합 명사구 내에서 구문적인 관계는 명사구 내에 서술성 명사가 등장하는 경우 보-술 관계에 의한 격 결정 문제로 전환할 수 있다. 이러한 구문 구조는 명사 의미를 결정할 수 있는 추가적인 정보로 활용할 수 있으며, 이때 구문 구조 파악을 위해 구축된 의미 제약 조건을 활용하도록 한다. 구조 분석에서 사용되는 격틀 정보는 동사와 공기하는 명사의 구문 관계를 분석하기 위해 의미 정보를 제약조건으로 하여 구축된다. 이러한 의미 격틀 정보는 단문 내 명사들의 격 결정과 격을 채우는 명사 의미를 결정할 수 있는 정보로 활용된다. 본 논문에서는 현재 개발중인 한영 기계 번역 시스템 Tellus-KE의 단문 단위 대역어 선정을 위해 구축된 의미 대역패턴인 동사구 패턴을 사용한다. 동사구 패턴에 기술된 한국어의 단문 단위 의미 격 정보를 사용하는 경우, 격결정을 위해 사용되는 의미 제약 조건이 복합 명사의 중심어 선택과 의미 결정에 재활용 될 수 있으며, 병렬말뭉치에 의해 반자동으로 구축되는 의미 대역 패턴을 사용하여 데이터 구축의 어려움을 개선하고자 한다. 및 산출 과정에 즉각적으로 활용될 수 있을 것이다. 또한, 이러한 정보들은 현재 구축중인 세종 전자사전에도 직접 반영되고 있다.teness)은 언화행위가 성공적이라는 것이다.[J. Searle] (7) 수로 쓰인 것(상수)(象數)과 시로 쓰인 것(의리)(義理)이 하나인 것은 그 나타난 것과 나타나지 않은 것들 사이에 어떠한 들도 없음을 말한다. [(성중영)(成中英)] (8) 공통의 규범의 공통성 속에 규범적인 측면이 벌써 있다. 공통성에서 개인적이 아닌 공적인 규범으로의 전이는 규범, 가치, 규칙, 과정, 제도로의 전이라고 본다. [C. Morrison] (9) 우리의 언어사용에 신비적인 요소를 부인할 수가 없다. 넓은 의미의 발화의미(utterance meaning) 속에 신비적인 요소나 애정표시도 수용된다. 의미분석은 지금 한글을 연구하고, 그 결과에 의존하여서 우리의 실제의 생활에 사용하는 $\ulcorner$한국어사전$\lrcorner$ 등을 만드는 과정에서, 어떤 의미에서 실험되었다고 말할 수가 있는 언어과학의 연구의 결과에 의존하여서 수행되는 철학적인 작업이다. 여기에서는 하나의 철학적인 연구의 시작으로 받아들여지는 이 의미분석의 문제를 반성하여 본다.반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract 농도(濃度)가 증가(增加)함에 따라 단백질(蛋白質) 함량(含量)도 증가(增加)하였다. 7. CHS-13 균주(菌株)의 RNA 함량(

  • PDF

Exploring Teaching Method for Productive Knowledge of Scientific Concept Words through Science Textbook Quantitative Analysis (과학교과서 텍스트의 계량적 분석을 이용한 과학 개념어의 생산적 지식 교육 방안 탐색)

  • Yun, Eunjeong
    • Journal of The Korean Association For Science Education
    • /
    • v.40 no.1
    • /
    • pp.41-50
    • /
    • 2020
  • Looking at the understanding of scientific concepts from a linguistic perspective, it is very important for students to develop a deep and sophisticated understanding of words used in scientific concept as well as the ability to use them correctly. This study intends to provide the basis for productive knowledge education of scientific words by noting that the foundation of productive knowledge teaching on scientific words is not well established, and by exploring ways to teach the relationship among words that constitute scientific concept in a productive and effective manner. To this end, we extracted the relationship among the words that make up the scientific concept from the text of science textbook by using quantitative text analysis methods, second, qualitatively examined the meaning of the word relationship extracted as a result of each method, and third, we proposed a writing activity method to help improve the productive knowledge of scientific concept words. We analyzed the text of the "Force and motion" unit on first grade science textbook by using four methods of quantitative linguistic analysis: word cluster, co-occurrence, text network analysis, and word-embedding. As results, this study suggests four writing activities, completing sentence activity by using the result of word cluster analysis, filling the blanks activity by using the result of co-occurrence analysis, material-oriented writing activities by using the result of text network analysis, and finally we made a list of important words by using the result of word embedding.