• 제목/요약/키워드: Syntactic

검색결과 720건 처리시간 0.027초

STW를 이용한 웹 문서 장르 분류에 관한 연구 (A Research for Web Documents Genre Classification using STW)

  • 고병규;오군석;김판구
    • 정보화연구
    • /
    • 제9권4호
    • /
    • pp.413-422
    • /
    • 2012
  • 웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

구문 정보와 비용기반 중심화 이론에 기반한 자연스러운 지시어 생성 (Generation of Natural Referring Expressions by Syntactic Information and Cost-based Centering Model)

  • 노지은;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권12호
    • /
    • pp.1649-1659
    • /
    • 2004
  • 텍스트 생성(text generation)은 언어가 아닌 다양한 지식원으로부터 텍스트를 생성해 내는 언어 처리의 한 분야로, 여러 가지 복합적이고 단계적인 과정을 통해 이루어진다. 본 논문에서는 자연스러운 텍스트 생성을 위한 여러 과정 중, 한번 언급된 대상(entity)을 자연스럽게 지시(refer)하기 위한 지시어 생성(referring expression generation), 특히 한국어에 두드러진 영형(zero pronoun)에 의한 대용화(pronominalization) 과정에 초점을 맞춘다. 이를 위해, 구문 정보와 비용기반 중심화 이론(cost-based centering model)을 바탕으로, 한국어에 적합한 지시어 특히 영형의 생성에 영향을 미치는 다양한 자질(feature)들온 규명하고, 기계 학습을 통해 지시어 생성 모델을 구축하였다. 세 개의 장르 - 묘사문(설명문), 뉴스, 짧은 우화 - 에서 총 95개의 텍스트로부터 학습이 이루어 졌으며 이론 대상으로, 제안된 자질들이 지시어의 생성, 특히 영형의 생성에 효율적으로 적용될 수 있음을 보였다. 또한, 지시어 생성과 관련된 기존의 방법론들과 본 논문에서 제안한 모델을 비교하여 성능이 크게 향상되었음을 보이고, T-test를 통해 99.9%의 신뢰 구간에서 그 성능 향상이 통계적으로 의미가 있음을 확인하였다.

코드 비 일관적 식별자 검출 기법 (Detecting Inconsistent Code Identifiers)

  • 이성남;김순태;박수용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권5호
    • /
    • pp.319-328
    • /
    • 2013
  • 소프트웨어 유지 보수 담당자는 코드 식별자를 중심으로 소프트웨어의 소스 코드를 이해한다. 그렇기 때문에 코드의 식별자를 비 일관적으로 사용하게 되면 소프트웨어를 이해하는데 어려움을 격게 되어 결국 소프트웨어의 유지보수 비용이 증가하게 된다. 이러한 비 일관적인 식별자 사용의 문제를 해결하기 위하여 개발자가 상호 검토하는 방법이 있으나 코드의 양이 많은 경우에 전체 코드를 확인하는 것은 불가능할 수 있다. 본 논문에서는 자연어 처리 기법을 사용하여 자동으로 Java 코드 내의 비 일관적인 식별자를 검출하기 위한 기법을 소개한다. 이 기법에서는 프로젝트 내의 모든 식별자를 추출 및 구문 분석하고, 구조상 유사어와 의미상 유사어를 분류한 후 최종적으로 제안된 규칙을 기반으로 비 일관적인 식별자를 검출한다. 본 논문에서는 지원 도구인 CodeAmigo를 개발하여 제안된 방법을 지원하였다. 우리는 지원 도구를 두 가지의 널리 알려진 Java기반 오픈 소스 프로젝트에 적용하고, 검출 결과의 정확도를 계산하여 제안된 접근 방법의 타당성을 확인하였다.

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

한국어, 영어 그리고 독일어의 강화사: 비결속 용법을 중심으로 (Intensifiers in Korean, English and German: Focusing on their non-head-bound-use)

  • 최규련
    • 한국언어정보학회지:언어와정보
    • /
    • 제7권2호
    • /
    • pp.31-58
    • /
    • 2003
  • The main goal of this paper is to describe and analyse intensifiers, especially non-head-bound-intensifiers (NHBIs), which can be included in the discussion and analysis of these elements as focus particles. In doing so, NHBIs such as Korean susulo, casin/cache, English x-self and German selbst are dealt with in a rather cross-linguistical perspective. The pure and strict comparison between Korean, English and German is not intended. This paper is mainly concerned with the semantic domain where the respective contributions of the expressions in question overlap, which offers the common base for the discussion regarding Korean, one of the non-European languages and English and German, two European languages. They share the semantic domain ‘intensification’ regarding relevant subject-NP. They introduce an ordering distinguishing center and periphery. In contrast to head-bound-intensifiers (HBIs), however, NHBIs add self-involvement (directness of involvement) of subject-NP to the meaning of the relevant sentence. I adopt the proposals of Konig (1991), Primus (1992) and Siemund (2000) in the treatment of intensifiers as focus particles. However, I reject Konig (1991) that just NHBIs talre scope over a whole clause, Primus (1992) that NHBIs focus VPs, not NPs, and Siemund (2000) that NHBIs can be further devided into two groups, viz. NHBIs with exclusive readings and NHBIs with inclusive readings. Evidence for my position is presented mainly in the course of describing and analysing some syntactic properties and the meaning and use of NHBIs. I come to the conclusion that both the common meaning of intensifiers as focus particles and the common meaning of NHBIs of three languages can be represented by a simple logical formalism.

  • PDF

인지언어 및 메타정의의 관점에서 수학 영재아의 문제해결 프로토콜 분석 (Analysis of Problem-Solving Protocol of Mathematical Gifted Children from Cognitive Linguistic and Meta-affect Viewpoint)

  • 도주원;백석윤
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제22권4호
    • /
    • pp.223-237
    • /
    • 2019
  • 수학적 과정에서 나타나는 언어 구문론적 표현 체계와 정의적 표현 체계 사이에는 긴밀한 상호 작용이 이루어진다. 한편, 수학적 개념 체계도 본질적으로 은유적이므로 언어적 표현을 통해 나타나는 수학적 개념 구조에 대한 분석은 수학 학습에 작용하는 인지 정의적 장애 요인의 근원을 밝히는데 도움이 될 수 있다. 이에 본 연구에서는 수학 영재아의 문제해결 프로토콜을 인지언어와 메타정의의 관점에서 분석하여 텍스트 및 은유의 기능적 특성과 메타정의의 기능적 특성 사이의 관계성을 파악하였다. 그 결과 문제해결의 성공 여부에 따라 수학 영재아의 인지적, 정의적 특성이 반영된 행위의 양상이 서로 다르게 나타났다. 성공적이지 못한 문제해결의 경우에는 성공적인 경우에 비해 내부 표현 체계로서의 은유를 활용하는 행위가 상대적으로 빈번하게 나타났다. 또한 은유의 인지언어학적 측면이 문제해결에 중요하게 작용하면서 동시에 은유라는 외적 표현에는 메타정의적 속성이 긴밀하게 관련되어 나타났다.

관계형 데이터베이스에서의 시맨틱 기반 키워드 탐색 시스템 (Semantic-based Keyword Search System over Relational Database)

  • 양영휴
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권12호
    • /
    • pp.91-101
    • /
    • 2013
  • 키워드의 모호성은 효율적인 키워드 탐색에 있어서 일반적인 이슈가 되어왔는데, 이 모호성은 탐색결과의 신뢰성에 큰 영향을 줄 수 있으며, 기본적으로 질의에 사용된 용어 자체가 가지는 문맥상 의미의 모호함에 기인한다. 질의 자체의 모호함뿐만 아니라, 사용자들이 그 탐색 결과를 적절하게 해석하기 위해 결과에 나타나는 키워드간의 관계도 중요하므로 명확하게 명시 되어야 한다. 이 논문에서는 기존의 질의 용어와 스키마 용어/인스턴스간의 키워드 매핑기법을 적용하여 키워드 탐색의 모호성을 해결한다. 용어간의 매핑에서는 질의 키워드와 스키마 용어간의 구문적 유사성은 물론 시맨틱 유사성까지 고려하기 때문에 기존의 시스템에 비해 매핑과 정밀도가 50% 이상 상승하는 결과를 얻을 수 있다. 탐색결과에 나타나는 용어간의 불분명한 관계를 점 더 명확하게 나타내기 위하여 시맨틱 웹 기술을 적용하여 키워드간의 의미 있는 관계를 더 많이 지식베이스 내에서 찾을 수 있도록 하였다.

좌반구 손상과 우반구 손상 뇌졸중 환자의 의문문 유형에 따른 운율 특성 비교 (Comparison of prosodic characteristics by question type in left- and right-hemisphere-injured stroke patients)

  • 유영미;성철재
    • 말소리와 음성과학
    • /
    • 제13권3호
    • /
    • pp.1-13
    • /
    • 2021
  • 의사소통에 중요한 역할을 하는 운율은 기능에 따라 언어적 운율과 정서적 운율로 구분한다. 대뇌 편재화 관점에서 정서적 운율 처리는 우반구가 주로 담당한다는 결과가 일반론적으로 받아들여지지만, 언어적 운율에 대한 연구들은, 연구간의 방법적인 차이로 인해 결과가 상이하게 나타난다. 본 연구는 정상 화자 9명과 뇌졸중 환자 14명(좌반구 손상 7명, 우반구 손상 7명)의 세 집단을 대상으로 대뇌 편재화의 관점에서 언어적 운율 특성을 살펴보기 위해 세 가지 형태 의문문(의문사 의문문, 예-아니오 의문문, 선택 의문문)에서의 발화속도, 지속시간, 음도, 강도와 관련된 운율 특징을 청지각 평가와 함께 살펴보았다. 연구결과, 통계적으로 유의한 주요변수들이 좌반구 손상 환자의 자료에서 결함을 보였으며, 예-아니오 의문문과 선택 의문문보다 의문사 의문문에서 더욱 두드러졌다. 이러한 경향은 특히 음도와 발화속도 관련 변수들에서 두드러졌다. 본 연구의 결과는 한국어 사용자의 의문사 사용에 있어서 어휘-의미론적, 구문론적 정보와 같은 언어학적으로 관련 있는 운율 처리의 경우 우반구보다 좌반구에서 대체로 우세하다는 점을 방증한다.

Revisiting 'It'-Extraposition in English: An Extended Optimality-Theoretic Analysis

  • Khym, Han-gyoo
    • International Journal of Advanced Culture Technology
    • /
    • 제7권2호
    • /
    • pp.168-178
    • /
    • 2019
  • In this paper I discuss a more complicated case of 'It'-Extraposition in English in the Optimality Theory [1] by further modifying and extending the analysis done in Khym (2018) [2] in which only the 'relatively' simple cases of 'It'-Extraposition such as 'CP-Predicate' was dealt with. I show in this paper that the constraints and the constraint hierarchy developed to explain the 'relatively' simple cases of 'It'-Extraposition are no longer valid for the more complicated cases of 'It'-Extraposition in configuration of 'CP-V-CP'. In doing so, I also discuss two important theoretic possibilities and suggest a new view to look at the 'It'-Extraposition: first, the long-bothering question of which syntactic approach between P&P (Chomsky 1985) [3] and MP (Chomsky 1992) [4] should be based on in projecting the full surface forms of candidates may boil down to just a simple issue of an intrinsic property of the Gen(erator). Second, the so-called 'It'- Extraposition phenomenon may not actually be a derived construction by the optional application of Extraposition operation. Rather, it could be just a representational construction produced by the simple application of 'It'-insertion after the structure projection with 'that-clause' at the post-verbal position. This observation may lead to elimination of one of the promising candidates of '$It_i{\ldots}[_{CP}that{\sim}]_i$' out of the computation table in Khym [2], and eventually to excluding the long-named 'It'-Extraposition case from Extrsposition phenomena itself. The final constraints and the constraint hierarchy that are explored are as follows: ${\bullet}$ Constraints: $^*SSF$, AHSubj, Subj., Min-D ${\bullet}$ Constraint Hierarchy: SSF<<>>Subj.>> AHSubj.

중국어 회화문에 대한 의사소통 분석단위에 기초한 접근 (An Approach to Chinese Conversations in the Textbook based on Social Units of Communication)

  • 박찬욱
    • 비교문화연구
    • /
    • 제49권
    • /
    • pp.127-150
    • /
    • 2017
  • 본고는 Hymes(1972)가 제시한 의사소통의 사회적 분석단위 중 네 가지 - 말 공동체(speech community), 말 상황(speech situation), 말 사례(speech event), 말 행위(speech act) - 개념에 기대어 중국어 교재 상의 회화문을 고찰하고 그 결과를 교실 활동에서 활용할 수 있도록 숙고하는 데 목적이 있다. 이에 본고는 매 회화 단락을, 특정한 상황 맥락 하에서 여러 말 행위들로 구성된 말 사례의 정합으로 간주한다. 그리고 매 문장을, 발화로써 말 힘을 가질 수 있는 언어적 행위로 가정한다. 회화문을 Hymes(1972)의 단위에 기대어 분석하기에 앞서 본고는 분석 단위의 개별적 특징을 먼저 살펴본다. 그런 뒤, 그것의 단위 개념을 토대로, 교재 회화문을 형태 및 통사 단위의 결합이 아닌 행위의 결합이란 관점에서 분석한다. 나아가 복잡한 통사 단위들의 결합으로 여겨질 수 있는 회화 단락이 다소 한정된 소수의 분석단위들 간 결합일 수 있음을 보인다. 그리고 그 결과가 교실 활동에서 어떻게 사용될 수 있는지 제언을 덧붙인다.