• 제목/요약/키워드: Syntactic Structure

검색결과 159건 처리시간 0.027초

구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가 (A Program Similarity Evaluation using Keyword Extraction on Abstract Syntax Tree)

  • 김영철;최재영
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.109-116
    • /
    • 2005
  • 본 논문에서는 프로그램의 분석 과정에서 생성된 구문트리에서 키워드만을 추출하여 유사도 평가하는 방법을 소개한다. 이 방법은 기존의 구조 기반 방법과 같이 프로그램 구조적 특징에 상관없이 유사도를 평가한 수 있으며, 구문트리의 키워드만을 평가에 이용함으로써 기존 시스템의 단점이었던 속도를 개선할 수 있었다. 따라서 본 논문에서는 유사도 평가 모델을 제시하고, 생성된 구문트리에서 키워드를 추출하는 방법을 제시하였다. 본 논문의 평가 부분에서는 기존 시스템에 비해 본 시스템이 구조적 특징이나 속도 면에서 많이 개선되었다는 것을 보여주었다. 따라서 본 시스템은 향후에 텍스트 위주의 문서의 유사도나 XML과 같은 전자 문서의 유사도 평가에 지대한 영향을 줄 것으로 기대된다.

PC-KIMMO-based Description of Mongolian Morphology

  • Jaimai, Purev;Zundui, Tsolmon;Chagnaa, Altangerel;Ock, Cheol-Young
    • Journal of Information Processing Systems
    • /
    • 제1권1호
    • /
    • pp.41-48
    • /
    • 2005
  • This paper presents the development of a morphological processor for the Mongolian language, based on the two-level morphological model which was introduced by Koskenniemi. The aim of the study is to provide Mongolian syntactic parsers with more effective information on word structure of Mongolian words. First hand written rules that are the core of this model are compiled into finite-state transducers by a rule tool. Output of the compiler was edited to clarity by hand whenever necessary. The rules file and lexicon presented in the paper describe the morphology of Mongolian nouns, adjectives and verbs. Although the rules illustrated are not sufficient for accounting all the processes of Mongolian lexical phonology, other necessary rules can be easily added when new words are supplemented to the lexicon file. The theoretical consideration of the paper is concluded in representation of the morphological phenomena of Mongolian by the general, language-independent framework of the two-level morphological model.

딥러닝 기법을 사용하는 소프트웨어 결함 예측 모델 (Prediction Model of Software Fault using Deep Learning Methods)

  • 홍의석
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.111-117
    • /
    • 2022
  • 수십년간 매우 많은 소프트웨어 결함 예측 모델에 관한 연구들이 수행되었으며, 그들 중 기계학습 기법을 사용한 모델들이 가장 좋은 성능을 보였다. 딥러닝 기법은 기계학습 분야에서 가장 각광받는 기술이 되었지만 결함 예측 모델의 분류기로 사용된 연구는 거의 없었다. 몇몇 연구들은 모델의 입력 소스나 구문 데이터로부터 시맨틱 정보를 얻어내는데 딥러닝을 사용하였다. 본 논문은 3개 이상의 은닉층을 갖는 MLP를 이용하여 모델 구조와 하이퍼 파라미터를 변경하여 여러 모델들을 제작하였다. 모델 평가 실험 결과 MLP 기반 딥러닝 모델들은 기존 결함 예측 모델들과 Accuracy는 비슷한 성능을 보였으나 AUC는 유의미하게 더 우수한 성능을 보였다. 또한 또다른 딥러닝 모델인 CNN 모델보다도 더 나은 성능을 보였다.

Using Syntax and Shallow Semantic Analysis for Vietnamese Question Generation

  • Phuoc Tran;Duy Khanh Nguyen;Tram Tran;Bay Vo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2718-2731
    • /
    • 2023
  • This paper presents a method of using syntax and shallow semantic analysis for Vietnamese question generation (QG). Specifically, our proposed technique concentrates on investigating both the syntactic and shallow semantic structure of each sentence. The main goal of our method is to generate questions from a single sentence. These generated questions are known as factoid questions which require short, fact-based answers. In general, syntax-based analysis is one of the most popular approaches within the QG field, but it requires linguistic expert knowledge as well as a deep understanding of syntax rules in the Vietnamese language. It is thus considered a high-cost and inefficient solution due to the requirement of significant human effort to achieve qualified syntax rules. To deal with this problem, we collected the syntax rules in Vietnamese from a Vietnamese language textbook. Moreover, we also used different natural language processing (NLP) techniques to analyze Vietnamese shallow syntax and semantics for the QG task. These techniques include: sentence segmentation, word segmentation, part of speech, chunking, dependency parsing, and named entity recognition. We used human evaluation to assess the credibility of our model, which means we manually generated questions from the corpus, and then compared them with the generated questions. The empirical evidence demonstrates that our proposed technique has significant performance, in which the generated questions are very similar to those which are created by humans.

웹기반 언어 학습시스템을 위한 한국어 철자/문법 검사기의 성능 향상 (Improving a Korean Spell/Grammar Checker for the Web-Based Language Learning System)

  • 남현숙;김광영;권혁철
    • 인지과학
    • /
    • 제12권3호
    • /
    • pp.1-18
    • /
    • 2001
  • 이 논문의 목적은 한국어 철자/문법 검사기를 교육적으로 활용한 웹 기반 국어 작문 학습 시스템의 구현이다. 웹 기반 학습시스템 \\`우리말 배움터\\`의 학습효과를 최대화하려면 한국어 철자/문법 검사기의 성능을 꾸준히 향상해야 한다 오늘날 자연어처리 시스템의 성능은 의미처리를 얼마나 정확하게 수행하는가에 달려있다 한국어 철자/문법 검사기에서 의미처리와 관련이 있는 부분은 철자 검사기에서 접사나 꼬리말과 파생하는 단어와 복합명사를 교정하는 처리기와 의미·문체 오류를 교정하는 문법 검사기이다. 본 시스템에서는 의미처리를 위하여 의존문법에 기반하여 부분문장분석과 연어관계정보를 이용한다. 여기에 더 세부적인 규칙을 추가하기 위해 단어를 개념적으로 분류하고 문장의 핵심요소인 동사를 하위범주화한 결과를 적용한다. 의미처리 기능을 강화한 철자/문법 검사기를 온라인으로 운영함으로써 웹에 기반한 한국어 학습시tm템과 통합된 환경에서 능동적이고 지능적인 학습 모형을 구현한다. 이 논문에서 다루는 의미처리의 대상은 주로 구문 단위이기 때문에 여러 개의 절이 모여 하나의 문장이 된 복문이나 중문은 다루지 못하고 있다. 또한 일률적인 체계 속에서 단어를 의미적으로 분류하는 데에도 많은 한계가 있다. 한편 이러한 자연어처리시스템을 웹 기반 학습시스템에 연결하여 효율적인 학습효과를 거두려면 학습내용 구성이나 인터페이스 설계 면에서도 고려해야 할 중요한 문제가 많다. 결론에서는 아직 완전하게 해결하지 못한 문제에 대해 고찰한다.

  • PDF

품사 정보와 템플릿을 이용한 문장 축소 방법 (A Sentence Reduction Method using Part-of-Speech Information and Templates)

  • 이승수;염기원;박지형;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.313-324
    • /
    • 2008
  • 문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.

프러스펙터의 분류 규칙 습득을 위한 유전자 알고리즘 기반 귀납적 학습 시스템 (A GA-based Inductive Learning System for Extracting the PROSPECTOR`s Classification Rules)

  • 김영준
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권11호
    • /
    • pp.822-832
    • /
    • 2001
  • 주어진 사례의 집합으로부터 그 사례들을 분류할 수 있는 프러스펙터 규칙 유형의 분류 규칙들을 습득하는 학습 시스템을 유전자 알고리즘을 이용하여 구현하였다. 유전자 알고리즘을 이용한 학습 시스템의 구현에서 개체 집단은 규칙 집합으로 구성되고 규칙 집합은 교배, 돌연 변이, 역치 연산자 등의 유전 연산자를 이용하여 규칙 집합내의 규칙을 교환함으로써 새로운 자식을 생성한다. 본 논문에서는 구현된 학습 환경을 분류 규칙의 구문 형태와 의미, 개체 집단의 구조 및 유전 연산자의 구현 등을 중심으로 설명한다. 효율적인 돌연변이 연산자의 구현을 위해 개발된 규칙 성능 평가 기법과 규칙생성 기법을 소개하고 분류 성능을 향상시키기 위한 기법으로 다수의 규칙 집합을 이용하여 분류 시스템을 구축하기 위한 기법을 소개한다. 본 연구를 통해 구현된 학습 시스템의 성능을 다양한 사례 집합을 이용하여 평가하고 이를 신경망, 결정 트리 등과 비교하였다.

  • PDF

BIBFRAME 적용성 향상을 위한 기술 수준 구분에 관한 연구 (A Study on the Separation of Descriptive Levels for Enhancing the Applicability of BIBFRAME)

  • 임수인;이승민
    • 한국문헌정보학회지
    • /
    • 제54권3호
    • /
    • pp.165-186
    • /
    • 2020
  • BIBFRAME은 기존의 MARC 구조를 대체할 수 있는 새로운 서지 표준으로 인식되고 있으나, 기술항목의 방대함으로 인해 도서관계 현장에서 실제적으로 적용하는데 있어서는 여러 가지 한계를 보이고 있다. 이에 본 연구에서는 도서관 현장에서의 BIBFRAME의 적용성을 향상시키기 위한 방안으로 BIBFRAME의 기술 수준 구분을 제안하였다. BIBFRAME의 기술 수준은 ISBD 2011 통합판의 서지영역을 기준으로 핵심, 표준, 상세 수준의 3단계로 구분하였으며, RDF/RDFS 구문을 적용하여 구분한 기술 수준을 의미적으로 구현하였다. BIBFRAME의 3단계 기술 수준은 Class Granularity 및 Class Element로 정의하였으며, Property Relation을 정의하여 각각의 기술 수준으로 구분된 Class와 BIBFRAME 기술항목을 연계할 수 있는 구문적 환경을 구현하였다. 이를 통해 BIBFRAME을 이용한 서지데이터의 생성과 공유에 있어서의 적용성을 향상시킬 수 있을 것으로 기대된다.

단어통사론을 위한 계산 모형 (A Computational Model for the Word-Syntax)

  • 김동주;김한우
    • 전자공학회논문지CI
    • /
    • 제39권6호
    • /
    • pp.11-23
    • /
    • 2002
  • 한국어 형태론에 대한 기존의 전산모형은 선형적인 것들로 단어 내부구조 분석보다 형태소 분리 문제에만 관심을 두고 있다. 이러한 선형적 전산모형을 구문 분석 과정과 통합적으로 고려할 경우, 구문 단위 요소의 형성을 위해 형태소 분석 결과를 묶어야만 하는 추가적인 과정이 필요할 뿐만 아니라 의미적 직관성을 얻기도 어려웠다. 본 논문에서는 형태소 분리와 구문 요소 형성뿐만 아니라 단어의 구조 분석까지도 통합적으로 다룰 수 있는 단어통사론적 시각에 따른 전산 모형을 제안한다. 먼저 형태소 분리와 변형 문제를 다루기 위해 2단계형태론의 형식화를 도입하고, 품사 문맥을 반영하기 위해 기능성 구분문자를 제안한다. 그리고 형태소의 통사적 결합 검사를 위해 GLR에 기반한 변형 알고리즘을 제안한다.

사용자 행동 분석 프레임워크 제안 (A Suggestion of User Behavior analysis Framework)

  • 김혜린;이민주;박승호
    • 디자인융복합연구
    • /
    • 제16권5호
    • /
    • pp.203-217
    • /
    • 2017
  • 본 연구는 언어학적 해석 기반의 사용자 중심 디자인 방법론을 제시하고 그 가치를 증명하는 것이다. 연구의 결과로 제안된 사용자 행동 분석 프레임워크는 문장구조와 그 성분들 간의 통사구조가 사용자의 상황과 행동을 설명하는데 있어 논리적 근간이 될 수 있다고 보았다. 이를 기반으로 사용자 행동과 사용자 콘텍스트에 대해 미시적 관점으로 정의와 분류를 진행하였다. 또한 사용자 행동이 목적 지향적 특성의 패턴구조가 있음을 파악하고 이를 전제로 하는 사용자 행동 시퀀스를 구성했다. 다음으로 사용자 행동과 사용자 태도, 사용자 콘텍스트 간의 관계와 의의를 정의하여 사용자 행동 분석 프레임워크를 도출하였다. 프레임워크의 검증을 위해서는 사용자의 경험을 수집하고 프레임워크에 항목화를 실시한 사례연구를 진행하고 프레임워크의 연구적, 실무적 효용가치를 알아보기 위하여 현업 실무자들에게 전문가 평가를 실시하였다. 이를 통해 프레임워크가 가진 정성, 정량적 분석 틀로서의 가치를 증명하였고 향후 개발방향을 수립할 수 있었다.