• Title/Summary/Keyword: 자질추출

Search Result 218, Processing Time 0.029 seconds

A English Composition Level Assessment System Using Machine Learning Techniques (기계학습기법을 이용한 영어작문 문장 수준평가 시스템)

  • Eom, Jin-Hee;Kwak, Dong-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1290-1293
    • /
    • 2013
  • 본 논문은 문장 내에서 나타나는 어휘간의 관계를 통해 표현 수준을 자동으로 평가할 수 있는 시스템을 제안한다. 제안하는 방법은 영어에세이 코퍼스 내의 문장에서 발생하는 철자 및 문법의 오류와 함께 어휘와 문법 패턴에 따른 표현난이도를 평가할 수 있는 자질을 생성하고 다양한 기계학습기법을 사용하여 문장의 수준을 평가하고자 하였다. 또한 기존에 연구되어온 규칙기반의 문장 평가시스템을 구현하고 기계학습기법을 이용한 문장 평가시스템과 비교하였다. 이를 통해 철자 및 문법의 오류율뿐만 아니라 표현난이도를 평가할 수 있는 자질들이 유용함을 확인할 수 있었다. 영어작문 문장의 수준평가를 위해서 국내 학생들의 토플 에세이 코퍼스를 수집하여 2,000문장을 추출하였고, 4명의 전문평가자들을 통해 6단계로 평가하여 학습 및 테스트 세트를 구성하였다. 성능척도로는 정확률과 재현율을 사용하였으며, 제안하는 방법으로 67.3%의 정확률과 67.1%의 재현율을 보였다.

A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts (블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구)

  • Han, Bum-Jun;Kim, Min-Jeong;Lee, Hyoung-Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.385-388
    • /
    • 2010
  • 블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.

Cross-Texting Prevention System using Korean Chat Corpus (한글 채팅 말뭉치를 이용한 크로스-텍스팅 방지 시스템)

  • Lee, Da-Young;Who, Hwan-Gue
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.377-382
    • /
    • 2020
  • cross-texting은 실수로 의도하지 않은 상대방에게 메세지를 잘못 전송하는 것을 말한다. 휴대폰 메신저 사용이 활발해짐에 따라 이 같은 실수가 빈번하게 발생하는데 메신저에서 제공하는 기능은 대체로 사후 해결책에 해당하고 사용자가 사전에 실수를 발견하기는 어렵다. 본 논문에서는 사용자가 작성한 문장의 형식적 자질를 분석하여 현재 참여중인 대화에서 작성한 문장이 cross-texting인지를 판별하는 모델을 제안했다. 문장에서 높임법, 표층적 완성도 자질을 추출하고 이를 통해 특정 사용자의 대화를 모델링하여 주어진 문장이 대화에 부합하는지 여부를 판단한다. 이같은 방식은 채팅방의 이전 기록만으로도 사용자가 작성한 문장이 cross-texting인지 여부를 쉽게 판단할 수 있는 힌트를 제공할 수 있다. 실제 메신저 대화 말뭉치를 이용해 제작한 데이터에서 94% 정확도로 cross-texting을 탐지했다.

  • PDF

Answer Constraints Extraction on User Question for Wikipedia QA (위키피디아 QA를 위한 질의문의 정답제약 추출)

  • Wang, JiHyun;Heo, Jeong;Lee, Hyungjik;Bae, Yongjin;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.248-250
    • /
    • 2017
  • 질의응답 시스템에서 정답을 제약하기 위한 위키피디아 영역의 정답제약 9개를 정의하고 질문 문장에서 제약표현을 추출하는 방법을 제안한다. 다어절의 정답제약 표현을 추출하기 위해서 언어분석 결과를 활용하여 정답제약 후보를 생성하며 후보단위로 정답제약 표현을 학습하기 위한 자질을 제시한다. 기계학습 방법을 이용하여 정답제약 후보 별로 정답제약 태그를 분류하여 정답제약 표현을 추출한다. 성능 실험은 각 정답제약 태그 별로 F1-Score 평가를 수행하였다.

  • PDF

Answer Constraints Extraction on User Question for Wikipedia QA (위키피디아 QA를 위한 질의문의 정답제약 추출)

  • Wang, JiHyun;Heo, Jeong;Lee, Hyungjik;Bae, Yongjin;Kim, Hyunki
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.248-250
    • /
    • 2017
  • 질의응답 시스템에서 정답을 제약하기 위한 위키피디아 영역의 정답제약 9개를 정의하고 질문 문장에서 제약표현을 추출하는 방법을 제안한다. 다어절의 정답제약 표현을 추출하기 위해서 언어분석 결과를 활용하여 정답제약 후보를 생성하며 후보단위로 정답제약 표현을 학습하기 위한 자질을 제시한다. 기계학습 방법을 이용하여 정답제약 후보 별로 정답제약 태그를 분류하여 정답제약 표현을 추출한다. 성능 실험은 각 정답제약 태그 별로 F1-Score 평가를 수행하였다.

  • PDF

Relation Extraction using Lexical Patterns based on Predicate-Argument Structure (Predicate-Argument Structure 기반의 어휘적 패턴을 이용한 관계 추출)

  • Jeong, Chang-Hoo;Jhun, Hong-Woo;Choi, Yun-Soo;Choi, Sung-Pil
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.748-750
    • /
    • 2010
  • 문서 내에 존재하는 개체들 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있는데, 본 논문에서는 문장 내에 존재하는 각 단어의 predicate-argument 관계를 분석하여 자질로 활용하는 PAS 패턴 기반 관계 추출 시스템을 제안한다. 관계 종류별로 구축된 PAS 패턴 집합을 활용하여 관계 식별기를 개발하였고, 실험을 통하여 개발된 관계 식별기의 성능을 측정하였다. 실험 결과 개체 간의 유의미한 관계를 표현해주는 PAS 패턴이 관계 추출 작업에 유용한 정보임을 알 수 있었다.

Question Analysis and Expansion based on Semantics (의미 기반의 질의 분석 및 확장)

  • Shin, Seung-Eun;Park, Hee-Guen;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.7
    • /
    • pp.50-59
    • /
    • 2007
  • This paper describes a question analysis and expansion based on semantics for on efficient information retrieval. Results of all information retrieval systems include many non-relevant documents because the index cannot naturally reflect the contents of documents and because queries used in information retrieval systems cannot represent enough information in user's question. To solve this problem, we analyze user's question semantically, determine the answer type, and extract semantic features. And then we expand user's question using them and syntactic structures which are used to represent the answer. Our similarity is to rank documents which include expanded queries in high position. Especially, we found that an efficient document retrieval is possible by a question analysis and expansion based on semantics on natural language questions which are comparatively short but fully expressing the information demand of users.

Performance Enhancement of Tree Kernel-based Protein-Protein Interaction Extraction by Parse Tree Pruning and Decay Factor Adjustment (구문 트리 가지치기 및 소멸 인자 조정을 통한 트리 커널 기반 단백질 간 상호작용 추출 성능 향상)

  • Choi, Sung-Pil;Choi, Yun-Soo;Jeong, Chang-Hoo;Myaeng, Sung-Hyon
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.2
    • /
    • pp.85-94
    • /
    • 2010
  • This paper introduces a novel way to leverage convolution parse tree kernel to extract the interaction information between two proteins in a sentence without multiple features, clues and complicated kernels. Our approach needs only the parse tree alone of a candidate sentence including pairs of protein names which is potential to have interaction information. The main contribution of this paper is two folds. First, we show that for the PPI, it is imperative to execute parse tree pruning removing unnecessary context information in deciding whether the current sentence imposes interaction information between proteins by comparing with the latest existing approaches' performance. Secondly, this paper presents that tree kernel decay factor can play an pivotal role in improving the extraction performance with the identical learning conditions. Consequently, we could witness that it is not always the case that multiple kernels with multiple parsers perform better than each kernels alone for PPI extraction, which has been argued in the previous research by presenting our out-performed experimental results compared to the two existing methods by 19.8% and 14% respectively.

A New Method for Improving Performance in ACE Relation Detect ion and Characterization (ACE 관계 추출과 특징화 과정에서 성능 향상을 위한 새로운 방법(1))

  • Kim, Kyung-Duk;Kim, Seok-Hwan;Lee, Gray Geun-Bae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.1-6
    • /
    • 2005
  • 텍스트 기반 문서의 급증으로 인해 정보 추출 기술이 더욱 중요해지고 있다 특히 최근에 활발한 연구가 진행되고 있는 개체 간 관계 추출 기술은 정보검색과 질의응답 등 많은 분야에 걸쳐 활용될 수 있는 기술이다 본 논문은 기존의 자질 기반 관계 추출 시스템의 재현율을 향상시키기 위해 WHISK 알고리즘을 도입한 시스템에 관한 것이다. WHISK 알고리즘은 문장으로부터 관계에 참여하는 개체 쌍을 추출하는 규칙을 자동으로 학습한다. 그리고 시스템은 최대 엔트로피 모델을 이용하여 WHISK에 의해 추출된 개체 쌍에 적합한 관계 유형을 파악해 낸다. 본 논문은 시스템에 사용된 WHISK 알고리즘과 최대 엔트로피 모델에 대해서 알아보고, 실제로 WHISK 알고리즘을 도입하여 관계를 가지는 개체 쌍을 추출하여 문제를 해결했을 때 어느 정도의 성능 향상이 있는지 알아본다.

  • PDF

Solving Automatically Algebra Math Word Problem in Korean (한국어 수학 문장제 문제 자동 풀이)

  • Woo, Changhyub;Gweon, Gahgene
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.310-315
    • /
    • 2018
  • 본 논문에서는 한국어 수학 문장제 문제 자동 풀이를 위한 방법을 소개한다. 수학 문장제 문제란 수학적 관계가 언어와 숫자로 주어질 때, 문제에서 요구하는 정보를 도출하는 수학 문제로, 언어 의미 분석과 수학적 관계 추출이 요구된다. 본 논문에서는 이원 일차 연립 방정식을 포함한 514 문제의 영어 데이터셋을 번역해 한국어 문제를 확보하였다. 또한 한국어의 수학적 관계 표현과 언어 유형적 특성을 고려한 자질 추출을 제안하고, 템플릿 기반 Log-linear 모델이 정답 방정식을 분류하도록 학습하였다. 5겹 교차 검증을 실시한 결과, 영어 문제를 풀이한 선행 연구의 정답률 79.7% 대비 1%p 낮은 78.6%의 정답률을 보였다.

  • PDF