• 제목/요약/키워드: corpus tools

검색결과 25건 처리시간 0.018초

벅아이 코퍼스 오류 수정과 코퍼스 활용을 위한 프랏 스크립트 툴 (Error Correction and Praat Script Tools for the Buckeye Corpus of Conversational Speech)

  • 윤규철
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.29-47
    • /
    • 2012
  • The purpose of this paper is to show how to convert the label files of the Buckeye Corpus of Spontaneous Speech [1] into Praat format and to introduce some of the Praat scripts that will enable linguists to study various aspects of spoken American English present in the corpus. During the conversion process, several types of errors were identified and corrected either manually or automatically by the use of scripts. The Praat script tools that have been developed can help extract from the corpus massive amounts of phonetic measures such as the VOT of plosives, the formants of vowels, word frequency information and speech rates that span several consecutive words. The script tools can extract additional information concerning the phonetic environment of the target words or allophones.

Citation Practices in Academic Corpora: Implications for EAP Writing

  • Min, Su-Jung
    • 영어어문교육
    • /
    • 제10권3호
    • /
    • pp.113-126
    • /
    • 2004
  • Explicit reference to the work of other authors is an essential feature of most academic research writings. Corpus analysis of academic text can reveal much about what writers actually do and why they do so. Application of corpus tools in language education has been well documented by many scholars (Pedersen, 1995, Swales, 1990, Thompson, 2000). They demonstrate how computer technology can assist in the effective analysis of corpus based data. For teaching purposes, tills recent research provides insights in the areas of English for Academe Purposes (EAP). The need for such support is evident when students have to use appropriate citations in their writings. Using Swales' (1990) division of citation forms into integral and non-integral and Thompson and Tnbble's (2001) classification scheme, this paper codifies academic texts in a corpus. The texts are academic research articles from different disciplines. The results lead into a comparison of the citation practices m different disciplines. Finally, it is argued that the information obtained in this study is useful for EAP writing courses in EFL countries.

  • PDF

한국어 교육 관련 국내 코퍼스 연구 동향 (A review of corpus research trends in Korean education)

  • 심은지
    • 아시아태평양코퍼스연구
    • /
    • 제2권2호
    • /
    • pp.43-48
    • /
    • 2021
  • The aim of this study is to analyze the trends of corpus driven research in Korean education. For this purpose, a total of 14 papers was searched online with the keywords including Korean corpus and Korean education. The data was categorized into three: vocabulary education, grammar education and corpus data construction methods. The analysis results suggest that the number of corpus studies in the field of Korean education is not large enough but continues to increase, especially in the research on data construction tools. This suggests there is a significant demand in corpus driven studies in Korean education field.

코드클론 표본 집합체 자동 생성기 (Automatic Generation of Code-clone Reference Corpus)

  • 이효섭;도경구
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제7권1호
    • /
    • pp.29-39
    • /
    • 2011
  • 프로그램 내의 코드클론을 찾아주는 도구나 기술들을 평가하기 위해서는 해당 도구가 탐지하는 못하는 클론이 있는지 확인해야 한다. 이를 위해서 샘플 소스코드에 대해서 코드클론을 모두 모아놓은 표준 표본 집합체가 필요하다. 그런데 기존의 코드클론 표본 집합체는 여러 클론탐지 도구의 결과들을 참조해 수작업으로 구축하지만 평가 기준으로 사용하기에는 빠져있는 표본이 많다. 본 연구에서는 자동으로 코드클론 표본 집합체를 생성하는 방법을 제안하고 도구를 구현하였다. 이 도구는 프로그램 소스를 핵심구문트리로 변환한 뒤, 트리를 샅샅이 비교하여 클론 패턴을 찾아낸다. 본 도구는 오탐이 없으며, 특정한 패턴을 제외하고 미탐도 없어서 코드클론 표본 집합체를 자동으로 생성하기 적합하다. 실험결과 상용도구인 CloneDR에서 찾아낸 클론을 모두 포함하면서 2-3배 더 많은 클론들을 찾아내었고, Bellon의 기존 표본 집합체의 클론들을 거의 대부분 포함(93-100%)하면서 자동 구축한 표본 집합체의 크기가 훨씬 크다.

한국어 품사 부착 말뭉치의 오류 검출 및 수정 (Detecting and correcting errors in Korean POS-tagged corpora)

  • 최명길;서형원;권홍석;김재훈
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제37권2호
    • /
    • pp.227-235
    • /
    • 2013
  • 품사 부착 말뭉치의 품질은 품사 부착기를 개발하는데 있어서 매우 중요한 역할을 수행한다. 그러나 세종 말뭉치를 비롯하여 한국에서 구축된 많은 품사 부착 말뭉치들은 여전히 다양한 형태의 오류를 포함하고 있다. 이런 오류들을 살펴보면 품사 부착 오류는 물론이고 철자 오류, 문자의 삽입 및 삭제 등 매우 다양하다. 본 논문에서는 오류 패턴을 이용하여 품사 부착 오류를 검출하고 이를 효과적으로 수정하는 도구를 개발한다. 제안된 방법과 도구를 이용해서 오류를 수정할 경우 평균 9배 이상 빠르게 오류를 수정할 수 있어서 이 방법이 매우 효과적인 방법임을 확인할 수 있었다.

Semi-Automatic Annotation Tool to Build Large Dependency Tree-Tagged Corpus

  • Park, Eun-Jin;Kim, Jae-Hoon;Kim, Chang-Hyun;Kim, Young-Kill
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.385-393
    • /
    • 2007
  • Corpora annotated with lots of linguistic information are required to develop robust and statistical natural language processing systems. Building such corpora, however, is an expensive, labor-intensive, and time-consuming work. To help the work, we design and implement an annotation tool for establishing a Korean dependency tree-tagged corpus. Compared with other annotation tools, our tool is characterized by the following features: independence of applications, localization of errors, powerful error checking, instant annotated information sharing, user-friendly. Using our tool, we have annotated 100,904 Korean sentences with dependency structures. The number of annotators is 33, the average annotation time is about 4 minutes per sentence, and the total period of the annotation is 5 months. We are confident that we can have accurate and consistent annotations as well as reduced labor and time.

  • PDF

PPEditor: 한국어 의존구조 부착을 위한 반자동 말뭉치 구축 도구 (PPEditor: Semi-Automatic Annotation Tool for Korean Dependency Structure)

  • 김재훈;박은진
    • 정보처리학회논문지B
    • /
    • 제13B권1호
    • /
    • pp.63-70
    • /
    • 2006
  • 말뭉치(corpus)는 많은 언어 정보를 포함하고 있으며, 언어처리 및 계산언어학 분야에서 다양한 용도로 사용되고 있다. 그러나 말뭉치에 언어 정보를 부착하는 데는 많은 시간과 인력이 소요된다. 이 문제를 완화시키기 위해서 말뭉치 구축 도구가 반드시 요구된다. 본 논문에서는 한국어 의존구조 부착을 위한 말뭉치 구축 도구의 설계 및 구현에 관해서 기술한다. 가장 이상적인 방법은 주석자가 전혀 개입하지 않고, 말뭉치를 구축하는 것이나 이것은 사실상 불가능하다. 따라서 대부분의 말뭉치 구축 도구는 반자동으로 구성되어 있으며, 본 논문에서 제안된 도구도 반자동이다. 제안된 도구는 언어 분석기의 분석 결과에 내포된 오류를 효과적으로 수정할 수 있고, 또한 가능한 한 반복적인 작업을 피할 수 있으며 쉽게 사용할 수 있도록 인터페이스를 설계하였다. 제안된 시스템을 이용해서 20어절 이상의 1만 문장에 의존구조를 부착해 보았다. 잘 훈련된 8명의 주석자들이 매일 4시간씩 2개월 동안 구축하였으며, 그 결과는 정확하고 일관성 있는 말뭉치를 구축할 수 있었으며, 작업 시간과 인력도 크게 줄일 수 있었다.

A Corpus-Based Study on Korean EFL Learners' Use of English Logical Connectors

  • Ha, Myung-Jeong
    • International Journal of Contents
    • /
    • 제10권4호
    • /
    • pp.48-52
    • /
    • 2014
  • The purpose of this study was to examine 30 logical connectors in the essay writing of Korean university students for comparison with the use in similar types of native English writing. The main questions addressed were as follows: Do Korean EFL students tend to over- or underuse logical connectors? What types of connectors differentiate Korean learners from native use? To answer these questions, EFL learner data were compared with data from native speakers using computerized corpora and linguistic software tools to speed up the initial stage of the linguistic analysis. The analysis revealed that Korean EFL learners tend to overuse logical connectors in the initial position of the sentence, and that they tend to overuse additive connectors such as 'moreover', 'besides', and 'furthermore', whereas they underuse contrastive connectors such as 'yet' and 'instead'. On the basis of the results of this study, some pedagogical implications are made concerning the need for teaching of the semantic, stylistic, and syntactic behavior of logical connectors.

북한 제1중학교 영어교과서 분석 (Analysis of the English Textbooks in North Korean First Middle School)

  • 황서연;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.242-251
    • /
    • 2017
  • 본 연구는 북한의 수재양성 기관인 제1중학교의 영어교과서를 코퍼스로 구축한 후, 이를 분석하여 언어적 특징을 파악한 연구이다. 그동안 북한의 일반중학교의 영어교과서의 특징들을 파악한 연구는 많았지만, 북한의 수재교육기관인 제1중학교 영어교과서에 대한 연구는 부족했다. 이를 위하여 북한자료센터에서 입수한 제1중학교 1학년, 2학년, 4학년, 6학년 영어 교과서 구성 체계를 살펴보고, 코퍼스를 구축한 후, 워드스미스 툴스 7.0을 활용하여 제1중학교 영어 교과서의 언어적인 특징과 고빈도 내용어를 분석하였다. 기본적인 통계 정보를 살펴본 결과, 학년의 위계에 따라 어휘 수가 증가하지는 않았으나 어휘다양성은 고학년으로 갈수록 순차적으로 높아지는 경향성이 발견되었다. 한편 학년별 고빈도 내용어의 분포를 살펴본 결과, 각 학년별 교과서에 수록된 지문의 주제에 따라 학년별로 큰 차이를 보였다.

대화음성인식 시스템 구현을 위한 기본 플랫폼 개발 (Development of a Baseline Platform for Spoken Dialog Recognition System)

  • 정민화;서정연;이용주;한명수
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.32-35
    • /
    • 2003
  • This paper describes our recent work for developing a baseline platform for Korean spoken dialog recognition. In our work, We have collected about 65 hour speech corpus with auditory transcriptions. Linguistic information on various levels such as mophology, syntax, semantics, and discourse is attached to the speech database by using automatic or semi-automatic tools for tagging linguistic information.

  • PDF