• Title/Summary/Keyword: 코퍼스 도구

Search Result 14, Processing Time 0.026 seconds

A Korean Corpus Analysis Tool for Language Information Acquisition (언어 정보 획득을 위한 한국어 코퍼스 분석 도구)

  • Lee, Ho;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.297-304
    • /
    • 1994
  • 코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.

  • PDF

A Corpus Analysis to the Engineering Academic English (공학학술영어에 대한 코퍼스 분석)

  • Ha, Myung-Jeong;Rhee, Eugene
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.139-140
    • /
    • 2017
  • 본 연구는 공과대학 학생들이 배우는 전공영어로서의 특수목적영어(ESP)에 대해 코퍼스 기반 접근법의 유용성을 논하고자 한다. 이에 본 연구에서는 공과대학에서 사용하는 전공텍스트를 코퍼스로 구축하여 컴퓨터에 기반한 분석에서 나온 결과들을 제시하면서 공학영어 코퍼스의 특성을 살펴보고 궁극적으로 영어매개수업을 듣는 공대학생들의 데이터 기반 학습에 일조하고자 한다. 본 연구에서 사용된 목표 코퍼스는 세부전공과 상관없이 공통적으로 적용되는 공학과목을 선정하여 구축되었고 비교대상인 참조 코퍼스는 British National Corpus를 사용하였다. 공학영어 코퍼스는 총 단어 180만개, 단어 유형 만 6천여개로 이루어졌고 코퍼스 분석도구인 AntConc 3.4.4를 이용하여 빈도 분석과 키워드 분석이 수행되었다. 고빈도수 어휘의 분석결과 목표 코퍼스와 참조 코퍼스에서 가장 빈번하게 나타나는 어휘군은 내용어(content words)보다는 기능어(function words) 형태가 많다는 점이 나타났고 내용어군만 분석결과 참조코퍼스에 비해 공학영어 코퍼스에 과학영역의 변이어가 많이 분포하고 있음이 드러났다. 또한 키워드 분석에서는 공학영어 코퍼스의 키워드 동사군이 전문적인 어휘(technical vocabulary)보다는 비전문적인 학술적 어휘(non-technical academic vocabulary)가 상대적으로 많이 분포되어 있음이 드러나 ESP교육을 실시함에 있어서 전공관련 전문영어와 함께 일반적인 학술 영어에 대한 인식을 고양해야 할 필요성이 대두된다.

  • PDF

Corpus-Based Literary Analysis (코퍼스에 기반한 문학텍스트 분석)

  • Ha, Myung-Jeong
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.9
    • /
    • pp.440-447
    • /
    • 2013
  • Recently corpus linguistic analyses enable researchers to examine meanings and structural features of data, that is not detected intuitively. While the potential of corpus linguistic techniques has been established and demonstrated for non-literary data, corpus stylistic analyses have been rarely performed in terms of the analysis of literature. Specifically this paper explores keywords and their role in text analysis, which is primary part of corpus linguistic analyses. This paper focuses on the application of techniques from corpus linguistics and the interpretation of results. This paper addresses the question of what is to be gained from keyword analysis by scrutinizing keywords in Shakespeare's Romeo and Juliet.

Aligning Word Correspondence in Korean-Japanese Parallel Texts (한국어-일본어 정렬 기법 연구)

  • Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04a
    • /
    • pp.293-296
    • /
    • 2001
  • 병렬 코퍼스의 확보가 과거에 비해 용이하게 됨에 따라 기계번역, 다국어 정보 검색 등 언어처리시스템에 사용하기 위한 대역 사전 구축의 도구로서 정렬(Alignment) 기법에 대한 연구가 필요하다. 본 논문에서는 한국어-일본어 병렬 코퍼스를 이용한 정렬 기법에 관하여 제안한다.

  • PDF

YKanto implemented visualization function (시각화 기능을 탑재한 YKanto)

  • Kwak, Inyup;Hwa, Dosam
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.126-129
    • /
    • 2009
  • YKanto (Ontology Construction System of Yeungnam University & KAIST)[1,2]는 웹 기반 온톨로지 구축 시스템으로써 다수의 온톨로지 구축자가 신문, 사전, 코퍼스 등의 지식 자원으로부터 대용량의 온톨로지를 구축하고 관리할 수 있는 환경을 제공한다. 본 논문에서는 YKanto에서 개발 중인 온톨로지를 2차원 그래프로 시각화 할 수 있는 온톨로지 시각화 도구(Visualization Tool for Ontology)를 설계하고 개발한다. 개발한 온톨로지 시각화 도구는 기존의 개념 및 관계 중심의 시각화 도구와 달리 사건 기반의 온톨로지(event-based ontology)의 가독성을 높이기 위한 사건(event) 중심의 시각화 도구이다. 또한, Java Applet으로 구현하며, YKanto과 연동시킴으로써 개발 중인 온톨로지를 웹 상에서 실시간으로 확인할 수 있도록 한다.

  • PDF

Design and implementation of an efficient part-of-speech annotation tool that has the study facility (학습기능을 가진 효율적인 품사 부착 도구 설계 및 구현)

  • Ahn, Yu-Mi;Oh, Jin-Young;Cha, Jung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.191-196
    • /
    • 2009
  • 본 논문에서는 자바 기반의 품사부착 코퍼스 작성 도구를 제안 및 구현한다. 본 시스템에서는 각 사용자가 독립적으로 실행하지만 주요 데이터베이스는 서버에서 관리함으로서 지식을 공유할 수 있고, 품사부착 작업에 있어 사전에 만들어진 어절 후보로부터의 선택 및 사용자 입력이 가능하도록 한다. 고빈도 오류어절의 자동 표시 기능, 용례 검색을 통한 도움말 기능, 코멘트를 기반으로 구성된 집단 지식을 이용한 도움말 확장 기능 및 사전 검색 기능을 구현한다. 또한, 일관성 검사를 통해 품사부착 결과에 대한 신뢰도 증가 및 작업의 편의성을 증대시킬 수 있도록 설계한다.

  • PDF

CosmoScriBe 2.0 : The development of Korean transcription tools (CosmoScriBe 2.0: 한국어 전사 도구의 개발)

  • Kwak, Sun-Dong;Chang, Moon-Soo
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.24 no.3
    • /
    • pp.323-329
    • /
    • 2014
  • In spoken language research, transcription process needs to be carried out to translate voice data into text. Transcription tool, support program of transcription, offers various information such as content and time of utterance and speaker information. For this reason, inexperienced computer users are having trouble familiarizing with the program. Moreover, since there are little transcription tools developed domestically in Korea, they are usually not suitable for Korean environment. In this paper, we propose a transcription tool which supports not only Korean transcription but easy-to-use interface environment for novice. The transcription supporting function is also provided to minimize mistake that might happen in the process of transcription. And a system structure will be provided for data reliability. Usability of the proposed tool is evaluated in accordance with transcription experience. The evaluation result shows that transcription process and transcription support function have become faster and more convenient respectively.

Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on development results and test operation (천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 개발 결과 및 시험 운영 위주)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Choi, Byung Sook;Lee, Sahng Woon;Park, Raejin
    • The Bulletin of The Korean Astronomical Society
    • /
    • v.45 no.1
    • /
    • pp.56.1-56.1
    • /
    • 2020
  • 한국의 고문헌 중에는 다양한 고천문 기록들이 한문 형태로 존재하며, 이를 학술적으로 활용하기 위해서는 전문 번역가 투입에 따른 많은 비용과 시간이 요구된다. 이에 인공신경망 기계학습에 의한 인공지능 번역기를 개발하여 비록 초벌 번역 수준일지라도 문장 형태의 한문을 한글로 자동번역해 주는 학술 도구를 소개하고자 한다. 이 자동번역기는 한국천문연구원이 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 개발 완료한 것이다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습용 데이터인 천문 고전 코퍼스를 구축하여 이를 기반으로 천문 고전 특화 자동번역 모델을 개발하고 번역 서비스하는 것을 목적으로 한다. 이를 위해 구축되는 시스템은 크게 세 가지이다. 첫째, 로그인이 필요 없이 누구나 웹 접속을 통해 사용이 가능한 클라우드 기반의 고문헌 자동번역 대국민서비스 시스템이다. 둘째, 참여 기관별로 구축된 코퍼스와 도메인 특화된 번역 모델의 생성 및 관리할 수 있는 클라우드 기반의 대기관 서비스 플랫폼 구축이다. 셋째, 개발된 자동번역 Applied Programmable Interface를 활용한 한국천문연구원 내 자체 서비스가 가능한 AITHA 시스템이다. 연구 결과로서 먼저 구축된 천문 고전 코퍼스 60,760건에 대한 샘플링 검수 결과는 품질 순도 99.9% 이상이다. 아울러 도출된 천문 고전 특화 번역 모델 총 20개 중 대표 모델에 대한 성능 평가 결과는 기계 번역 텍스트 품질 평가 알고리즘인 Bilingual Evaluation Understudy 평가에서 40.02점이며, 전문가에 의한 휴먼 평가에서 5.0 만점 중 4.05점이다. 이는 당초 연구 목표로 삼았던 초벌 번역 수준에 충분하며, 현재 개발된 시스템들은 자체 시험 운영 중이다. 이 연구는 특수 고문헌에 해당되는 고천문 기록들의 번역 장벽을 낮춰 관련 연구자들의 학술적 접근 및 다양한 연구에 도움을 줄 수 있다는 점에서 의의가 있다. 또한 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스로써 추후 타 학문 분야 참여 시 시너지 효과도 기대해 볼 수 있다. 고문헌 자동번역기는 점차 더 많은 학습 데이터와 학습량이 쌓일수록 더 좋은 학술 도구로 진화할 것이다.

  • PDF

Comparative Analysis of 4-gram Word Clusters in South vs. North Korean High School English Textbooks (남북한 고등학교 영어교과서 4-gram 연어 비교 분석)

  • Kim, Jeong-ryeol
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.7
    • /
    • pp.274-281
    • /
    • 2020
  • N-gram analysis casts a new look at the n-word cluster in use different from the previously known idioms. It analyzes a corpus of English textbooks for frequently occurring n consecutive words mechanically using a concordance software, which is different from the previously known idioms. The current paper aims at extracting and comparing 4-gram words clusters between South Korean high school English textbooks and its North Korean counterpart. The classification criteria includes number of tokens and types between the two across oral and written languages in the textbooks. The criteria also use the grammatical categories and functional categories to classify and compare the 4-gram words clusters. The grammatical categories include noun phrases, verb phrases, prepositional phrases, partial clauses and others. The functional categories include deictic function, text organizers, stance and others. The findings are: South Korean high school English textbook contains more tokens and types in both oral and written languages. Verb phrase and partial clause 4-grams are grammatically most frequently encountered categories across both South and North Korean high school English textbooks. Stance is most dominant functional category in both South and North Korean English textbooks.

Citation Practices in Academic Corpora: Implications for EAP Writing

  • Min, Su-Jung
    • English Language & Literature Teaching
    • /
    • v.10 no.3
    • /
    • pp.113-126
    • /
    • 2004
  • Explicit reference to the work of other authors is an essential feature of most academic research writings. Corpus analysis of academic text can reveal much about what writers actually do and why they do so. Application of corpus tools in language education has been well documented by many scholars (Pedersen, 1995, Swales, 1990, Thompson, 2000). They demonstrate how computer technology can assist in the effective analysis of corpus based data. For teaching purposes, tills recent research provides insights in the areas of English for Academe Purposes (EAP). The need for such support is evident when students have to use appropriate citations in their writings. Using Swales' (1990) division of citation forms into integral and non-integral and Thompson and Tnbble's (2001) classification scheme, this paper codifies academic texts in a corpus. The texts are academic research articles from different disciplines. The results lead into a comparison of the citation practices m different disciplines. Finally, it is argued that the information obtained in this study is useful for EAP writing courses in EFL countries.

  • PDF