• 제목/요약/키워드: 코퍼스

검색결과 487건 처리시간 0.02초

공학학술영어에 대한 코퍼스 분석 (A Corpus Analysis to the Engineering Academic English)

  • 하명정;이유진
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.139-140
    • /
    • 2017
  • 본 연구는 공과대학 학생들이 배우는 전공영어로서의 특수목적영어(ESP)에 대해 코퍼스 기반 접근법의 유용성을 논하고자 한다. 이에 본 연구에서는 공과대학에서 사용하는 전공텍스트를 코퍼스로 구축하여 컴퓨터에 기반한 분석에서 나온 결과들을 제시하면서 공학영어 코퍼스의 특성을 살펴보고 궁극적으로 영어매개수업을 듣는 공대학생들의 데이터 기반 학습에 일조하고자 한다. 본 연구에서 사용된 목표 코퍼스는 세부전공과 상관없이 공통적으로 적용되는 공학과목을 선정하여 구축되었고 비교대상인 참조 코퍼스는 British National Corpus를 사용하였다. 공학영어 코퍼스는 총 단어 180만개, 단어 유형 만 6천여개로 이루어졌고 코퍼스 분석도구인 AntConc 3.4.4를 이용하여 빈도 분석과 키워드 분석이 수행되었다. 고빈도수 어휘의 분석결과 목표 코퍼스와 참조 코퍼스에서 가장 빈번하게 나타나는 어휘군은 내용어(content words)보다는 기능어(function words) 형태가 많다는 점이 나타났고 내용어군만 분석결과 참조코퍼스에 비해 공학영어 코퍼스에 과학영역의 변이어가 많이 분포하고 있음이 드러났다. 또한 키워드 분석에서는 공학영어 코퍼스의 키워드 동사군이 전문적인 어휘(technical vocabulary)보다는 비전문적인 학술적 어휘(non-technical academic vocabulary)가 상대적으로 많이 분포되어 있음이 드러나 ESP교육을 실시함에 있어서 전공관련 전문영어와 함께 일반적인 학술 영어에 대한 인식을 고양해야 할 필요성이 대두된다.

  • PDF

SGML 기반 비교 가능 코퍼스 구축 (The Contruction of the Comparable Corpus Based on SGML)

  • 이창열;김용순;김성혁
    • 정보관리학회지
    • /
    • 제15권3호
    • /
    • pp.7-26
    • /
    • 1998
  • 대규모 문헌 자료는 정보원으로써 다양한 목적에 사용될 수 있다. 언어간 정보검색에서 한 언어의 단어가 다의미적(polymorphic)일 경우 대상 언어로 정확한 번역을 위하여 언어간 대응 구조를 제공하는 다국어 코퍼스가 필요하다. 본 논문에서는 언어간 정보검색에서 대응 구조로 사용될 수 있는 비교 가능한 코퍼스를 구축하였다. 구축된 코퍼스(KFCM)는 유럽 6개 국어로 구축된 금융 관련 기사 자료인 MLCC 코퍼스에 대응되는 코퍼스로 다양한 목적에 사용되며, MLCC 코퍼스로부터 독립적으로 구축한 SGML 기반 코퍼스이다. 본 논문에서는 KFCM의 응용과 코퍼스 구축 과정에서 발생하는 기술적 사항을 기술하였으며, 구축된 자료를 웹에 공개하였다.

  • PDF

한국어최적상호명코퍼스설계에관한연구 (A Study on the optimal text corpus for company names)

  • 이선정
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권7호
    • /
    • pp.747-754
    • /
    • 2004
  • 본 논문에서는 114 안내시스템에 저장되어있는 서로 중복되어 있지 않는 1,566,943개의 상호명 코퍼스에서 이 코퍼스의 특징을 가장 잘 표현 해 줄 수 있는 최적 코퍼스를 설계하였다. 최적 코퍼스를 구하기 위해 두 단계의 방식을 택한다. 일 단계는 기본코퍼스에 존재하는 트라이폰이 모두 나타내는 최소의 단어 셋을 구하는 최적 음소균형 코퍼스 셋이고 다음 단계는 기본코퍼스에 존재하는 트라이폰의 빈번도를 고려하는 최소의 단어 셋을 구하는 음소 분포코퍼스 셋을 설계하였다. 실험 결과 최적 음소 균형 셋으로 8,699단어가 선정되었으며 최적 음소 분포 균형 셋으로 16,783 단어가 선정되었다. 이러한 최적 코퍼스는 음성 및 합성 시스템을 위한 음성데이터베이스를 구축 할 때 이용된다.

  • PDF

차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법 연구 (Study on Method Constructing Dialog Act Tagged Corpus for Dialog System in Car)

  • 최승권;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-184
    • /
    • 2012
  • 본 논문에서는 한국전자통신연구원 언어처리연구팀에서 개발하고 있는 차량용 대화 시스템을 위한 Dialog Act 태깅 코퍼스 구축 방법에 대해 기술하는 것을 목표로 한다. 차량용 태깅 코퍼스 구축 방법은 크게 차량용 대화 코퍼스 수집과 수집된 대화 코퍼스에 Dialog Act를 반자동으로 태깅하는 방법으로 나눌 수 있다. 차량용 대화 코퍼스 수집은 1) 대화플랜 맵 구축, 2) 표준대화 구축, 3) 자유대화 구축, 4) 사용자 발화에 패러프래징 발화 구축의 순으로 구축되었다. Dialog Act 태깅은 수집된 대화코퍼스로부터 슬롯 후보를 추출하여 슬롯 체계를 구축한 후 반자동 슬롯 태깅을 실시하고, 슬롯 태깅 결과와 Dialog Act Type을 조합하여 Dialog Act 태깅 코퍼스를 구축하였다. 이렇게 구축된 Dialog Act 태깅 코퍼스는 차량 공조시스템(에어컨, 히터 등) 및 차량 응급 조치 정보 서비스와 같은 차량용 대화 시스템에 적용 중에 있다.

  • PDF

대화 코퍼스의 구축 및 주석 정보의 구조적 문서화 (Construction of Dialogue Corpus and Structured Documentation of Annotation Information)

  • 강창규;김영일;김봉완;이용주
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.269-272
    • /
    • 2003
  • 음성인식의 연구 대상은 낭독음성에서 대화음성으로 발전해가고 있다. 이를 위해서는 대량의 대화코퍼스가 필요하다. 그러나 아직 충분한 양의 대화코퍼스가 구축되어 있지 못하며 코퍼스의 주석 정보 또한 복잡하고 다양하게 표현하고 있어 효율적인 활용이 어렵다. 따라서 본 논문에서는 대화 영역으로 텔래뱅킹 영역을 설정하고 대화코퍼스를 구축하여 구축된 대화코퍼스의 주석 정보를 XML(Extensible Markup Language)로 표준화할 수 있도록 DTD(Document Type Definition)를 정의하여 문서 구조화하였다.

  • PDF

코퍼스를 이용한 감성 사전 자동 확장 (An Automatic Expansion of Sentiment Lexicon by Using Corpus)

  • 이공주;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-161
    • /
    • 2010
  • 본 연구에서는 기본 감성 사전과 대량의 코퍼스를 이용하여 대상 코퍼스에서 사용하는 확장된 감성 표현을 자동으로 추출하는 방법을 제안한다. 대상 코퍼스로는 방송사들이 운영하는 시청자 게시판의 게시글을 대상으로 하였다. 이와 같은 방법으로 대상 코퍼스에서 사용하는 구체적인 감성 패턴들을 추출할 수 있었다.

  • PDF

대화형 코퍼스의 설계 및 구조적 문서화에 관한 연구 (A Study in Design and Construction of Structured Documents for Dialogue Corpus)

  • 강창규;남명우;양옥렬
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.1-10
    • /
    • 2004
  • 음성인식의 연구 대상은 낭독음성에서 대화음성으로 발전해가고 있다. 이를 위해서는 대량의 대화코퍼스가 필요하다. 그러나 아직 충분한 양의 대화코퍼스가 구축되어 있지 못하며 코퍼스의 주석 정보 또한 복잡하고 다양하게 표현하고 있어 효율적인 활용이 어렵다. 따라서 본 논문에서는 TEI를 기반으로 하여 대화 영역을 텔레뱅킹으로 설정하고 대화코퍼스를 구축하여 구축된 대화코퍼스의 주석 정보를 XML(extensible Markup Language)로 표준화할 수 있도록 DTD (Document Type Definition) 정의하고 저장 시스템을 설계하였다.

  • PDF

특수목적영어 교육을 위한 해사영어코퍼스 구축 (A Compilation of Maritime English Corpus for English for Specific Purposes Education)

  • 이성민;김재훈;장세은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-164
    • /
    • 2015
  • 본 연구는 특수목적영어분인 해사영어코퍼스의 구축을 목적으로 한다. 구축과정에서 코퍼스 구축에 필요한 대표성과 균형성을 고려하여 네 가지 장르인 학술, 뉴스, 법, 책으로 나누고 각 하위코퍼스를 백만 단어씩 구축하였다. 코퍼스 구축과정에서 웹사이트와 PDF형태의 자료에서 텍스트만을 수집하고 정제하기 위하여 파이썬(Python) 프로그래밍 코딩을 하였고 무료 공개 프로그램도 병행하였다. 앞으로 해사영어코퍼스는 해사영어어휘교육에 필요한 단어목록제공이나 예문 검색 등을 통한 자료중심학습법에 활용될 수 있을 것이다. 또한 본 연구의 코퍼스구축 과정은 다른 분야의 ESP코퍼스 구축에도 응용 될 수 있을 것이다.

  • PDF

SiTEC의 공동 이용을 위한 음성 코퍼스 구축 현황 및 계획 (Current States and Future Plans at SiTEC for Speech Corpora for Common Use)

  • 김봉완;최대림;김영일;이광현;이용주
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.27-31
    • /
    • 2003
  • 음성정보기술 산업을 효과적으로 지원하기 위해서는 상품 및 기술의 개발을 위한 표준화된 음성 코퍼스의 구축 및 보급이 필수적이라고 할 수 있다. 본 논문에서는 음성정보기술산업지원센터(SiTEC)의 1∼2차년도 (2001. 5. 1 ∼ 2003. 4. 30)의 사업기간 중에 구축된 음성 코퍼스의 현황 및 향후 계획을 소개한다. 전통산업분야에 대한 음성정보기술 적용확산을 위한 자동차 소음 및 대규모 다채널 자동차 음성 코퍼스, 수출지원을 위한 다양한 외국어 음성 코퍼스, 방음실 환경에서의 인식 및 운율 합성 연구용 코퍼스, Dictation용 음성 코퍼스, 아동용 음성 코퍼스 등의 구축 내용이 소개된다.

  • PDF

대량의 한국어 구문 트리 태깅 코퍼스 구축을 위한 구문 트리 태깅 워크벤치의 설계 및 구현 (Design and Implementation of Tree Tagging Workbench To Build a Large Tree Tagged Corpus of Korean)

  • 장병규;이공주;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.421-429
    • /
    • 1997
  • 한국어 구문 트리 태깅 코퍼스는 한국어 문장의 구문 구조가 구문 트리 형태로 태깅된 코퍼스이다. 코퍼스 구축은 사람(annotator)에 의하여 수작업으로 이루어지므로, 많은 시간과 인력을 소모하는 작업이다. 그렇기 때문에 코퍼스 구축을 도와주는 구문 트리 태깅 워크벤치는 코퍼스 구축에 필수적인 요소이다. 본 논문에서는 대량의 구문 트리 태깅 코퍼스를 일관되고 빠르게 구축하기 위한 워크벤치 설계시의 고려 사항을 제시한다. 이러한 고려 사항을 기반으로, 다소 정확한 부분에 대한 태깅만을 수행하는 부분 구문 분석, 태깅한 결과에 대한 검증 과정인 일관성 검사, 편한 구문 트리 태깅을 고려한 사용자 인터페이스, 플랫폼 독립적인 구현 등과 같은 워크벤치의 실제 구현에 대하여 설명한다. 또한, 구문 트리 태깅 워크벤치의 앞으로의 연구 방향을 제시한다.

  • PDF