• 제목/요약/키워드: 통신 언어

검색결과 1,250건 처리시간 0.031초

영한 및 한영 통계기반 기계번역에서의 이중언어 간 어순처리 및 단어정렬 최적화 방안 연구 (The study of Method for Optimization of Phrase Ordering Process and Word Alignment between Parallel Languages in Korean-English Statistic Based Machine Translation)

  • 정상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2013
  • 통계기반 기계번역 시스템 (SBMT system)은 기계번역시스템 중에서 최근 활발히 연구되고 있는 분야이다. 통계기반 기계번역은 대용량의 말뭉치를 사용할 수 있어 특정 언어 쌍에 제한을 덜 받아 모델을 자동으로 학습할 수 있으며 다른 언어에 일반화하여 적용이 가능하다는 장점이 있다. 그러나 영어와 한국어 간 통계기반 기계번역에 있어서는 어순의 차이로 인한 문제를 해결할 필요성이 여전히 남아 있다. 이에 본 연구에서는 영어와 한국어 간 이중언어 말뭉치를 구축하고 통계기반 기계번역 훈련 시스템인 Moses 에 기반하여 구현한 베이스 시스템을 이용하여 이중언어 간 어순처리 및 단어정렬의 최적화 방안을 연구하였다.

PALM 기반 한국어 T5 개선: 기계독해 및 텍스트 요약으로의 응용 (PALM for Improving Korean T5: Application to Machine Reading Comprehension & Text Summarization)

  • 박은환;나승훈;임준호;김태형;최윤수;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.501-504
    • /
    • 2021
  • 최근 언어 모델은 분류, 기계 독해, 생성 등의 태스크에서 성공적인 결과를 보여주고 있다. 본 논문에서는 최근 많은 관심을 받고 있는 인코더-디코더 구조의 언어 모델인 BART, T5 그리고 PALM을 위키피디아 한국어 데이터 집합으로 사전 학습한 후 기계 독해와 문서 생성 요약 태스크에 대하여 미세 조정을 하고 성능 비교를 한다.

  • PDF

기계학습 기법을 이용한 문장경계인식 (Sentence Boundary Detection Using Machine Learning Techniques)

  • 박수혁;임해창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2008
  • 본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

SW교육을 위한 EPL(Education-Programming-Language)의 동향 분석 및 교육 방안 제시 (EPL(Education - Programming - Language) for SW education trend analysis and education scheme presented)

  • 김근호;서성원;김의정
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.321-324
    • /
    • 2015
  • 본 연구는 세계적으로 SW교육에 대한 관심이 늘어감에 따라서 국내 중 고등학교에서도 2018학년도부터 중학교부터 SW교육을 필수과목으로 실시하게 되었다. 이에 따라 교육현장에서도 학생들의 SW교육을 위하여 여러 가지 교수학습 방안이 제시 되고 있는데 그중 교육용 프로그래밍 언어를 활용한 교수-학습방안이 있다. 교육용 프로그래밍 언어는 대상과 수준에 따라 현재에 40여종의 교육용 프로그래밍 언어가 사용되고 있는데 본 논문에서는 현재 국내 교육현장에서 사용되고 있는 교육용 프로그래밍 언어를 비교 분석하고 중 고등학교에서 어떤 교육용 프로그래밍 언어를 사용하고 어떻게 사용할 수 있는지에 대한 방안을 제시하고자 한다.

  • PDF

기계독해 데이터셋의 교차 평가 및 블라인드 평가를 통한 한국어 기계독해의 일반화 성능 평가 (Evaluating Korean Machine Reading Comprehension Generalization Performance using Cross and Blind Dataset Assessment)

  • 임준호;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2019
  • 기계독해는 자연어로 표현된 질문과 단락이 주어졌을 때, 해당 단락 내에 표현된 정답을 찾는 태스크이다. 최근 기계독해 태스크도 다른 자연어처리 태스크와 유사하게 BERT, XLNet, RoBERTa와 같이 사전에 학습한 언어모델을 이용하고 질문과 단락이 입력되었을 경우 정답의 경계를 추가 학습(fine-tuning)하는 방법이 우수한 성능을 보이고 있으며, 특히 KorQuAD v1.0 데이터셋에서 학습 및 평가하였을 경우 94% F1 이상의 높은 성능을 보이고 있다. 본 논문에서는 현재 최고 수준의 기계독해 기술이 학습셋과 유사한 평가셋이 아닌 일반적인 질문과 단락 쌍에 대해서 가지는 일반화 능력을 평가하고자 한다. 이를 위하여 첫번째로 한국어에 대해서 공개된 KorQuAD v1.0 데이터셋과 NIA v2017 데이터셋, 그리고 엑소브레인 과제에서 구축한 엑소브레인 v2018 데이터셋을 이용하여 데이터셋 간의 교차 평가를 수행하였다. 교차 평가결과, 각 데이터셋의 정답의 길이, 질문과 단락 사이의 오버랩 비율과 같은 데이터셋 통계와 일반화 성능이 서로 관련이 있음을 확인하였다. 다음으로 KorBERT 사전 학습 언어모델과 학습 가능한 기계독해 데이터 셋 21만 건 전체를 이용하여 학습한 기계독해 모델에 대해 블라인드 평가셋 평가를 수행하였다. 블라인드 평가로 일반분야에서 학습한 기계독해 모델의 법률분야 평가셋에서의 일반화 성능을 평가하고, 정답 단락을 읽고 질문을 생성하지 않고 질문을 먼저 생성한 후 정답 단락을 검색한 평가셋에서의 기계독해 성능을 평가하였다. 블라인드 평가 결과, 사전 학습 언어 모델을 사용하지 않은 기계독해 모델 대비 사전 학습 언어 모델을 사용하는 모델이 큰 폭의 일반화 성능을 보였으나, 정답의 길이가 길고 질문과 단락 사이 어휘 오버랩 비율이 낮은 평가셋에서는 아직 80%이하의 성능을 보임을 확인하였다. 본 논문의 실험 결과 기계 독해 태스크는 특성 상 질문과 정답 사이의 어휘 오버랩 및 정답의 길이에 따라 난이도 및 일반화 성능 차이가 발생함을 확인하였고, 일반적인 질문과 단락을 대상으로 하는 기계독해 모델 개발을 위해서는 다양한 유형의 평가셋에서 일반화 평가가 필요함을 확인하였다.

  • PDF

한국어의 어순 구조를 고려한 Two-Path 언어모델링 (Two-Path Language Modeling Considering Word Order Structure of Korean)

  • 신중휘;박재현;이정태;임해창
    • 한국음향학회지
    • /
    • 제27권8호
    • /
    • pp.435-442
    • /
    • 2008
  • n-gram 모델은 영어와 같이 어순이 문법적으로 제약을 받는 언어에 적합하다. 그러나 어순이 비교적 자유로운 한국어에는 적합하지 않다. 기존 연구는 어절 간 어순의 고려가 어려운 한국어의 특성을 반영한 twoply HMM을 제안했으나, 인접 어절 간 어순 구조를 반영하지 못하였다. 본 논문에서는 용언형태소 사이에 나타나는 인접 어절 간에 어순 특성을 반영하기 위해 두 어절을 결합하는 세그먼트 단위를 정의하고, 제안한 세그먼트 단위에서 문맥에 따라 확률을 달리 추정하는 two-path 언어모델을 제안한다. 그 결과 기존 한국어 언어모델에 비해 제안하는 two-path 언어모델은 기존 연구보다 25.68% 혼잡도를 줄였으며, 어절 간에 결합이 일어나는 경계인 용언형태소에서는 94.03%의 혼잡도를 줄였다.

페르소나 기반 한국어 대화 모델링을 위한 데이터셋 (A Dataset for Persona-based Korean Dialogue Modeling )

  • 이요한;김현;신종훈;조민수;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-516
    • /
    • 2022
  • 페르소나 기반의 대화 시스템은 일관적인 대화를 수행할 수 있어 많은 관심을 받고 있다. 영어권에서 구축된 페르소나 대화 데이터셋은 서로의 페르소나를 알아가기 보다는 자신의 페르소나에 대해서만 말하는 경향을 보이며 이는 상대방의 말을 이해하여 관련 대화를 진행하는 대화의 특성을 반영하지 못한다. 본 연구에서는 회사 방문객이 안내 시스템과 대화하는 상황을 가정하여 안내 시스템이 주도적으로 방문객의 페르소나를 묻고 관련 대화를 수행하는 데이터셋을 구축함과 동시에 목적지향 대화 시스템의 대화 관리 프레임워크를 기반으로 시스템 주도적인 대화를 모델링하는 페르소나 대화 관리 모델을 제안한다. 실험을 통해 제안한 대화 관리 모델의 대화 이해 및 정책 성능을 검증하고 방문객의 페르소나를 예측할 때 대화 정책의 성능이 향상됨을 보임으로써 구축한 데이터셋이 이해와 정책이 포함된 대화의 특성을 반영하는 것을 확인한다.

  • PDF

풍력 발전의 원격 감시 제어를 위한 IEC 61400-25 기반의 XML을 사용한 웹 인터페이스 구현에 관한 연구 (An Study on Implementation of the Web interface based on IEC 61400-25 using XML for Remote Supervisory Control at Wind Power Plants)

  • 서민제;이정훈;김관수;이홍희
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2008년도 하계학술대회 논문집
    • /
    • pp.332-334
    • /
    • 2008
  • 최근 IEC는 변전소 자동화 시스템의 국제표준인 IEC 61850을 기반으로 하는 풍력 발전단지의 원격 감시 제어를 위한 통신시스템 표준인 IEC 61400-25를 발표하였다. 본 논문에서는 가상의 풍력 발전 통신 시스템을 SISCO 사의 "MMS-EASE Lite" 개발 도구를 사용하여 풍력 발전의 원격 감시 제어를 위한 서버와 클라이언트 간의 MMS 통신 서비스를 구현한다. 또한 IEC 61400-25 기반의 웹 인터페이스 구현을 위하여 뛰어난 확장성을 가진 XML(Extensible Markup Language, 확장성 생성 언어) 언어를 사용하여 풍력 발전단지의 논리 노드(Logical Node)를 구성하고, 원격 감시를 위한 웹 인터페이스를 구현하는 방법을 제안하고 실제 인터넷 환경에서 검증한다.

  • PDF

홈 게이트웨이상에서 이더넷 접속용 VoIP 장비 개발 (Implementation of VoIP Equipment for Ethernet Connection based on Home gateway Environment)

  • 이용수;정중수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.763-765
    • /
    • 2004
  • 오늘날 인터넷은 가장 주목받고 있는 정보통신 혁명을 주도하였다. 회사, 연구소, 대학교 다양한 직장에서는 서브넷에 이더넷망을 구축하고, 백본망에는 FDDI, ATM 등의 다양한 고속망을 구축하여 인터넷 서비스를 제공받고 있는 상황이다. 아울러 가정이나 소규모 오피스에서는 홈 게이트웨이 장비를 활용하여 인터넷에 접속하고 있는 상황이다. 홈 게이트웨이 장비에 접속되어 PC에서 인터넷 전화, 데이터 통신을 하는 통신장비의 개발에 필수적이다. 본 논문에서는 홈 게이트웨이와 접속되는 이더넷 접속용 VoIP 장비를 임베디드 OS 환경하에서 개발하였다. 개발 환경으로는 STLC1502$^{[4]}$ 를 싱글 칩 솔루션으로, VxWorks$^{[6]}$ 를 RTOS로 활용하고, VoIP 표준 Protocol인 H.323$^{[5]}$ 뿐 아니라 DHCP, NAT, PPP를 채택하였으며 코딩 언어는 ANSIC 언어를 사용하였다. 홈 게이트웨이와 이더넷으로 접속되는 본 장비 황용은 이더넷 포트를 통한 PC상에서의 인터넷 서비스 및 본 장비에 장착된 인터넷 전화이다.

  • PDF

MIB 생성을 위한 GDMO 개발 환경 (GDMO development environment for MIB generation)

  • 김성근;최재영;김명호;조민구
    • 한국통신학회논문지
    • /
    • 제22권9호
    • /
    • pp.1907-1915
    • /
    • 1997
  • TMN에서의 망관리는 망에 존재하는 운영체제나 통신 장비를 객체로 정의하고 관리한다. 이들 객체를 기술하기위해 GDMO(Guidelines for the Definition of Mannged Object)를 사용하고 있다. GDMO는 망관리를 위해 직접 사용되지 않으며 객체지향 파라다임을 가지는 언어로 변환되어 사용되어진다. GDMO 명세를 MIB(Management Information Base) 생성에 사용되는 객체지향 언어로 자동 번역하는 번역기를 설계하고 이를 구현하였다. 또한 본 시스템은 GDMO 개발 환경의 향상을 위해 다양한 그래픽 사용자 인터페이스를 포함한다.

  • PDF