• Title/Summary/Keyword: 교차언어

Search Result 108, Processing Time 0.025 seconds

Novel Intent Category Discovery using Contrastive Learning (대조학습을 활용한 새로운 의도 카테고리 발견)

  • Seungyeon Seo;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.107-112
    • /
    • 2023
  • 라벨 데이터 수집의 어려움에 따라 라벨이 없는 데이터로 학습하는 준지도학습, 비지도학습에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 그의 일환으로 Novel Intent Category Discovery(NICD) 문제를 제안하고 NICD 연구의 베이스라인이 될 모델을 소개한다. NICD 문제는 라벨이 있는 데이터와 라벨이 없는 데이터의 클래스 셋이 겹치지 않는다는 점에서 기존 준지도학습의 문제들과 차이가 있다. 제안 모델은 RoBERTa를 기반으로 두 개의 분류기를 추가하여 구성되며 라벨이 있는 데이터셋과 라벨이 없는 데이터셋에서 각각 다른 분류기를 사용하여 라벨을 예측한다. 학습방법은 2단계로 먼저 라벨이 있는 데이터셋으로 요인표현을 학습한다. 두 번째 단계에서는 교차 엔트로피, 이항교차 엔트로피, 평균제곱오차, 지도 대조 손실함수를 NICD 문제에 맞게 변형하여 학습에 사용한다. 논문에서 제안된 모델은 라벨이 없는 데이터셋에 대해 이미지 최고성능 모델보다 24.74 더 높은 정확도를 기록했다.

  • PDF

Spontaneous Speech Translation System Development (대화체 음성언어 번역 시스템 개발)

  • Park, Jun;Lee, Young-jik;Yang, Jae-woo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.281-286
    • /
    • 1998
  • ETRI에서 개발 중인 대화체 음성언어번역 시스템에 대하여 기술한다. 현재, ETRI는 DAM성언어번역 국제 공동 연구콘서시움인 C-STAR에 핵심참가기관으로 참여하여, 한일, 한영음성언어번역 시스템을 개발하고 있으며 1999년 국제 공동시험을 계획하고 이?. 최근의 연구 진행상황을 간추리면, 먼저 음성인식분야에서 유무성음 및 묵음정보를 미리 추출하여 이를 탐색에 활용하였으며, 음향모델 규모의 설정을 위한 교차 엔트로피 기반 변이음 군집화 알고리즘이 구현되었다. 또한 대상어휘의 확장을 위하여 의사형태소의 개념을 도입하였다. 언어번역분야에서는 이전과 같은 개념기반의 번역을 시도하고 있으며, C-STAR 회원기관과 공동으로 중간언어 규격을 정의하고 있다. 음성합성분야에서는 훈련형 합성기를 개발하여 합성데이타베이스 구축기간을 현저하게 줄였다.

  • PDF

Malicious Cross Site Script Filtering Using ACL (접근 제어를 이용한 교차 사이트 스크립트 필터링)

  • 김형주;예홍진;조은선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04a
    • /
    • pp.799-801
    • /
    • 2002
  • 최근 웹 메일은 사용과 관리의 편리함 등으로 그 사용이 점점 더 늘어나고 있다. 그러나 웹 메일은 본래 보안 기능을 중시해서 만들지 않았다는 보안 취약점으로 인해 탈법적인 해킹이나 토정 같은 악의적인 공격의 대상이 되고 있다. 특히 e-메일과 HTML, 스크립트 언어들을 함께 사용할 수 있게 된 이후로 스크립트를 이용만 인터넷 범죄가 증가하고 있다. 본 논문은 스크립트 공격 중 상호 교차된 사이트 스크립트 공격에 대해서 기술하고 이 공격의 실행을 성공적으로 막을 수 있는 대응 방안을 제시한다.

  • PDF

Extension and Validation of Hangul Text Collection(HANTEC) (한국어 테스트 컬렉션 HANTEC의 확장 및 보완)

  • Kim, Ji-Young;Jang, Dong-Hyun;Myaeng, Sung-Hyon;Lee, Suk-Hoon;Seo, Jeong-Hyun;Kim, Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.210-215
    • /
    • 2000
  • HANTEC1.0은 12만 건의 문서집합과 30개의 질의집합, 그리고 각 질의에 대한 적합문서로 구성된 정보검색용 한글 테스트 컬렉션이다. 본 연구에서는 HANTEC1.0의 확장 및 보완하기 위해 과학기술분야 20개의 질의를 추가하였는데, 질의 추가를 위해서 일본 NACSIS 테스트 컬렉션의 질의를 번역하여 사용함으로써 한일 교차언어 검색환경을 조성하고자 하였다. 추가된 각 질의에 대해서는 여러 검색기에서 총 41가지 검색방법으로 검색한 후, 각 검색조합의 상위 50개 문서로 구성된 중간 결과집합을 만들었으며, 이를 대상으로 적합성판정에 대한 평가기준 및 절차 교육이 이루어진 평가자가 각 질의에 대한 적합성평가를 실시하였다 이렇게 구축된 HANTEC 테스트 컬렉션의 적합문서 집합의 객관적 품질 평가와 시스템 성능평가를 위하여 통계적인 방법을 적용하므로써 공신력있고 일반화된 테스트 컬렉션을 구축하고자 하였다. 현재 HANTEC2.0은 검색분야 연구자 및 개발자에게 자유롭게 배포 중이며 정보검색 시스템의 신뢰도 측정을 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용되어질 것이다.

  • PDF

The Implementation of C Cross-Compiler for ES-C2340 DSP2 by Using the GNU Compiler (GNU 컴파일러를 이용한 ES-C2340 DSP2용 C 교차 컴파일러의 개발)

  • Lee, Si-Yeong;Gwon, Yuk-Chun;Yu, Ha-Yeong;Han, Gi-Cheon;Kim, Seung-Ho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.1
    • /
    • pp.255-269
    • /
    • 1997
  • In this paper, we describe the implementation of C cross-compiler for the ES-C2340 DSP2 processor by using the GNU compiler. For the rapid and efficient developing of the compiler and other parts like the processor-dependent back -end which is implemented newly to build the compiler. This approach has several advantages. First, as we use GNU compiler's well-proved excellent optimization method and multi-language support capability, we can improve he efficiency and generality of the compiler. Second, as we concentrate on the high-level language as logic approving tool in processor developing process. And to support the cross-compiler, we also implement a text-level pre-linker.

  • PDF

Solving Automatically Algebra Math Word Problem in Korean (한국어 수학 문장제 문제 자동 풀이)

  • Woo, Changhyub;Gweon, Gahgene
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.310-315
    • /
    • 2018
  • 본 논문에서는 한국어 수학 문장제 문제 자동 풀이를 위한 방법을 소개한다. 수학 문장제 문제란 수학적 관계가 언어와 숫자로 주어질 때, 문제에서 요구하는 정보를 도출하는 수학 문제로, 언어 의미 분석과 수학적 관계 추출이 요구된다. 본 논문에서는 이원 일차 연립 방정식을 포함한 514 문제의 영어 데이터셋을 번역해 한국어 문제를 확보하였다. 또한 한국어의 수학적 관계 표현과 언어 유형적 특성을 고려한 자질 추출을 제안하고, 템플릿 기반 Log-linear 모델이 정답 방정식을 분류하도록 학습하였다. 5겹 교차 검증을 실시한 결과, 영어 문제를 풀이한 선행 연구의 정답률 79.7% 대비 1%p 낮은 78.6%의 정답률을 보였다.

  • PDF

Object-Oriented Measuresfor Java Program (Java 프로그램에 적용한 객체지향 척도)

  • 김재웅;유철중;장옥배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.632-634
    • /
    • 1999
  • 다양한 소프트웨어 척도들이 절차적 패러다임에서 유용하다는 것이 밝혀졌고 객체지향 패러다임에 대해서도 많은 설계 척도들이 언어 독립적으로 제안되었다. 언어 독립적인 척도로부터 특정 프로그램밍 언어에 대한 척도를 명확하게 하는 것이 중요한데도 불구하고 Java 언어에 대한 척도는 거의 제안되지 않고 있는 형편이다. 따라서 본 논문에서는 Briand가 제안한 속성을 만족하는 척도들과 Java 언어의 특징인 내부 클래스를 반영한 척도와 크기 척도 등 13개의 척도를 Java 프로그램에 적용하여 척도들 사이의 관계를 분석하였다. 클래스의 크기와 메소드 호출 빈도, 응집도, 자식 클래스의 수, 내부 클래스와 상소 계층의 깊이가 주요 인자라는 것을 보여준다. 또한 응집도가 다른 척도들과 음의 관계를 가진다는 것이 발견되었다. 보다 적은 척도를 가지고 인자를 설명할 수 있는 회귀식을 도출하고 교차검증을 실시하였다.

  • PDF

Study on Knowledge Augmented Prompting for Text to SPARQL (Text to SPARQL을 위한 지식 증강 프롬프팅 연구)

  • Yeonjin Lee;Jeongjae Nam;Wooyoung Kim;Wooju Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.185-189
    • /
    • 2023
  • Text to SPARQL은 지식 그래프 기반 질의응답의 한 형태로 자연어 질문을 지식 그래프 검색 쿼리로 변환하는 태스크이다. SPARQL 쿼리는 지식 그래프의 정보를 기반으로 작성되어야 하기 때문에 기존 언어 모델을 통한 코드 생성방법으로는 잘 동작하지 않는다. 이에 우리는 거대 언어 모델을 활용하여 Text to SPARQL를 해결하기 위해 프롬프트에 지식 그래프의 정보를 증강시켜주는 방법론을 제안한다. 이에 더하여 다국어 정보 활용에 대한 영향을 검증하기 위해 한국어, 영어 각각의 레이블을 교차적으로 실험하였다. 추가로 한국어 Text to SPARQL 실험을 위하여 대표적인 Text to SPARQL 벤치마크 데이터셋 QALD-10을 한국어로 번역하여 공개하였다. 위 데이터를 이용해 지식 증강 프롬프팅의 효과를 실험적으로 입증하였다.

  • PDF

Statistical Approach to the Automatic Korean-English String Conversion (통계적 기법에 의한 한-영 문자열의 자동 전환)

  • Ahn, Young-Hoon;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.205-208
    • /
    • 2001
  • 한글 혹은 영어 문자열을 입력할 때 입력 모드를 수동으로 전환하지 않더라도 입력된 문자열이 한글인지, 영어인지를 자동으로 판단하여 해당 문자열로 변환하는 방법을 제안한다. 한글 문자열일 확률을 계산하기 위해 음절 구성 요건과 음절 빈도 정보를 이용하고, 영어 문자열일 확률을 계산하기 위해 영어 bigram 및 trigram 정보를 이용한다. 또한, 한글과 영어가 혼합된 문자열은 한글일 확률과 영어일 확률이 교차되는 경계 위치를 인식함으로써 혼합 문자열을 생성한다.

  • PDF

EZXover: C program to Reduce Cross-over Errors in Marine Geophysical Survey Data (지구물리탐사자료에서 교차점오차를 보정하기위한 EZXover 프로그램 개발)

  • Kang Moo-Hee;Han Hyun-Chul;Kim Kyong-O;SunWoo Don;Kim Jin-Ho;Gong Gee-Soo
    • Economic and Environmental Geology
    • /
    • v.39 no.3 s.178
    • /
    • pp.229-234
    • /
    • 2006
  • Cross-over errors (XOEs) may mislead scientists when interpreting marine geophysical data. Such risk can be reduced by correcting the data proportionally between two cross-over points (XOPs). C program is presented to determine XOPs using a quick rejection test and a straddle test, and to adjust XOEs using a weighted linear interpolation algorithm.