• Title/Summary/Keyword: 문장형태 정보

Search Result 270, Processing Time 0.023 seconds

An Empirical Study of Topic Classification for Korean Newspaper Headlines (한국어 뉴스 헤드라인의 토픽 분류에 대한 실증적 연구)

  • Park, Jeiyoon;Kim, Mingyu;Oh, Yerim;Lee, Sangwon;Min, Jiung;Oh, Youngdae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.287-292
    • /
    • 2021
  • 좋은 자연어 이해 시스템은 인간과 같이 텍스트에서 단순히 단어나 문장의 형태를 인식하는 것 뿐만 아니라 실제로 그 글이 의미하는 바를 정확하게 추론할 수 있어야 한다. 이 논문에서 우리는 뉴스 헤드라인으로 뉴스의 토픽을 분류하는 open benchmark인 KLUE(Korean Language Understanding Evaluation)에 대하여 기존에 비교 실험이 진행되지 않은 시중에 공개된 다양한 한국어 라지스케일 모델들의 성능을 비교하고 결과에 대한 원인을 실증적으로 분석하려고 한다. KoBERT, KoBART, KoELECTRA, 그리고 KcELECTRA 총 네가지 베이스라인 모델들을 주어진 뉴스 헤드라인을 일곱가지 클래스로 분류하는 KLUE-TC benchmark에 대해 실험한 결과 KoBERT가 86.7 accuracy로 가장 좋은 성능을 보여주었다.

  • PDF

A Crowdsourcing-Based Paraphrased Opinion Spam Dataset and Its Implication on Detection Performance (크라우드소싱 기반 문장재구성 방법을 통한 의견 스팸 데이터셋 구축 및 평가)

  • Lee, Seongwoon;Kim, Seongsoon;Park, Donghyeon;Kang, Jaewoo
    • KIISE Transactions on Computing Practices
    • /
    • v.22 no.7
    • /
    • pp.338-343
    • /
    • 2016
  • Today, opinion reviews on the Web are often used as a means of information exchange. As the importance of opinion reviews continues to grow, the number of issues for opinion spam also increases. Even though many research studies on detecting spam reviews have been conducted, some limitations of gold-standard datasets hinder research. Therefore, we introduce a new dataset called "Paraphrased Opinion Spam (POS)" that contains a new type of review spam that imitates truthful reviews. We have noticed that spammers refer to existing truthful reviews to fabricate spam reviews. To create such a seemingly truthful review spam dataset, we asked task participants to paraphrase truthful reviews to create a new deceptive review. The experiment results show that classifying our POS dataset is more difficult than classifying the existing spam datasets since the reviews in our dataset more linguistically look like truthful reviews. Also, training volume has been found to be an important factor for classification model performance.

A Global-Interdependence Pairwise Approach to Entity Linking Using RDF Knowledge Graph (개체 링킹을 위한 RDF 지식그래프 기반의 포괄적 상호의존성 짝 연결 접근법)

  • Shim, Yongsun;Yang, Sungkwon;Kim, Hong-Gee
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.8 no.3
    • /
    • pp.129-136
    • /
    • 2019
  • There are a variety of entities in natural language such as people, organizations, places, and products. These entities can have many various meanings. The ambiguity of entity is a very challenging task in the field of natural language processing. Entity Linking(EL) is the task of linking the entity in the text to the appropriate entity in the knowledge base. Pairwise based approach, which is a representative method for solving the EL, is a method of solving the EL by using the association between two entities in a sentence. This method considers only the interdependence between entities appearing in the same sentence, and thus has a limitation of global interdependence. In this paper, we developed an Entity2vec model that uses Word2vec based on knowledge base of RDF type in order to solve the EL. And we applied the algorithms using the generated model and ranked each entity. In this paper, to overcome the limitations of a pairwise approach, we devised a pairwise approach based on comprehensive interdependency and compared it.

Development of Automatic Voice System for Foreign Patients in Testing of Magnetic Resonance Imaging (자기공명영상 검사에서 외국인 환자를 위한 자동음성 시스템 개발)

  • Goo, Eun-Hoe
    • Journal of the Korean Society of Radiology
    • /
    • v.10 no.1
    • /
    • pp.59-64
    • /
    • 2016
  • The purpose of this study intend to develop the automatic voice system for language communicating over foreign patients in testing of magnetic resonance imaging. Used sentences for the automatic voice system was selected with twelve sentences and five foreign languages in hospital in use. These translated texts were provided free of charge from Oddcast's website, which is recorded each language-specific voice as Wav files, The recorded audio file were produced by the two types of a power-point show of MS-office 2013(extension; ppsx) form and Web-enabled system using the PHP program to be applied in the mobile phone environment. It is considered to relieve the stress about an language barrier to medical technician and the voice system designed with the variable language will be enhanced the diagnostic information on foreign patients. Because automatic voice system designed for this study can enhance the understanding of test in between korean medical technician and foreign patients, It will be expected to utilize more usefully in clinical practice.

A Basis of Database Semantics: from Feature Structures to Tables (데이터베이스 의미론의 기초: 자질 구조에서 테이블로)

  • Lee, Ki-Yong
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.297-303
    • /
    • 1999
  • 오늘날 전산망을 통해 대량의 다양한 언어 정보가 일상 언어로 교환되고 있다. 따라서 대량의 이러한 정보를 효율적으로 처리할 수 있는 언어 정보 처리 시스템이 필요하다. Hausser (1999)와 이기용(1999)는 그러한 언어 정보 처리 시스템으로 데이터베이스 의미론을 주장하였다. 이 의미론의 특징은 자연언어의 정보 처리 시스템 구축에 상업용 데이터베이스 관리 시스템을 활용한다는 점이다. 이때 야기되는 문제 중의 하나가 표상(representation)의 문제이다. 그 이유는 언어학의 표상 방법이 데이터베이스 관리 시스템의 표상 방법과 다르기 때문이다. 특히, 관계형 데이터베이스 관리 시스템(RDBMS)에서는 테이블 (table) 형식으로 각종 정보를 표시한다. 따라서, 이 논문의 주안점(主眼点)은 언어학에서 흔히 쓰이는 표상 방법, 즉 문장의 통사 구조를 표시하는 수형(tree)이나 의미 구조를 표시하는 논리 형태(logical form), 또는 단어나 구의 특성을 나타내는 자질 구조(feature structure)를 테이블 형식으로 대체하는 방법을 모색하는 것이다. 더욱이 관계형 데이터베이스 관리 시스템에서는 테이블에 대한 각종 연산, 특히 두 테이블을 연결(link)하는 작업이 가능하고 이런 연산 과정을 통해 정보를 통합하거나 여과할 수 있기 때문에 관련 정보를 하나의 테이블에 표상하거나 정보 자료의 분산 저장과 자료의 순수성을 유지하는 것이 용이하다. 이 논문은 곧 이러한 점을 가급적 간단한 예를 들어 설명하는 데 그 목적이 있다.

  • PDF

Building Test Codes for Unit Test Automation of Java Programs (단위 테스트 자동화를 위한 자바 프로그램 테스트 코드 구축)

  • Yoon, Hoijin
    • Journal of Software Engineering Society
    • /
    • v.23 no.4
    • /
    • pp.141-149
    • /
    • 2010
  • Agile development is mentioned a lot by developers these days. XP or Scrum is one of the popular development processes, and it says that unit test automation would drive an agile development successful. The success of unit test automation depends on how well to compare an execution result to its own expected result. that is why this paper focuses on the comparison part. This paper introduces how to build test codes for unit testing, and then concludes with mentioning two considerations of unit testing automation. First, test codes for void-typed methods need Mock Framework to monitor their behavior. Second, the comparison of execution results and expected results is hard to implement in case of testing void-typed methods. We check every sentences of a test path to decide if the testing is fail or pass.

  • PDF

Analyzing Dependency of Korean Subordinate Clauses Using Support Vector Machine (SVM을 사용한 한국어 종속절의 의존관계 분석)

  • Kim, Sang-Soo;Park, Seong-Bae;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.148-155
    • /
    • 2006
  • 한국어 구문 분석에서 가장 어려운 작업들 중에 하나는 종속절의 의존관계 파악이다. 본 논문에서는 이를 해결하기 위해서 종속절의 의존관계를 걸을 구성하는 서술어부(동사와 어미)의 관련 정보의 유무에 따라 의존관계가 성립한다고 가정했다. 즉 각각의 절들의 서술부의 관련 정보의 유무로 보고, 이진 분류 문제로 이 문제를 해결하였다. 사용한 자질은 정적 자질(static feature)와 동적 자질(dynamic feature)를 구성되어 있다. 정적 자질은 동사와 어미에서 표면적인 어휘 정보이고 이는 단어, POS 테그 및 위치 정보들이다. 동적 자질은 문장에서 절이 가지는 문법적인 형태를 의미하고, 이를 추출하기 위해 간단한 규칙을 만들고 이를 바탕으로 CKY 차트 파서를 통하여 추출하였다. 기계학습 방법으로는 이진 분류 문제에서 널리 사용되는 SVM을 사용하였다. 실험 결과 어휘 정보들 중에서 어미의 정보만 사용하였을 경우는 64.4%의 정확도를 보였고 문법적인 정보인 동적 자질을 사용한 경우는 73.5%로 어휘 정보만을 사용한 경우 보다 9.1%의 성능 향상됨을 보였다

  • PDF

Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph (한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상)

  • Lee, Won-Kee;Kim, Young-Gil;Lee, Eui-Hyun;Kwon, Hong-Seok;Jo, Seung-U;Cho, Hyung-Mi;Lee, Jong-Hyeok
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

A Study on the Postprocessing In Keyword Spotting (Keyword spotting에서의 후처리 과정에 관한 연구)

  • 송화전
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.249-252
    • /
    • 1994
  • Keyword spotting 이란 음성인식의 한 분야로서 컴퓨터가 사람의 음성을 입력받아 이 음성에 미리 정해진 특정단어 또는복수개의 단어들 중 어느 것이 포함되어 있는지의 여부를 찾아내고 이 단어를 식별해 내는 작업을 의미한다. 이러한 keyword spotting 시스템의 인식 오류들을 감소시키는 방법의 하나로 keyword spotting 시스템에 후처리 과정을 둠으로써 잘못 검출된 keyword 들을 제거시키는 방법이 사용될 수 있다. 본 논문에서는 keyword로 검출된 영역에 대한 keyword 모델의 likeihood와 그 여역에 대한 filler 모델의 likelihood의 ratio 와 second best keyword 의 likelihood 그리고, 끝점존재 영역의 구간 길이등 여러 가지 정보를 이용한 후처리과정을 검토하고 인식실험을 통해 이들의 성능을 비교하였다. 6개의 부서명을 keyword로 하는 불특정 화자 keyword spotting 실험을 수행한 결과 baseline 시스템의 경우 고립단어 및 문장 형태의 음성에 대해 95.0%의 keyword 인식률을 얻었으며, 본 논문에서 검토된 네 가지 후처리 방법에 의해 keyword rejection ratio를 0%에서 5%까지 변화시켜 나갈 경우 최저 95.3%에서 최고 97.1%까지 keyword 인식률이 향상된 결과를 얻었다. 특히 성능과 계산량을 종합적으로 고려할 때 끝점 존재 영역의 구간 길이 정보를 이용한 방법이 가장 우수하였다.

  • PDF

Static Analysis of Cache Interference Miss and Prediction of Program Execution Time (캐쉬 간섭실패의 정적분석 및 프로그램의 수행시간 예측)

  • Lee, Geon-Yeong;Jeong, Yu-Seok;Hong, Man-Pyo
    • Journal of KIISE:Computer Systems and Theory
    • /
    • v.27 no.11
    • /
    • pp.881-889
    • /
    • 2000
  • 프로그램의 실행시간은 캐쉬메모리의 효율적 사용과 밀접한 관계가 있다. 특히 간섭 실패는 프로그램의 성능에 큰 영향을 미치지만 나타나는 형태가 불규칙적이므로 예측하기가 매우 어렵다. 본 논문에서는 직접 사상 캐쉬전략을 사용한 완전 중첩 루프 내 배열의 캐쉬 실패율(cache miss ratio)을 구하는 분석적 모델을 제시한다. 논문에서 제시한 모델을 임의의 캐쉬 위치에 각 배열이 접근한 시간을 기반으로 다음주기에서 캐쉬 실패의 발생 여부를 예측하는데, 간섭으로 발생한 캐쉬 실패 개수에 대해 기존에 제시된 모델보다 더 빠르고 정확한 예측이 가능하다. 특히, 한문장의 수행시간 예측시간은 배열의 크기와 독립적이기 때문에, 전체 프로그램의 수행시간 예측은 배열의 크기 및 문장의 반복 회수 배만큼 빠른 결과를 보여준다. 본 모델은 프로그램의 성능예측 뿐만 아니라 데이터 지역성의 최적화, 캐쉬 구성, 스케쥴링 등에서도 이용 가능하다.

  • PDF