• 제목/요약/키워드: 영어 문장처리

검색결과 131건 처리시간 0.02초

Topic signatur e와 n-gram을 이용한 댓글 분류 시스템 (Comments Classification System using Topic Signature and n-gram)

  • 배민영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-194
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)와 n-gram을 이용한 댓글 분류 시스템을 개발한다. 토픽 시그너처는 문서요약이나 문서분류에서 자질 선택을 위한 방법으로 많이 사용되어지며, n-gram은 모든 언어에 적용 가능한 장점이 있다. 악성댓글은 대체로 문장 길이가 짧고 유행어나 변형어의 출현 빈도가 높으며 비정형화된 특징이 있다. 따라서 우리는 댓글을 n-gram으로 나누어 자질로 선택한다. 분류를 위해 베이지안(Bayesian)모델을 사용하였다. 본 논문에서는 한글과 영어 댓글에 대한 판별 실험을 통하여 구현한 시스템이 복잡한 전처리 과정이 필요한 기존에 제안된 방법들보다 더 나은 성능을 보이며, 언어에 관계없이 적용 가능하다는 것을 실험 결과를 통해 확인할 수 있었다.

  • PDF

오픈소스를 이용한 문자/음성 인식 및 번역 앱 개발 (Text/Voice Recognition & Translation Application Development Using Open-Source)

  • 윤태진;서효종;김도헌
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.425-426
    • /
    • 2017
  • 본 논문에서는 Google에서 지원하는 오픈소스인 Tesseract-OCR을 이용한 문자/음성 인식 및 번역 앱에 대해 제안한다. 최근 한국어를 포함한 외국어 인식과 번역기능을 이용한 다양한 스마트폰 앱이 개발되어 여행에 필수품으로 자리잡고 있다. 스마트폰의 카메라기능을 이용하여 촬영한 영상을 인식률을 높이도록 처리하고, Crop기능을 넣어 부분 인식기능을 지원하며, Tesseract-OCR의 train data를 보완하여 인식률을 높이고, Google 음성인식 API를 이용한 음성인식 기능을 통해 인식된 유사한 문장들을 선택하도록 하고, 이를 번역하고 보여주도록 개발하였다. 번역 기능은 번역대상 언어와 번역할 언어를 선택할 수 있고 기본적으로 영어, 한국어, 일본어, 중국어로 번역이 가능하다. 이 기능을 이용하여 차량번호 인식, 사진에 포함된 글자를 통한 검색 등 다양한 응용분야에 맞게 앱을 개발할 수 있다.

  • PDF

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation (Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction)

  • 최준휘;류성한;유환조;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-216
    • /
    • 2016
  • 현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

  • PDF

한국어-영어 대화체 번역시스템을 위한 영형 대명사 해소 (Zero Pronoun Resolution for Korean-English Spoken Language MT)

  • 박아름;지은별;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.98-101
    • /
    • 2011
  • 이 논문은 한-영 대화체 번역 시스템에서 영형 대명사 해소를 위한 새로운 방법론을 제시하였다. 영형 대명사는 문맥, 상황, 세상 지식으로부터 추론될 수 있는 문장에서 생략된 요소이다. 이 논문은 특히 주어-대명사 생략 현상에 대해 다루고 있는데, 그 이유는 드라마 대본이나 인스턴트 메신저 채팅과 같은 한국어 대화체에서는 매우 일반적인 현상이기 때문이다. 이 논문에서 우리는 많은 양의 지식을 요구하지 않는 간단한 방법론을 제시하였다. 평가결과 우리의 방법은 0.79의 F-measure 스코어를 달성하였고, 전체번역률의 측면에서는 약 4.1% 정도의 향상효과가 있었다.

  • PDF

KE-T5 기반 한국어 대화 문장 감정 분류 (KE-T5-Based Text Emotion Classification in Korean Conversations)

  • 임영범;김산;장진예;신사임;정민영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.496-497
    • /
    • 2021
  • 감정 분류는 사람의 사고방식이나 행동양식을 구분하기 위한 중요한 열쇠로, 지난 수십 년간 감정 분석과 관련된 다양한 연구가 진행되었다. 감정 분류의 품질과 정확도를 높이기 위한 방법 중 하나로 단일 레이블링 대신 다중 레이블링된 데이터 세트를 감정 분석에 활용하는 연구가 제안되었고, 본 논문에서는 T5 모델을 한국어와 영어 코퍼스로 학습한 KE-T5 모델을 기반으로 한국어 발화 데이터를 단일 레이블링한 경우와 다중 레이블링한 경우의 감정 분류 성능을 비교한 결과 다중 레이블 데이터 세트가 단일 레이블 데이터 세트보다 23.3% 더 높은 정확도를 보임을 확인했다.

  • PDF

언어학 관점에서의 한국어 대조학습 기반 문장 임베딩의 허위 문맥화에 대한 고찰 (Analyzing Spurious Contextualization of Korean Contrastive Sentence Representation from the Perspective of Linguistics)

  • 정유현;한명수;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.468-473
    • /
    • 2023
  • 본 논문은 사전 학습 언어 모델의 특성인 이방성과 문맥화에 주목하여 이에 대한 분석 실험과 한국어 언어 모델만의 새로운 관점을 제안한다. 최근 진행된 영어 언어 모델 분석 연구에서 영감을 받아, 한국어 언어 모델에서도 대조학습을 통한 이방성과 문맥화의 변화를 보고하였으며, 다양한 모델에 대하여 토큰들을 문맥화 정도에 따라 분류하였다. 또한, 한국어의 언어학적 특성을 고려하여, 허위 문맥화를 완화할 수 있는 토큰을 문맥 중심어로, 문맥 중심어의 임베딩을 모방하는 토큰을 문맥 기능어로 분류하는 기준을 제안하였다. 간단한 적대적 데이터 증강 실험을 통하여 제안하는 분류 기준의 가능성을 확인하였으며, 본 논문이 향후 평가 벤치마크 및 데이터셋 제작, 나아가 한국어를 위한 강건한 학습 방법론에 기여하길 바란다.

  • PDF

SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 (SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP )

  • 김재민;나요한;김강민;이상락;채동규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF

한국어 ATIS 질의문의 QLF 표현과 분석방법에 관한 고찰 (Representing & Analyzing QLFs for Korean ATIS Queries)

  • 박현석
    • 인지과학
    • /
    • 제10권2호
    • /
    • pp.17-25
    • /
    • 1999
  • 문맥에 고려한 데이터베이스 인터페이스 시스템을 개발하는 데는 영어권 언어 시스템을 개발하는데 있어서 별로 거론되지 않았던 여러 가지 문제점이 존재한다. 예를 들어, 한국어의 처리는 구문 구조적 제약이 비교적 엄격하지 않기 때문에 적은 수의 규칙으로도 문장이 분석될 수 있지만, 이러한 점은 구문구조분석단계에서 모호성을 남기게 되어 의미 구조분석 단계나 뒤에 연속되는 문맥관련 모듈을 설계할 때는 큰 부담으로 작용한다. 이러한 점을 고려하면서, 본 논문에서는 SRI에서 개발한 CLE라는 시스템을 기초로 개발된 한국어 데이터베이스 인터페이스 시스템을 구축하면서 직면한 여러 가지 어려움을 기술하고자 하며 특히 QLE 라는 의미구조를 한글에 적용시키면서 관찰된 여러 가지 문제들에 중점을 두고 논의를 전개해 나가고자 한다.

  • PDF

안구이동추적을 통해 살펴본 관계절의 통사처리 과정 (Processing of syntactic dependency in Korean relative clauses: Evidence from an eye-tracking study)

  • 이미선;용남석
    • 인지과학
    • /
    • 제20권4호
    • /
    • pp.507-533
    • /
    • 2009
  • 관계절의 공백과 채움어의 의존관계(gap-filler dependencies)가 어떻게 해결되는지에 대한 가설은 '채움어촉발 처리전략(filler-driven parsing strategy)'과 '공백촉발 처리전략(gap-driven parsing strategy)'으로 요약할 수 있다. 두 가설의 언어보편적 타당성을 알아보기 위해, 본 연구는 안구이동추적법(eyetracking)을 이용하여, 한국어 화자들이 후핵언어(head-final language)인 한국어의 주격관계절과 여격관계절을 실시간으로 처리하는 과정을 살펴보았다. 그 결과, 피험자들이 관계절 내 공백의 위치에서 채움어에 상응하는 그림을 거의 응시하지 않았으나, 관계사와 결합한 관계절동사를 들은 시점부터는 채움어 그림을 응시하는 비율이 큰 폭으로 증가하기 시작하여 머리어를 들은 시점에서 가장 많이, 가장 오래 채움어 그림을 응시하였다. 이 결과는 공백이 관계절의 처리를 촉발하는 것이 아니라, 관계사와 결합한 관계절 동사에서 관계절의 통사처리가 시작되어 채움어가 인지된 시점에서 완성됨을 보여주는 것이다. 또한 주격관계절과 여격관계절 간의 상이한 안구이동 양상은 관계절 내의 논항과 결합한 격조사의 통사정보에 기인하는 것으로 보여서, 한국어의 관계절은 채움어촉발 처리전략을 따르기는 하지만 영어와 같은 선핵언어와는 다른 처리전략이 사용됨을 알 수 있다.

  • PDF

데이터베이스 의미론을 이용한 한국어 구현 시론: 수사-분류사 구조를 중심으로 (A pilot implementation of Korean in Database Semantics: focusing on numeral-classifier construction)

  • 최재웅
    • 인지과학
    • /
    • 제18권4호
    • /
    • pp.457-483
    • /
    • 2007
  • 데이터베이스 의미론(Database Semantics, DBS)은 인간의 의사소통 방식에 대한 종합적인 이론 틀과 분석을 제공하고, 또한 이를 구체적인 컴퓨터 프로그램으로 구현하는 것을 목적으로 하고 있다. DBS의 두 가지 주요 특징으로는 문장 처리 알고리즘으로 좌연접 방식을 취한다는 점과 문장의 의미 내용을 표상하는 데이터베이스로 '어휘은행 (Word bank)를 취한다는 점을 들 수 있다. 본 연구에서는 DBS에 입각하여 한국어의 기본 현상에 대한 분석 및 구현을 시도한다. 우선 간단한 한국어 예를 통해 듣고, 추론하고, 말하는 단계가 어떻게 진행될 수 있는지를 보이고, 이어서 한국어의 특징적 현상중의 하나인 수사-분류사(classifier) 구조가 어떻게 분석되는지를 보임으로써, 영어와 독일어를 소재로 개발중인 DBS가 언어적 특성이 많이 다른 한국어 분석에도 활용될 가능성이 있음을 보인다. 또한 기존 연구에서 제시된 바 있는 좌연접 알고리즘에 대한 한국어 적용상의 문제점을 검토하면서 그에 대한 대안의 방향을 살펴보기로 한다.

  • PDF