• 제목/요약/키워드: Chunking

검색결과 70건 처리시간 0.029초

대화 패턴 기반 대화 의도 반자동 부착 방법 (Semi-Automatic Dialog Act Annotation based on Dialog Patterns)

  • 최승권;정상근;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1298-1301
    • /
    • 2013
  • 대화 시스템에서 올바른 대화를 진행하기 위해서는 화자의 대화 의도를 파악하는 것이 중요하다. 특히 영어를 교육하기 위한 영어 교육용 대화 시스템에서는 학습자의 대화 의도 파악 오류가 발생할 경우 영어 교육에 문제가 발생하기 때문에 학습자의 대화 의도를 더욱 정확하게 분석 및 파악하는 것이 중요하다. 대화 패턴이란 시스템 발화에 대응되는 사용자 발화의 규칙적인 연쇄라고 할 수 있다. 대화 패턴 기반 대화 의도 부착 방법은 1) 대화 코퍼스 구축 2) 대화 시나리오에 있는 발화를 대상으로 기본 명사구 청킹(Base NP Chunking)을 하고 중심어(Head Word), 토픽 추적(Topic Tracking)에 의한 대화 패턴을 자동으로 추출한 후, 3) 대화 패턴 수동 검수이다. 대화 패턴 기반 대화 의도 부착 방법은 기본 명사구에 대한 지식만 가지고 있으면 대량으로 구축할 수 있다는 장점이 있다. 99 개의 대화 시나리오를 학습코퍼스로 하고 1 개의 대화 시나리오에 대해 대화턴 성공률을 시물레이션 한 결과 63.64%가 나왔다.

구묶음을 반영한 한국어 의존 구조 말뭉치 생성 (Building Korean Dependency Treebanks Reflected Chunking)

  • 남궁영;김창현;천민아;박호민;윤호;최민석;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-138
    • /
    • 2019
  • 의존 구문 분석은 문장 구성 요소의 위치에 제약이 적고 생략에도 유연하게 대처할 수 있어 한국어 구문 분석에 적합하다. 하지만 의존 구문 분석을 수행할 때 지배소를 결정해야 할 노드 수가 많으면 계산의 복잡도가 올라가고, 각 노드의 지배소를 결정할 때 방향성 문제가 있어 구문 분석에 모호함을 더한다. 이때 지배소 후위 원칙을 엄격하게 적용할 경우 구문적 중심어와 의미적 중심어가 불일치하는 문제가 발생한다. 이러한 문제들을 해소하기 위해 구묶음을 수행한 문장으로 구문 분석을 수행할 수 있다. 따라서, 본 논문에서는 기존의 의존 구문 말뭉치를 말덩이 기반의 의존 구문 말뭉치로 변환하는 알고리즘을 기술하고, 이에 따라 구축한 말뭉치와 기존의 말뭉치를 정량적으로 비교한다.

  • PDF

Using Syntax and Shallow Semantic Analysis for Vietnamese Question Generation

  • Phuoc Tran;Duy Khanh Nguyen;Tram Tran;Bay Vo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2718-2731
    • /
    • 2023
  • This paper presents a method of using syntax and shallow semantic analysis for Vietnamese question generation (QG). Specifically, our proposed technique concentrates on investigating both the syntactic and shallow semantic structure of each sentence. The main goal of our method is to generate questions from a single sentence. These generated questions are known as factoid questions which require short, fact-based answers. In general, syntax-based analysis is one of the most popular approaches within the QG field, but it requires linguistic expert knowledge as well as a deep understanding of syntax rules in the Vietnamese language. It is thus considered a high-cost and inefficient solution due to the requirement of significant human effort to achieve qualified syntax rules. To deal with this problem, we collected the syntax rules in Vietnamese from a Vietnamese language textbook. Moreover, we also used different natural language processing (NLP) techniques to analyze Vietnamese shallow syntax and semantics for the QG task. These techniques include: sentence segmentation, word segmentation, part of speech, chunking, dependency parsing, and named entity recognition. We used human evaluation to assess the credibility of our model, which means we manually generated questions from the corpus, and then compared them with the generated questions. The empirical evidence demonstrates that our proposed technique has significant performance, in which the generated questions are very similar to those which are created by humans.

2009 개정 초등학교 수학과 교육과정에 따른 교과서의 어림재기 유형 및 전략 분석 (An Analysis on Types and Strategies of Estimation in Measurement in the Textbooks According to 2009 Revised Elementary Mathematics Curriculum)

  • 박교식
    • 한국초등수학교육학회지
    • /
    • 제19권3호
    • /
    • pp.267-287
    • /
    • 2015
  • 본 논문에서는 2009 개정 초등학교 수학과 교육과정에 따른 교과서에서 취급하는 어림재기 유형 및 전략을 분석하고, 그 결과를 바탕으로, 차후의 교육과정 및 교과서 개발을 위한 시사점으로 다음 네 가지를 제시한다. 첫째, 교육과정과 교과서에서 어림재기 관련 내용을 일치시키는 것이 필요하다. 2009 개정 교육과정에서는 길이, 들이, 무게, 각도의 어림재기만을 제시하고 있다. 그러나 교과서에서는 시간과 넓이의 어림재기도 취급하고 있다. 둘째, 교과서에서 어림재기 전략을 다양하게 안내할 필요가 있다. 지도서에서는 어림재기 전략으로 참조대상 사용하기 전략, 덩어리로 나누기 전략, 단위로 나누기 전략의 세 가지를 예시하고 있지만, 교과서에서는 그렇지 않다. 셋째, '어림하다'의 의미를 명확히 할 필요가 있다. 교과서에서 '어림하다'가 어림재기의 맥락으로만 사용되는 것이 아니다. 넷째, 교육과정에서 시간, 넓이, 부피의 어림재기의 취급 여부를 명확히 할 필요가 있다.

두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음 (Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two)

  • 안광모;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF

증강현실 기반 모바일 애플리케이션의 사용성 원칙 연구 -길찾기 서비스 중심으로- (Usability Principles for a Mobile Augmented Reality Application -Focus on Wayfinding-)

  • 유창화;오동우
    • 한국융합학회논문지
    • /
    • 제13권4호
    • /
    • pp.643-651
    • /
    • 2022
  • 메타버스의 급부상에 따라 모바일 증강현실 시장이 빠르게 성장하고 있다. 하지만, 모바일 증강현실 환경에서의 사용자 경험 향상을 위한 연구가 부족한 실정이다. 본 연구는 증강현실 기반의 스마트폰 애플리케이션 사용성 원칙 개발을 목표로 한다. 연구 방법으로 1)모바일 증강현실의 특성을 파악하여 증강현실 애플리케이션의 사용성 요인을 파악했다. 2)증강현실의 사용성 사례 연구 분석을 통해 사용성 원칙을 수집 및 선별하고, 전문가 심층 인터뷰를 통해 사용성 원칙을 재범주화하여 14개의 사용성 원칙으로 개발했다. 3)개발된 사용성 원칙을 검증하기 위해 사용성 원칙을 바탕으로 평가 문항을 구성하여 사용성 평가 설문을 진행했다. 결과적으로 몰입성, 현존감, 효율성, 만족감, 유희성에서 유의미한 차이를 발견하였으며, 증강현실 기반 스마트폰 애플리케이션 개발에 유용한 사용성 원칙임을 검증했다. 본 연구는 증강현실 기반 모바일 사용성 원칙에 관한 기초연구라는 점에서 의의가 있다.

SSD 스토리지 시스템에서 PRAM 캐시를 이용한 데이터 중복제거 기법 (Data Deduplication Method using PRAM Cache in SSD Storage System)

  • 이승규;김주경;김덕환
    • 전자공학회논문지
    • /
    • 제50권4호
    • /
    • pp.117-123
    • /
    • 2013
  • 최근 클라우드 스토리지 환경에서 전통적인 스토리지장치인 하드디스크를 대체하여 SSD(Solid-State Drive)의 사용량이 증가하고 있다. SSD는 기계적인 동작이 없어 빠른 입출력 성능을 가지는 반면 덮어쓰기가 불가능한 특성을 가지고 있어 공간 효율성을 위한 관리가 중요하다. 이와 같은 마모도 특성을 갖는 SSD의 공간 효율성을 효과적으로 관리하기 위해 데이터 중복제거 기법을 이용한다. 하지만 데이터 중복제거 기법은 데이터 청킹, 해싱, 해시값 검색과정 연산을 포함하기 때문에 오버헤드가 발생하는 문제점이 있다. 본 논문에서는 SSD 스토리지 시스템에서 PRAM 캐시를 이용한 데이터 중복제거 기법을 제안한다. 제안한 방법은 DRAM의 1차 해시테이블에 PRAM에 캐싱된 데이터를 위한 해시값들을 저장하고, LRU(Least Recently Used)기법을 이용하여 관리한다. PRAM의 2차 해시테이블에는 SSD 스토리지에 저장된 데이터에 대한 해시값들을 저장하고, DRAM의 1차 해시테이블에 대한 백업을 PRAM에 유지함으로써 전원 손실등에 대비하여 신뢰성을 향상시킬 수 있다. 실험결과, 제안하는 기법은 기존의 DRAM에 모든 해시값들을 저장하여 관리하는 기법보다 SSD의 쓰기 횟수 및 연산시간을 워크로드별 평균 44.2%, 38.8%의 감소 효과를 보였다.

Part-of-speech Tagging for Hindi Corpus in Poor Resource Scenario

  • Modi, Deepa;Nain, Neeta;Nehra, Maninder
    • Journal of Multimedia Information System
    • /
    • 제5권3호
    • /
    • pp.147-154
    • /
    • 2018
  • Natural language processing (NLP) is an emerging research area in which we study how machines can be used to perceive and alter the text written in natural languages. We can perform different tasks on natural languages by analyzing them through various annotational tasks like parsing, chunking, part-of-speech tagging and lexical analysis etc. These annotational tasks depend on morphological structure of a particular natural language. The focus of this work is part-of-speech tagging (POS tagging) on Hindi language. Part-of-speech tagging also known as grammatical tagging is a process of assigning different grammatical categories to each word of a given text. These grammatical categories can be noun, verb, time, date, number etc. Hindi is the most widely used and official language of India. It is also among the top five most spoken languages of the world. For English and other languages, a diverse range of POS taggers are available, but these POS taggers can not be applied on the Hindi language as Hindi is one of the most morphologically rich language. Furthermore there is a significant difference between the morphological structures of these languages. Thus in this work, a POS tagger system is presented for the Hindi language. For Hindi POS tagging a hybrid approach is presented in this paper which combines "Probability-based and Rule-based" approaches. For known word tagging a Unigram model of probability class is used, whereas for tagging unknown words various lexical and contextual features are used. Various finite state machine automata are constructed for demonstrating different rules and then regular expressions are used to implement these rules. A tagset is also prepared for this task, which contains 29 standard part-of-speech tags. The tagset also includes two unique tags, i.e., date tag and time tag. These date and time tags support all possible formats. Regular expressions are used to implement all pattern based tags like time, date, number and special symbols. The aim of the presented approach is to increase the correctness of an automatic Hindi POS tagging while bounding the requirement of a large human-made corpus. This hybrid approach uses a probability-based model to increase automatic tagging and a rule-based model to bound the requirement of an already trained corpus. This approach is based on very small labeled training set (around 9,000 words) and yields 96.54% of best precision and 95.08% of average precision. The approach also yields best accuracy of 91.39% and an average accuracy of 88.15%.

이상탐지(Anomaly Detection) 및 오용탐지(Misuse Detection) 분석의 정확도 향상을 위한 개선된 데이터마이닝 방법 연구 (Reinforcement Mining Method for Anomaly Detection and Misuse Detection using Post-processing and Training Method)

  • 최윤정;박승수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.238-240
    • /
    • 2006
  • 네트워크상에서 발생하는 다양한 형태의 대량의 데이터를 정확하고 효율적으로 분석하기 위해 설계되고 있는 마이닝 시스템들은 목표지향적으로 훈련데이터들을 어떻게 구축하여 다룰 것인지에 대한 문제보다는 대부분 얼마나 많은 데이터 마이닝 기법을 지원하고 이를 적용할 수 있는지 등의 기법에 초점을 두고 있다. 따라서, 점점 더 에이전트화, 분산화, 자동화 및 은닉화 되는 최근의 보안공격기법을 정확하게 탐지하기 위한 방법은 미흡한 실정이다. 본 연구에서는 유비쿼터스 환경 내에서 발생 가능한 문제 중 복잡하고 지능화된 침입패턴의 탐지를 위해 데이터 마이닝 기법과 결함허용방법을 이용하는 개선된 학습알고리즘과 후처리 방법에 의한 RTPID(Refinement Training and Post-processing for Intrusion Detection)시스템을 제안한다. 본 논문에서의 RTPID 시스템은 active learning과 post-processing을 이용하여, 네트워크 내에서 발생 가능한 침입형태들을 정확하고 효율적으로 다루어 분석하고 있다. 이는 기법에만 초점을 맞춘 기존의 데이터마이닝 분석을 개선하고 있으며, 특히 제안된 분석 프로세스를 진행하는 동안 능동학습방법의 장점을 수용하여 학습효과는 높이며 비용을 감소시킬 수 있는 자가학습방법(self learning)방법의 효과를 기대할 수 있다. 이는 관리자의 개입을 최소화하는 학습방법이면서 동시에 False Positive와 False Negative 의 오류를 매우 효율적으로 개선하는 방법으로 기대된다. 본 논문의 제안방법은 분석도구나 시스템에 의존하지 않기 때문에, 유사한 문제를 안고 있는 여러 분야의 네트웍 환경에 적용될 수 있다.더욱 높은성능을 가짐을 알 수 있다.의 각 노드의 전력이 위험할 때 에러 패킷을 발생하는 기법을 추가하였다. NS-2 시뮬레이터를 이용하여 실험을 한 결과, 제안한 기법이 AOMDV에 비해 경로 탐색 횟수가 최대 36.57% 까지 감소되었음을 알 수 있었다.의 작용보다 더 강력함을 시사하고 있다.TEX>로 최고값을 나타내었으며 그 후 감소하여 담금 10일에는 $1.61{\sim}2.34%$였다. 시험구간에는 KKR, SKR이 비교적 높은 값을 나타내었다. 무기질 함량은 발효기간이 경과할수록 증하였고 Ca는 $2.95{\sim}36.76$, Cu는 $0.01{\sim}0.14$, Fe는 $0.71{\sim}3.23$, K는 $110.89{\sim}517.33$, Mg는 $34.78{\sim}122.40$, Mn은 $0.56{\sim}5.98$, Na는 $0.19{\sim}14.36$, Zn은 $0.90{\sim}5.71ppm$을 나타내었으며, 시험구별로 보면 WNR, BNR구가 Na만 제외한 다른 무기성분 함량이 가장 높았다.O to reduce I/O cost by reusing data already present in the memory of other nodes. Finally, chunking and on-line compression mechanisms are included in both models. We demonstrate that we can obtain significantly high-performanc

  • PDF

실시간 응용을 위한 웨이블릿 변환 기반의 얼굴 검출 (Wavelet Transform-based Face Detection for Real-time Applications)

  • 송해진;고병철;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권9호
    • /
    • pp.829-842
    • /
    • 2003
  • 최근 화상 회의, 화상 전화, 모바일 환경에서의 화상 통신, 얼굴 인식을 이용한 보안 시스템 등의 상업화에 힘입어 비디오에서의 얼굴 검출 및 추적 기술은 눈부신 발전을 이룩하였다. 또한, 얼굴 요소 검출은 요소 그 자체뿐 아니라 정화한 얼굴 영역 검출을 위한 필수 단계로서 중요한 연구 주제가 되고 있다. 그러나 영상에 나타난 복잡한 배경과 카메라 조작 및 조명에 의한 색상 왜곡 그리고 다양한 조명 조건 둥은 얼굴 검출 및 추적, 요소 검출에 있어 여전히 큰 장애가 되고 있다. 이에 따라, 본 논문에서는 실시간 화상 통신을 위한 새로운 얼굴 영역 검출 및 추적 알고리즘과 검출된 얼굴 영역에서 효과적으로 눈 영역을 검출할 수 있는 알고리즘을 제안한다. 제안하는 얼굴 검출 알고리즘은 복잡한 배경과 다양한 조명 조건에 관계없이 얼굴을 검출하고 추적하기 위해 웨이블릿 변환된 세 종류의 부 영역을 이용하여 얼굴 형판을 생성하고 웨이블릿 변환된 입력 영상과의 유사도를 측정하여 얼굴을 검출한다. 특히 다양한 조명 조건을 극복하기 위해 최소-최대 정규화와 히스토그램 평활화를 혼합 적용하여 매우 밝거나, 매우 어두운 영상에서의 얼굴 오 검출 및 놓침을 줄일 수 있었으며 세 가지 크기의 얼굴 형판을 이용함으로써 입력 영상에 존재하는 다양한 크기의 얼굴도 검출할 수 있었다. 또한 효과적인 얼굴 추적 알고리즘을 통해 다음 프레임에서의 얼굴 위치를 예측하고 예측된 얼굴 위치를 중심으로 탐색 영역을 정해 형판 정합을 수행함으로써 얼굴 검출률을 높이면서 수행 시간도 단축시킬 수 있었다. 수직, 수평방향 투영을 이용한 합리적인 눈 검출 알고리즘은 어두운 조명이나 부정확한 얼굴 영역에서도 만족스러운 결과를 보여주었다.26$이었으며, 점차 감소, 다시 증가하여 담금 10일에는 $3.42{\sim}3.69$이었다. 시험구별로는 KKR이 가장 낮았다. 총산은 담금 1일에 $0.29{\sim}0.82%$였으며 담금 6일에 $1.75{\sim}2.53%$로 최고값을 나타내었으며 그 후 감소하여 담금 10일에는 $1.61{\sim}2.34%$였다. 시험구간에는 KKR, SKR이 비교적 높은 값을 나타내었다. 무기질 함량은 발효기간이 경과할수록 증하였고 Ca는 $2.95{\sim}36.76$, Cu는 $0.01{\sim}0.14$, Fe는 $0.71{\sim}3.23$, K는 $110.89{\sim}517.33$, Mg는 $34.78{\sim}122.40$, Mn은 $0.56{\sim}5.98$, Na는 $0.19{\sim}14.36$, Zn은 $0.90{\sim}5.71ppm$을 나타내었으며, 시험구별로 보면 WNR, BNR구가 Na만 제외한 다른 무기성분 함량이 가장 높았다.O to reduce I/O cost by reusing data already present in the memory of other nodes. Finally, chunking and on-line compression mechanisms are included in both models. We demonstrate that we can obtain significantly high-performance