• 제목/요약/키워드: 정보 단위

검색결과 5,279건 처리시간 0.029초

정규표현을 이용한 연속 및 불연속 복합단위 인식기 (An Interrupted and Uninterrupted Compound Unit Recognizer using Regular Expression)

  • 여상화;서정연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.487-490
    • /
    • 2003
  • 기계번역 시스템에서 복합단위 처리는 원문의 분석 부담을 줄이고 조합적으로 대역문의 의미를 생성하지 못하는 원문의 처리를 위해 필수적이다. 본 논문에서는 정규표현(Regular Expression)을 이용하여 영어의 연속(Non-Interrupted) 및 불연속(Interrupted) 복합 단위를 인식하는 복합단위 인식기를 제안한다. 제안된 방법은, 기존에 trie 와 같은 index 의 갱신 과정이 불필요하므로, 다수의 작업자에 의해 복합단위 사전을 동시에 구축하는 경우에, 한 작업자의 결과가 실시간으로 다른 작업자의 작업에 반영되는 장점이 있으며, 복합단위 인식에 있어 정규 표현을 이용함으로써 복합단위 인식기의 성능을 선언적으로 향상시킬 수 있다. 번역 실행시의 고속 탐색을 위해서는 전체 복합단위로부터 FSA(finite State Automata) 를 자동으로 구축하여 빠른 속도로 인식 가능하도록 하였다.

  • PDF

밀도구분도 매핑을 이용한 통계정보 공간 내삽의 유효성 평가 (An Evaluation of Spatial Interpolation of Statistical Information Using Dasymetric Mapping)

  • 이병길
    • 한국측량학회지
    • /
    • 제24권4호
    • /
    • pp.343-350
    • /
    • 2006
  • 인구통계와 같이 임의의 공간 단위로 집계되는 통계자료를 위성영상이나, 여타 다른 GIS 도형정보와 통합하여 활용하기 위해서는 상호간의 공간 단위를 일치시켜야 한다. 밀도구분도 매핑 기법은 집성된 통계자료를 분해하여 세밀한 공간 단위로 나누거나, 행정구역과 같은 객체 단위의 데이터를 연속된 표면 모델로 만드는데 적용 가능한 기법으로 제안되고 있다. 본 연구에서는 밀도구분도 매핑의 유효성을 평가하기 위해 1) 연구대상지역의 사업체 정보를 행정동 단위의 통계로 집계하고, 2) 행정동 통계에 밀도구분도 매핑 기법을 적용하여 사업체의 분포를 구하고, 3) 공간 내삽에 의해 구해진 사업체의 분포와 원 정보로부터 구해진 분포를 비교하여 알고리즘의 성능을 평가하였다.

객체기반의 효율적인 갱신 및 이력 관리를 위한 공간 데이터 모델 설계 (Spatial Data Modeling for Feature-based Efficient Updating and History Management)

  • 김상엽;김형수;서성보;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.352-355
    • /
    • 2008
  • 최근 센서와 모바일 기술의 발달에 따라 대용량 데이터 처리가 가능해지고, 유비쿼터스와 텔레매틱스 등의 도입으로 공간 데이터가 다양한 환경에 응용되거나 활용 분야가 점차 증가하고 있다. 기존의 수치지도 관리시스템은 공간 데이터를 도엽 단위로 관리하여 데이터의 구축이 용이하지만, 객체 단위의 데이터 구축, 관리, 제공 및 갱신을 효율적으로 지원하기 어렵다. 따라서 이 논문에서는 기존 도엽기반 시스템의 문제점을 해결하기위해 객체기반 UFID 부여방안, 연속성 표현, 객체 단위의 효율적인 갱신 및 이력관리를 위한 객체기반 공간 데이터 모델을 설계한다. 제안하는 객체기반의 공간 데이터 모델은 지형지물에 UFID를 부여하고 도엽 단위로 구축된 수치지도 데이터의 조인 연산을 통해 연속적인 표현이 가능하다. 아울러 갱신으로 인해 변경된 데이터를 이력 DB에 시간간격 단위로 저장, 관리하여 사용자에게 객체단위 이력 정보를 제공할 수 있다.

고등학생의 정보활용능력 평가에 관한 연구 (An Assessment of the Information Literacy of High School Students in Korea)

  • 박명규
    • 한국비블리아학회지
    • /
    • 제16권1호
    • /
    • pp.75-90
    • /
    • 2005
  • 이 연구는 고등학생의 정보활용능력 평가를 위한 루브릭과 평가지 개발을 목적으로 하였다. 이를 위하여 관련 문헌을 조사하여 평가 도구 개발의 이론과 과정을 고찰하였고, 대학 단위, 지역 전문대학 단위, 주정부 단위, 고등학교 학군 단위에서 개발한 미국의 평가 도구를 분석하여 우리 고등학생의 정보활용 능력 평가 도구를 제시하였다.

  • PDF

복수 음운 정보를 이용한 영.한 음차 표기 (English-to-Korean Transliteration using Multiple Unbounded Overlapping Phonemes)

  • 강인호;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-54
    • /
    • 1999
  • 본 연구에서는 기존의 한정된 길이의 영어 또는 한글의 발음 단위를 이용하던 자동 음차 표기 방식과 달리, 학습 데이터에서 추출한 임의 길이의 음운 패턴을 사용하는 방법을 제안한다. 통계적 정보에 기반하여 추출한 음차 표기 패턴과 외래어 표기 규칙에 기반하여 기술한 음차 표기 패턴을 위치와 길이에 관계없이 사용하여 주어진 영어 단어의 한글 음차 표기를 얻어낸다. 제안하는 방법은 먼저 주어진 영어 단어의 가능한 모든 발음 단위를 기준으로 한글 표기 네트워크를 만든 후, 학습 데이터에서 추출한 음운 패턴을 교차 적용시켜 네트워크 각 노드의 가중치를 결정한다. 가중치가 결정된 네트워크에서 가중치의 합이 가장 좋은 경로를 찾아냄으로 해서 음차 표기를 수행한다. 본 연구에서 제안하는 방법으로 실험을 한 결과 자소 단위 86.5%, 단어 단위 55.3%의 정확률을 얻을 수 있었다.

  • PDF

단위 취약점 식별자 부여 자동화에 대한 연구 (A study on automation of AV(Atomic Vulnerability) ID assignment)

  • 김형종
    • 인터넷정보학회논문지
    • /
    • 제9권6호
    • /
    • pp.49-62
    • /
    • 2008
  • 단위 취약점(atomic vulnerability)은 기존의 취약점의 표현방법이 갖는 모호성을 개선하여, 취약점을 시스템적으로 표현하기 위한 취약점의 새로운 정의이다. 단위 취약점은 취약점의 유형, 위치, 결과 등에 따라 보다 세분화하여, 취약점을 의미를 중심으로 분석하고 자 할 때 필요한 정보로서, 기존의 취약점은 몇 개의 단위 취약점 식별자의 조합으로 표현된다. 현재 가장 대표적으로 사용되는 취약점 정보인 CW(Common Vulnerability Exposure)의 경우, 취약점의 핵심적인 내용을 자연어 형태의 설명(description)을 통해 제시한다. 이러한 CVE의 설명 정보는, 정형화되어 있지 않아서 단위 취약점 분석을 위해서는 기존의 CVE 설명 정보에서 특정 단어들을 검색하여 데이터를 분류하는 자연어 검색 및 판단 기법이 필요하다. 본 논문에서는 자연어 검색 기법을 이용하여 단위 취약점 분석에 활용할 수 있는 소프트웨어를 설계하고 이를 실제 구현한 결과를 소개하고자 한다. 본 연구의 기여점은 설명위주의 취약점 표현을 정형화된 형태로 변환해 주는 소프트웨어 시스템의 개발에 있다.

  • PDF

LSTM을 이용한 한국어 이미지 캡션 생성 (Generate Korean image captions using LSTM)

  • 박성재;차정원
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

워크플로우 시스템에서 HTML 문서를 이용한 데이터 접근성의 조정 (Data accessibility control for Workflow System using HTML document)

  • 김홍숙;한동수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.273-275
    • /
    • 1998
  • 기존의 워크플로우 시스템의 단위 업무간의 흐름 조정이 제어의 흐름에 중점을 두고 연구되었으나 실제 단위 업무간에 흐름 조정 시에 데이터도 같이 흘러가므로 이에 대한 연구가 필요하다. 본 논문에서는 워크플로우 시스템에서 단위 업무간의 흐름 조정 시에 제어의 흐름에 따라 데이터에 대한 접근성을 HTML문서를 이용하여 표현하는 방법을 제안한다. 단위 업무간의 흐름 조정의 형태에 따른 데이터의 접근성에 대한 요구사항을 고찰하고 이를 제안된 데이터 접근성 표현 방법을 사용하여 구현하는 방법에 대하여 제시한다.

  • PDF

한국어 자모단위 음성인식 결과 후보정을 위한 신경망 기반 자모 병합 방법론 (Enhancing Korean Alphabet Unit Speech Recognition with Neural Network-Based Alphabet Merging Methodology)

  • 임솔이;이원준;이근배;김윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.659-663
    • /
    • 2023
  • 이 논문은 한국어 음성인식 성능을 개선하고자 기존 음성인식 과정을 자모단위 음성인식 모델과 신경망 기반 자모 병합 모델 총 두 단계로 구성하였다. 한국어는 조합어 특성상 음성 인식에 필요한 음절 단위가 약 2900자에 이른다. 이는 학습 데이터셋에 자주 등장하지 않는 음절에 대해서 음성인식 성능을 저하시키고, 학습 비용을 높이는 단점이 있다. 이를 개선하고자 음절 단위의 인식이 아닌 51가지 자모 단위(ㄱ-ㅎ, ㅏ-ㅞ)의 음성인식을 수행한 후 자모 단위 인식 결과를 음절단위의 한글로 병합하는 과정을 수행할 수 있다[1]. 자모단위 인식결과는 초성, 중성, 종성을 고려하면 규칙 기반의 병합이 가능하다. 하지만 음성인식 결과에 잘못인식된 자모가 포함되어 있다면 최종 병합 결과에 오류를 생성하고 만다. 이를 해결하고자 신경망 기반의 자모 병합 모델을 제시한다. 자모 병합 모델은 분리되어 있는 자모단위의 입력을 완성된 한글 문장으로 변환하는 작업을 수행하고, 이 과정에서 음성인식 결과로 잘못인식된 자모에 대해서도 올바른 한글 문장으로 변환하는 오류 수정이 가능하다. 본 연구는 한국어 음성인식 말뭉치 KsponSpeech를 활용하여 실험을 진행하였고, 음성인식 모델로 Wav2Vec2.0 모델을 활용하였다. 기존 규칙 기반의 자모 병합 방법에 비해 제시하는 자모 병합 모델이 상대적 음절단위오류율(Character Error Rate, CER) 17.2% 와 단어단위오류율(Word Error Rate, WER) 13.1% 향상을 확인할 수 있었다.

  • PDF

음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구 (Comparing Byte Pair Encoding Methods for Korean)

  • 이찬희;이동엽;허윤아;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.291-295
    • /
    • 2018
  • 한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

  • PDF