• 제목/요약/키워드: 여러 단어 요소

검색결과 38건 처리시간 0.029초

문장으로부터 여러 단어로 구성된 여러 유형의 요소 추출 (Extracting Multi-type Elements Consisting of Multi-words from Sentences)

  • 양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-77
    • /
    • 2014
  • 문장을 대상으로 특정 응용 분야에 필요한 요소를 자동으로 추출하는 정보 추출(information extraction) 과제는 자연어 처리 및 텍스트 마이닝의 중요한 과제 중 하나이다. 특히 추출해야할 요소가 한 단어가 아닌 여러 단어로 구성된 경우 추출 과정에서 고려되어야할 부분이 크게 증가한다. 또한 추출 대상이 되는 요소의 유형 또한 여러 가지인데, 감정 분석 분야를 예로 들면 화자, 객체, 속성 등 여러 유형의 요소에 대한 분석이 필요하며, 비교 마이닝 분야를 예로 들면 비교 주체, 비교 상대, 비교 술어 등의 요소에 대한 분석이 필요하다. 본 논문에서는 각각 여러 단어로 구성될 수 있는 여러 유형의 요소를 동시에 추출하는 방법을 제안한다. 제안 방법은 구현이 매우 간단하다는 장점을 가지는데, 필요한 과정은 형태소 부착과 변환 기반 학습(transformation-based learning) 두 가지이며, 파싱 혹은 청킹 같은 별도의 전처리 과정도 거치지 않는다. 평가를 위해 제안 방법을 적용하여 비교 마이닝을 수행하였는데, 비교 문장으로부터 각자 여러 단어로 구성될 수 있는 세 가지 유형의 비교 요소를 자동 추출하였으며, 실험 결과 정확도 84.33%의 우수한 성능을 산출하였다.

  • PDF

단어 학습 및 게임 기능을 갖는 '떴다 한글' 안드로이드 앱 개발 (An Android App Development for 'Ddut Da Hangul' with Word Learning and Game Facilities)

  • 우영곤;심은영;채설화;한승수;강현규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.142-146
    • /
    • 2015
  • 본 논문은 뜻풀이를 통해 한글단어를 맞추는 앱 어플리케이션인 '떴다 한글'의 구현에 대하여 논한다. 학습적인 요소와 게임적인 요소를 기반으로 만들어진 이 앱을 통하여 누구나 쉽게 이용하고 한글 단어를 학습할 수 있는 안드로이드 앱 어플리케이션이다. '떴다 한글'은 4가지 특징을 가진다. 첫 번째는 한글의 사전적인 의미를 제공하여 게임이 진행되기 때문에 사용자가 자신이 사용하는 언어의 정확한 뜻을 알 수 있게 하였다. 두 번째는 난이도를 선택할 수 있어 모든 연령대 사람들과 한글에 관심이 많은 외국인 사용자들이 쉽게 이용할 수 있다. 세 번째는 게임적 요소로 중요한 동적인 움직임과 함께 문제를 풀게 하여 사용자가 오랜 시간동안 지루하지 않게 하였다. 네 번째는 순위를 볼 수 있게 하여 자신의 점수를 등록하면 다른 사람들과 경쟁을 할 수 있도록 하여 더욱 이 앱에 관심을 갖도록 하였다. 이러한 특징들은 교육적 측면으로서 좋은 특징을 가지고 있다. 그 외에도 떴다 한글은 데이터베이스 파일을 중심으로 작동하기 때문에 파일의 구조와 입력 정보를 변경하여 여러 버전(헷갈리기 쉬운 단어, 순수우리말, 사자성어 등)의 게임으로 응용이 가능하다는 산업 및 기술적 측면의 모습도 볼 수 있다.

  • PDF

효율적 검색의도 파악을 위한 쿼리 단어 가시화에 관한 연구 (Revealing Hidden Relations between Query-Words for an Efficient Inducing User's Intention of an Information Search)

  • 권순진;홍철의;김원일
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.44-52
    • /
    • 2012
  • 본 논문은 검색 질의어 단어 입력 시에 드러나지 않은 쿼리 단어들을 가시화함으로써, 검색 주체의 의도 구조를 선택할 수있게 하며, 탐색 효율을 제고하도록 제안한다. 검색 질의어를 입력할 때 검색 의도를 파악한다면 효과적인 검색 서비스가 가능할 것이다. 이렇게 하기 위하여, 의도 구조와 요소를 설정함과 아울러 쿼리 단어의 생략된 관계에 해당하는 단어를 복원하여 가시화하는 과정이 필요하다. 관련된 연구들을 검토하며, 검색 의도 구조를 정의하고, 쿼리 단어의 가시화를 위한 방법과 의도 구조에 적합한 쿼리 단어를 확장 생성하는 과정을 보인다. 이 과정에서 의도 구조의 여러 계층 중 하나를 쿼리 단어 범위로 할당하는 예제와 실험을 수행하였다. 탐색 효율 상승의 검색결과와 탐색효율 하락의 검색결과를 분석하였다. 향후 연구로는 의도 결절을 확장하여 구성 요소를 학습할 수 있도록 자동화하는 연구가 필요하다.

대용량 인쇄 한글 문서 검색을 위한 영상 기반 단어 매칭 방법 (An Image-based Word Matching Method for Large volume Printed Hangul Document Retrieval)

  • 진영범;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.461-463
    • /
    • 2000
  • 기계 인쇄된 문서 영상에서 주제어를 탐색하는 문제는 여러 응용 분야에 필수적인 핵심 기술이지만 수작업 또는 OCR 소프트웨어를 이용하여 텍스트로 변환하는 방법은 많은 비용 때문에 한계를 가지고 있다. 요즘 영상 형태로 원문을 저장하는 경우가 많으므로 본 논문은 영상-기반 매칭을 통한 검색 방법을 채택하였다. 문자 또는 단어 매칭에서 가장 중요한 요소가 특징인데 본 논문에서는 디지털도서관과 같이 매칭 대상 단어가 수천만∼수십억에 달하는 대용량 한글 문서 검색에 이용될 수 있도록 비교적 간단히 추출할 수 있고 차원수 조절이 용이한 4방향 프로파일 특징을 이용하는 빠른 검색 방법을 제안한다. 실험결과 8-차원 정도의 간단한 특징으로도 의미 있는 검색 성능을 얻을 수 있음을 보였다.

  • PDF

한국어 형태소 분석기 HAM의 형태소 분석 및 철자 검사 기능 (Morphological Analysis and Spelling Check Function of Korean Morphological Analyzer HAM)

  • 강승식;이하규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-252
    • /
    • 1996
  • 한국어 형태소 분석기의 효율성에 영향을 미치는 요인은 분석 알고리즘의 효율성보다도 어휘 사전 등 형태소 분석과 관련된 여러 가지 요인들이 미치는 영향이 훨씬 더 크다. 따라서 단어의 유형 분류 기법이나 불규칙 용언의 분석 방법을 비롯하여 어휘 사전의 구조 및 크기, 알고리즘의 선택과 구현 등 형태소 분석과 관련된 모든 요소들을 형태소 분석에 적합하도록 구성하여야 한다. 본 논문에서는 어휘형태소 사전과 문법형태소 사전의 크기, 한글 문서에 나타나는 단어의 특성 등 형태소 분석기의 효율 및 성능에 영향을 미치는 요소들을 고찰하였다. 그 결과로 알고리즘의 효율보다는 사전 탐색 시간이 형태소 분석에 미치는 영향이 매우 크다는 것을 알 수 있었다. 이와 같이 형태소 분석기의 성능에 영향을 미치는 요인들을 고려하여 구현된 범용 형태소 분석기 HAM에 대하여 형태소 분석 기능과 철자 검사 기능을 실험하였다. 형태소 분석 성공률에 대한 실험 결과 99.46%의 분석률을 보이고 있으며, 맞춤법 검사 기능으로는 상용화된 철자 검사기와 비슷한 성능을 보이고 있다. HAM의 처리 속도는 pentium 120MHz linux 2.0 환경에서 1 초에 약 1,000 단어를 분석한다.

  • PDF

ETRI의 음성데이타베이스 구축현황 (Current Status of Speech Database at ETRI)

  • 이영직
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.265-271
    • /
    • 1995
  • 한국전자통신연구소의 음성 데이터베이스 구축 현황을 기술한다. 현재 한국전자통신연구소에서는 음성인식 연구를 위해 단어음성, 정형 문장 음성 등의 데이터베이스를 구축, 보유하고 있다. 음성인식용 데이터베이스는 정해진 단어, 분장을 20명 내지 100명이 발성한 것으로, 일부는 음소 단위까지 레이블링이 되어 있다. 또 음성합성 연구를 위해 합성단위 및 운율데이타베이스를 가지고 있는데 이는 한 명 혹은 남녀 각각 3명이 발성한 것으로, 일부는 피치 등이 수록되어 있다. 문장 데이터베이스는 언어 정보처리를 위해 교재, 문학, 경제, 과학 분야의 문장을 총 480만 어절 가지고 있으며, 이 중 일부에 품사 정보를 추가하였다. 한국전자통신연구소는 국내 음성 연구의 발전에 기여하고자 음성 연구의 기반 자료가 되는 음성 데이터베이스를 국내 대학 및 산업체에 배포하고 있다 음성 데이터베이스는 음성 연구의 기반이 되는 자료임에도 불구하고 많은 비용과 노력이 들어 일반 대학에서는 쉽게 만들 수 없었다. 이에 ETRI는 한국통신이 출연한 "자동통역 요소기술개발" 과제으 LQNTKSANF인 여러 종류의 음성 데이터베이스와 관련 프로그램을 공급하여 국내 음성 연구의 기반 확립에 기여하고자 한다. 기여하고자 한다.

  • PDF

의학용 영어 품사 태거 구현 (Implementation of an English POS Tagger for Medical)

  • 이현구;안혁주;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.155-156
    • /
    • 2015
  • 자연어처리의 여러 분야에서 기본요소로 사용되는 영어 품사 태거를 UMLS의 의학용어 어휘정보와 OANC(Open American National Corpus) 말뭉치를 이용해 의학용 문서도 분석 가능한 의학용 영어 품사 태거를 제안한다. TRIE구조를 이용한 단어 묶음 모델로 여러 어절의 의학용어를 하나로 묶고 HMM(Hiden Markov Model)을 이용한 품사 태거로 해당하는 품사를 부착한다.

  • PDF

음성 특성 지표를 이용한 음성 인식 성능 예측 (Speech Recognition Accuracy Prediction Using Speech Quality Measure)

  • 지승은;김우일
    • 한국정보통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.471-476
    • /
    • 2016
  • 본 논문에서는 음성 특성 지표를 이용한 음성 인식 성능 예측 실험의 내용을 소개한다. 선행 실험에서 효과적인 음성 인식 성능 예측을 위해 대표적인 음성 인식 성능 지표인 단어 오인식률과 상관도가 높은 여러 가지 특성 지표들을 조합하여 새로운 성능 지표를 제안하였다. 제안한 지표는 각 음성 특성 지표를 단독으로 사용할 때 보다 단어 오인식률과 높은 상관도를 나타내 음성 인식 성능을 예측하는데 효과적임을 보였다. 본 실험에서는 이 결과를 근거하여 조합에 사용된 음성 특성 지표를 채택하여 4차원 특징 벡터를 생성하고 GMM 기반의 음성 인식 성능 예측기를 구축한다. 가우시안 요소를 증가시키며 실험한 결과 제안된 시스템은 babble 잡음, 자동차 잡음에서 모두 SNR이 낮을수록 단어 오인식률을 높은 확률로 예측함을 확인하였다.

한국 기업 이름의 형태론적 연구 (A Morphological Analysis of Korean Business Names)

  • 강은경
    • 한국콘텐츠학회논문지
    • /
    • 제20권10호
    • /
    • pp.157-166
    • /
    • 2020
  • 본 연구는 코스닥(KOSDAQ)에 상장된 총 1,358개의 기업 이름을 대상으로 의미와 내부구조를 분류하고 형태론적인 특성을 고찰한 기술적 연구이다. 어원적 측면에서 코스닥 기업 이름의 가장 큰 특성은 영어의 독점적 지위와 한국식 영어 조어로 밝혀졌다. 특히 코스닥 기업 이름의 경우 한국어 요소만 참여한 것은 20%에 불과하고 나머지는 외국어 요소가 참여하는데, 그중 영어 요소가 관여한 것이 전체의 76%로, 영어의 독점적 지위가 확인되었다. 형태 구조 면에서 합성어와 축약어, 축약 합성어가 90%에 달하는데, 영어 원단어의 형태적 특성과 무관하게 축약어가 많이 사용되고, 같은 단어라도 여러 형태로 축약되어 참여하는 형태를 보인다. 접두사나 접미사, 결합형등 영어의 의존형태소들도 자유롭게 독립어로 활용된다. 이것은 이들이 영어에서 차용된 것이 아니라 한국어에서 생성된 단어라는 것을 보여주는 것으로, 한국식 영어라는 것을 보여주는 것이다.

연속 음성에서의 신경회로망을 이용한 화자 적응 (Speaker Adaptation Using Neural Network in Continuous Speech Recognition)

  • 김선일
    • 한국음향학회지
    • /
    • 제19권1호
    • /
    • pp.11-15
    • /
    • 2000
  • RM 음성 Corpus를 이용한 화자 적응 연속 음성 인식을 수행하였다. RM Corpus의 훈련용 데이터를 이용해서 기준화자에 대한 HMM 학습을 실시하고 평가용 데이터를 이용하여 화자 적응 인식에 대한 평가를 실시하였다. 화자 적응을 위해서는 훈련용 데이터의 일부가 사용되었다. DTW를 이용하여 인식 대상화자의 데이터를 기준화자의 데이터와 시간적으로 일치시키고 오차 역전파 신경회로망을 사용하여 인식 대상화자의 스펙트럼이 기준화자의 스펙트럼 특성을 지니도록 변환시켰다. 최적의 화자 적응이 이루어지도록 하기 위해 신경회로망의 여러 요소들을 변화시키면서 실험을 실시하고 그 결과를 제시하였다. 학습을 거쳐 적절한 가중치를 지닌 신경회로망을 이용하여 기준화자에 적응시킨 결과 단어 인식율이 최대 2.1배, 단어 정인식율이 최대 4.7배 증가하였다.

  • PDF