• 제목/요약/키워드: 대용어

검색결과 148건 처리시간 0.027초

과학기술 핵심개체 인식기술 통합에 관한 연구 (A Study on the Integration of Recognition Technology for Scientific Core Entities)

  • 최윤수;정창후;조현양
    • 정보관리학회지
    • /
    • 제28권1호
    • /
    • pp.89-104
    • /
    • 2011
  • 대용량 문서에서 정보를 추출하는 작업은 정보검색 분야뿐 아니라 질의응답과 요약 분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로서 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 과학기술문헌을 분석하여 개체명과 전문용어를 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다.

화장품 후기글의 자질기반 감성분석을 위한 다단어 표현의 유한그래프 사전 및 문법 구축 (Building Korean Multi-word Expression Lexicons and Grammars Represented by Finite-State Graphs for FbSA of Cosmetic Reviews)

  • 황창회;유광훈;최성용;신동혁;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.400-405
    • /
    • 2018
  • 본 연구는 한국어 화장품 리뷰 코퍼스의 자질기반 감성 분석을 위하여, 이 도메인에서 실현되는 중요한 다단어 표현(MWE)의 유한상태 그래프 사전과 문법을 구축하는 방법론을 제시하고, 실제 구축된 사전과 문법의 성능을 평가하는 것을 목표로 한다. 본 연구에서는 자연어처리(NLP)에서 중요한 화두로 논의되어 온 MWE의 어휘-통사적 특징을 부분문법 그래프(LGG)로 형식화하였다. 화장품 리뷰 코퍼스에 DECO 한국어 전자사전을 적용하여 어휘 빈도 통계를 획득하고 이에 대한 언어학적 분석을 통해 극성 MWE(Polarity-MWE)와 화제 MWE(Topic MWE)의 전체 네 가지 하위 범주를 분류하였다. 또한 각 모듈간의 상호관계에 대한 어휘-통사적 속성을 반복적으로 적용하는 이중 증식(double-propagation)을 통해 자원을 확장하였다. 이 과정을 통해 구축된 대용량 MWE 유한그래프 사전 DECO-MWE의 성능을 테스트한 결과 각각 0.844(Pol-MWE), 0.742(Top-MWE)의 조화평균을 보였다. 이를 통해 본 연구에서 제안하는 MWE 언어자원 구축 방법론이 다양한 도메인에서 활용될 수 있고 향후 자질기반 감성 분석에 중요한 자원이 될 것임을 확인하였다.

  • PDF

담화표지 '아', '어', '음'의 성별과 연령별 사용 양상 (The pattern of use by gender and age of the discourse markers 'a', 'eo', and 'eum')

  • 송영숙;심지수;오재혁
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.37-45
    • /
    • 2020
  • 이 연구는 담화 표지 '아, 어, 음'의 출현 빈도와 발화 시간, 발화 위치 등을 계량적으로 관찰하여 성별과 연령별 차이를 보이고자 하였다. 이를 위해 대용량 음성 코퍼스인 서울코퍼스를 이용하였고, Praat(ver.6.1.31)으로 음길이와 실제 발화를 확인하고, Emeditor(ver.17.6.1)로 코퍼스를 분석하고, R(ver.3.4.4)로 통계 분석하여 결과를 제시하였다. 성별에 따라 보면 여성의 경우 남성보다 단독 발화에서 '음'이 고빈도로 사용되었고, 발화 종결 위치에서의 평균 음길이 또한 길었다. 연령에 따라 보면 발화 시작 위치에서 10대에서는 '아'가, 40대는 '어'가 고빈도로 출현하는 것이 특징적이었다.

단일머신 환경에서의 논리적 프로그래밍 방식 기반 대용량 RDFS 추론 기법 (Scalable RDFS Reasoning using Logic Programming Approach in a Single Machine)

  • 바트셀렘 작바랄;김제민;이완곤;박영택
    • 정보과학회 논문지
    • /
    • 제41권10호
    • /
    • pp.762-773
    • /
    • 2014
  • 시맨틱 웹상에서 RDFS로 표현된 데이터의 사용 증가로 인하여, 대용량 데이터의 추론에 대한 많은 요구가 생겨나고 있다. 많은 연구자들은 대용량 온톨로지 추론을 수행하기 위해서 하둡과 같은 고가의 분산 프레임워크를 활용한다. 그러나, 적절한 사이즈의 RDFS 트리플 추론을 위해서는 굳이 고가의 분산 환경 시스템을 사용하지 않고 단일 머신에서도 논리적 프로그래밍을 이용하면 분산 환경과 유사한 추론 성능을 얻을 수 있다. 본 논문에서는 단일 머신에 논리적 프로그래밍 방식을 적용한 대용량 RDFS 추론 기법을 제안하였고 다중 머신을 기반으로 한 분산 환경 시스템과 비교하여 2억개 정도의 트리플에 대한 RDFS 추론 시스템을 적용한 경우 분산환경과 비슷한 성능을 보이는 것을 실험적으로 증명하였다. 효율적인 추론을 위해 온톨로지 모델을 세부적으로 분리한 메타데이터 구조와 대용량 트리플의 색인 방안을 제안하고 이를 위해서 전체 트리플을 하나의 모델로 로딩하는 것이 아니라 각각 온톨로지 추론 규칙에 따라 적절한 트리플 집합을 선택하였다. 또한 논리 프로그래밍이 제공하는 Unification 알고리즘 기반의 트리플 매칭, 검색, Conjunctive 질의어 처리 기반을 활용하는 온톨로지 추론 방식을 제안한다. 제안된 기법이 적용된 추론 엔진을 LUBM1500(트리플 수 2억개) 에 대해서 실험한 결과 166K/sec의 추론 성능을 얻었는데 이는 8개의 노드(8 코아/노드)환경에서 맵-리듀스로 수행한 WebPIE의 185K/sec의 추론 속도와 유사함을 실험적으로 증명하였다. 따라서 단일 머신에서 수행되는 본 연구 결과는 트리플의 수가 2억개 정도까지는 분산환경시스템을 활용하지 않고도 분산환경 시스템과 비교해서 비슷한 성능을 보이는 것을 확인할 수 있었다.

한국어 문장내 체언류 조응대용어의 해결방안 (A method of the the substantives anaphora resolution in korean intra-sentential)

  • 김정해;이상국;이상조
    • 전자공학회논문지B
    • /
    • 제33B권4호
    • /
    • pp.183-190
    • /
    • 1996
  • The purpose of this paper is to show that the solutions of the problem for the anaphor ocured in korean senstence, by means of one-direction activated chart parsing leaded by a head. This is the phenomenon frequently occured in the conversation of natural language and the part necessarily required in the construction of natural language processing system for the practical use. To solve the problem of anaphor in the korean language, we have computerized definition and the management conditions necessary in the semantic classification between the anaphor and its antecedent and index are added in the feature structure in lexicon. To deal with anaphor in parser and algorithm is proposed to solve the problem for anaphor. The range of management of pareser is extended to solve the problem for anaphor of the indeclinable parts of speech in korean occured in all the sentences the parser HPSG developed previously manages.

  • PDF

객체지향 기법을 이용한 시소러스 관리 시스템의 개발에 관한 연구 (Development of a Thesaurus Management System based on the Object-Oriented Technique)

  • 박계숙
    • 정보관리학회지
    • /
    • 제13권2호
    • /
    • pp.5-18
    • /
    • 1996
  • 시소러스를 구축하기 위해서는 새로운 단어의 입력, 수정, 삭제 및 단어간 관계생성 등의 동적인 변하에 신속 정확히 대용할 수 있도록 시소러스 관리 시스템이 개발되어야 한다. 본 연구에서 개발한 시소러스 관리 시스템은 객체지향적 구조로 데이터베이스를 설계하였으며, GUI화면을 제공하여 이용자 인터페이스를 향상시켰다. 또한 시소러스를 구축하는데 있어서 동일한 영문 용어의 다양한 한글표기로 인한 정보검색 효율 저하 문제를 해결하기 위해 동의어의 확장에 역점을 두었다.

  • PDF

XML을 이용한 메타데이터 분산검색 시스템의 설계 및 구현에 관한 연구 (A Study on the Design and Implementation of the System for Distributed Information Retrieval based on the Metadata using of XML)

  • 송종철;홍기채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2415-2418
    • /
    • 2002
  • 인터넷이 급속히 발전하고 확산되면서 정보를 효율적으로 활용하고 유통시키기 위한 연구가 활발히 진행되고 있다. OAI(Open Archives Initiative)에서는 대용량 정보를 메타데이터를 이용하여 공유하고 검색할 수 있는 프로토콜 및 임프라에 대한 연구와 표준화를 추진하고 있다. 또한 EMAF(An Extensible Multi-Agent Framework)에서는 멀티에이전트를 이용한 정보 유통 및 활용한 대한 연구가 진행중이다. 이에, 본 논문에서는 메타데이타과 XML, 멀티에이전트를 이용한 분산검색 시스템을 설계하고 구현하였다. 본 시스템은 조정에이전트와 응용에이전트로 구성되고 에이전트간 통신에는 XML과 OAI의 메타데이타 하비스팅 프로토콜을 응용하였다. 메타데이터에 대한 검색을 수행하여 검색 성능을 높일 수 있었으며 또한 사용자가 입력한 문장 단위의 질의를 처리할 수 있는 기능과 관련어를 추출할 수 있는 기능도 제공한다.

  • PDF

종자 어휘를 이용한 자질 추출과 지지 벡터 기계(SVM)을 이용한 문서 감정 분류 시스템의 개발 (A Sentiment Classification System Using Feature Extraction from Seed Words and Support Vector Machine)

  • 황재원;전태균;고영중
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.938-942
    • /
    • 2007
  • 신문 기사 및 상품 평은 특정 주제나 상품을 대상으로 하여 글쓴이의 감정과 의견이 잘 나타나 있는 대표적인 문서이다. 최근 여론 조사 및 상품 의견 조사 등 다양한 측면에서 대용량의 문서의 의미적 분류 및 분석이 요구되고 있다. 본 논문에서는 문서에 나타난 내용을 기준으로 문서가 나타내고 있는 감정을 긍정과 부정의 두 가지 범주로 분류하는 시스템을 구현한다. 문서 분류의 시작은 감정을 지닌 대표적인 종자 어휘(seed word)로부터 시작하며, 자질의 선정은 한국어 특징상 감정 및 감각을 표현하는 명사, 형용사, 부사, 동사를 대상으로 한다. 가중치 부여 방법은 한글 유의어 사전을 통해 종자 어휘의 의미를 확장하여 각각의 가중치를 책정한다. 단어 벡터로 표현된 입력 문서를 이진 분류기인 지지벡터 기계를 이용하여 문서에 나타난 감정을 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

분산제어방식을 적용한 CANDU형 발전소의 계측제어계통

  • 김영백;홍형표;한재복
    • 제어로봇시스템학회지
    • /
    • 제2권5호
    • /
    • pp.56-62
    • /
    • 1996
  • 캐나다 원자력공사(AECL)에 의하여 1960년대 초에 개발되어 상업운전중이거나 건설중인 CANDU 6 발전소는 중앙집중제어방식을 채택하여 계통의 성능 및 신뢰성이 입증되었으나 경제성 및 유지보수의 어려움으로 인하여 현재 개발이 진행중인 CANDU3과 CANDU9 발전소에서는 프로그래머블 콘트롤러를 이용한 분산제어방식을 기반으로 하여 계측제어계통이 설계되고 있다. 분산제어계통은 우수한 확장성과 신뢰성으로 인하여 이미 일반 산업 분야에서 널리 활용되고 있으며 최근에는 원자력발전소에도 적용범위가 계속해서 확대되고 있다. 본 보고서는 최신의 계측제어기술을 적용하여 차세대 대용량 원자력발전소로 개발중인 CANDU9 발전소의 발전소 전제어계통과 핵연료취급제어계통 등 계측제어계통에 대한 주요 계통설계 방안과 분산제어계통의 설계개념을 소개하고 CANDU 발전소에 분산제어방식을 적용한 장점을 고찰하고자 한다.

  • PDF

3.3kV급 고압전동기의 운영중 진단을 위한 휴대장비 개발에 관한 연구 (The Development of Carrying Equipment to Dignosis for 3.3kV High Voltage Motors under the operation)

  • 최광범;어수영;심종태;최종필;유남철
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.669-670
    • /
    • 2008
  • 본 논문에서는 발전소나 민간 사업소에서 쓰이는 3.3kV급 대용량 고압모터를 진단하기 위한 휴대장비 개발에 관하여 언급하였다. 본 과제에서 개발된 휴대장비는 모터에 입력되는 3상 전압 및 전류값을 체크하여 주파수 성분등의 Power Quality 성분을 분석하는 방식으로서 모터의 진동을 검사하는 방식과 병행하여 널리 쓰이고 있으며 여러 가지 해외 제품들이 존재한다. 본 과제에서는 이러한 해외 제품을 국산화하는데 초점이 맞추어져 있다.

  • PDF