• 제목/요약/키워드: Entity-based

검색결과 753건 처리시간 0.027초

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 (Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs)

  • 김경민;김규경;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.47-52
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.

CIDOC-CRM을 이용한 지역기록의 공간 기반 구조화 - 부산항을 사례로 - (A Space-Based Approach to Organizing Local Records Using CIDOC CRM: A Case of the Port of Busan)

  • 현문수
    • 한국기록관리학회지
    • /
    • 제15권2호
    • /
    • pp.83-101
    • /
    • 2015
  • 이 연구의 목적은 공간을 기반으로 한 지역기록의 구조화 가능성을 실험하는 것이다. 문헌연구를 통해 공간은 지역기록의 이용과 이해를 지원할 수 있는 중요한 기록 맥락으로 여겨질 수 있음을 확인하였다. 이에 공간을 독립 개체로 추가한 공간 중심의 기록 모형을 정의하였으며, 이에 따라 사례 지역과 기록을 대상으로 구조화 실험을 진행하였다. 실험은 CIDOC CRM 6.0 버전을 사용하여 진행하였다. 사례 공간인 부산항을 거점으로 확인된 기록 중 5개 유형을 사례로 구조화하였다. 실험을 통해 공간은 기록을 포함한 다양한 개체와 다양한 연관 관계로 구조화될 수 있었다. 최종적으로 공간은 지역기록 구조화에 있어 독립 개체로 정의될 수 있음을 확인하였으며, 기록의 맥락 이해를 지원하는 주요 개체로 다루어질 수 있음을 확인하였다.

Lightweight Named Entity Extraction for Korean Short Message Service Text

  • Seon, Choong-Nyoung;Yoo, Jin-Hwan;Kim, Hark-Soo;Kim, Ji-Hwan;Seo, Jung-Yun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제5권3호
    • /
    • pp.560-574
    • /
    • 2011
  • In this paper, we propose a hybrid method of Machine Learning (ML) algorithm and a rule-based algorithm to implement a lightweight Named Entity (NE) extraction system for Korean SMS text. NE extraction from Korean SMS text is a challenging theme due to the resource limitation on a mobile phone, corruptions in input text, need for extension to include personal information stored in a mobile phone, and sparsity of training data. The proposed hybrid method retaining the advantages of statistical ML and rule-based algorithms provides fully-automated procedures for the combination of ML approaches and their correction rules using a threshold-based soft decision function. The proposed method is applied to Korean SMS texts to extract person's names as well as location names which are key information in personal appointment management system. Our proposed system achieved 80.53% in F-measure in this domain, superior to those of the conventional ML approaches.

개체연관망 모델에 의한 오피니언마이닝의 확장 (Expansion of Opinion Mining based on Entity Association Network Model)

  • 김근형
    • 정보처리학회논문지D
    • /
    • 제18D권4호
    • /
    • pp.237-244
    • /
    • 2011
  • 오피니언마이닝은 대량의 온라인 고객리뷰에서 상품이나 서비스의 속성들에 대한 고객들의 주관적 의견을 긍정과 부정으로 분류하여 요약한다. 그러나, 고객들의 관심사항은 주관적 의견뿐만 아니라 객관적 사실을 통해서도 표현되기 때문에 주관적 의견만을 주요 분석대상으로 하는 기존 오피니언마이닝 기법을 확장할 필요가 있다. 본 논문에서는 주관적 의견뿐만 아니라 객관적 사실도 분석대상으로 하는 개체연관망 모델을 사용하여 기존 오피니언마이닝의 분석능력을 확장한다. 개체연관망 모델은 각 개체에 대한 긍정부정 정도를 표현할 뿐만 아니라 개체들 사이의 연관관계와 상대적 중요성을 나타낼 수 있다. 시스템 구현 결과, 개체연관망 모델에 기반한 오피니언마이닝시스템은 기존 기법에 비하여 보다 풍부한 정보를 추출할 수 있음을 확인하였다.

조건부 랜덤 필드를 이용한 특허 문서의 개체명 인식 (Named Entity Recognition for Patent Documents Based on Conditional Random Fields)

  • 이태석;신수미;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권9호
    • /
    • pp.419-424
    • /
    • 2016
  • 특허 정보검색에서는 검색 정확도를 높이거나 유사 특허들을 검색하기 위한 목적으로 청구항 등 특허 기술 문서의 내용을 대표하는 개체명 인식이 필요하다. 본 연구에서는 특허 개체명을 자동으로 인식하기 위하여 기계 학습 기법에서 태깅 문제 해결에 매우 우수한 성능을 보이는 조건부 랜덤 필드 기법을 이용하는 특허 개체명 인식 방법을 제안하였다. 개체명 태깅이 되어 있는 특허 문서 말뭉치에서 66만 어절을 학습용 데이터로 사용하여 특허 개체명 시스템을 구축하고, 7만 어절을 평가용 데이터로 사용하여 성능 평가를 하였다. 실험 결과에 의하면 개체명 인식 정확도는 93.6%이고, 개체명 인식 성능을 수작업 태깅 결과와 비교하여 일치도를 평가했을 때 카파 계수는 0.67로 나타났다. 이 카파 계수값은 두 사람의 수작업 태깅 결과에 대한 카파 계수 0.6 보다 높은 것으로 특허 개체명 인식 시스템이 수작업 태깅을 대신하여 실용적으로 활용될 수 있음을 확인하였다.

개인정보 비식별화를 위한 개체명 유형 재정의와 학습데이터 생성 방법 (Re-defining Named Entity Type for Personal Information De-identification and A Generation method of Training Data)

  • 최재훈;조상현;김민호;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.206-208
    • /
    • 2022
  • 최근 빅데이터 산업이 큰 폭으로 발전하는 만큼 개인정보 유출로 인한 사생활 침해 문제의 관심도 높아졌다. 자연어 처리 분야에서는 이를 개체명 인식을 통해 자동화하려는 시도들이 있었다. 본 논문에서는 한국어 위키피디아 문서의 본문에서 비식별화 정보를 지닌 문장을 식별해 반자동으로 개체명 인식 데이터를 구축한다. 이는 범용적인 개체명 인식 데이터에 반해 비식별화 대상이 아닌 정보에 대해 학습되는 비용을 줄일 수 있다. 또한, 비식별화 정보를 분류하기 위해 규칙 및 통계 기반의 추가적인 시스템을 최소화할 수 있는 장점을 가진다. 본 논문에서 제안하는 개체명 인식 데이터는 총 12개의 범주로 분류하며 의료 기록, 가족 관계와 같은 비식별화 대상이 되는 정보를 포함한다. 생성된 데이터셋을 이용한 실험에서 KoELECTRA는 0.87796, RoBERTa는 0.88575의 성능을 보였다.

  • PDF

소부대 전술 훈련을 위한 개체기반 워게임 모델과 전차시뮬레이터 연동에 관한 연구 (A Study on Integration between an Entity-based War Game Model and Tank Simulators for Small-Unit Tactical Training)

  • 김문수;김대규;권혁래;이태억
    • 한국군사과학기술학회지
    • /
    • 제15권1호
    • /
    • pp.36-45
    • /
    • 2012
  • In this thesis, we propose an integrated simulation method of virtual tank simulators and an entity-based constructive simulation model for small unit tactical training. To do this, we first identify requirements for virtual-constructive integrated simulation in a synthetic environment. We then propose a virtual and constructive interoperation method where individual combat entities of virtual-constructive models are interacting with each others. We develop a method of aggregating individual combat entities into a larger combat unit and disaggregating an unit into entities from time to time. We also present a way of sharing synthetic environment information between the models. Finally, we suggest that for more effective interoperability, virtual and constructive models should be developed by using common combat object models. The proposed interoperation method can be extended to further live-virtual-constructive models.

다수의 건설인력 위치 추적을 위한 스테레오 비전의 활용 (Simultaneous Tracking of Multiple Construction Workers Using Stereo-Vision)

  • 이용주;박만우
    • 한국BIM학회 논문집
    • /
    • 제7권1호
    • /
    • pp.45-53
    • /
    • 2017
  • Continuous research efforts have been made on acquiring location data on construction sites. As a result, GPS and RFID are increasingly employed on the site to track the location of equipment and materials. However, these systems are based on radio frequency technologies which require attaching tags on every target entity. Implementing the systems incurs time and costs for attaching/detaching/managing the tags or sensors. For this reason, efforts are currently being made to track construction entities using only cameras. Vision-based 3D tracking has been presented in a previous research work in which the location of construction manpower, vehicle, and materials were successfully tracked. However, the proposed system is still in its infancy and yet to be implemented on practical applications for two reasons. First, it does not involve entity matching across two views, and thus cannot be used for tracking multiple entities, simultaneously. Second, the use of a checker board in the camera calibration process entails a focus-related problem when the baseline is long and the target entities are located far from the cameras. This paper proposes a vision-based method to track multiple workers simultaneously. An entity matching procedure is added to acquire the matching pairs of the same entities across two views which is necessary for tracking multiple entities. Also, the proposed method simplified the calibration process by avoiding the use of a checkerboard, making it more adequate to the realistic deployment on construction sites.

CAD 수단을 이용한 벡터형 공간자료의 위상 검출과 격자도면화를 위한 유틸리티 개발 (Development of a CAD-based Utility for Topological Identification and Rasterized Mapping from Polygonal Vector Data)

  • 조동범;임재현
    • 한국조경학회지
    • /
    • 제27권4호
    • /
    • pp.137-142
    • /
    • 1999
  • The purpose of this study is to develope a CAD-based tool for rasterization of polygonal vector map in AutoCAD. To identity the layer property of polygonal entity with user-defined coordinates as topology, algorithm in processing entity data of selection set that intersected with scan line was used, and the layers were extracted sequentially by sorted intersecting points in data-list. In addition to the functions for querying and modifying topology, two options for mapping were set up to construct plan projection type and to change meshes' properties in existing DTM data. In case of plan projection type, user-defined cell size of 3DFACE mesh is available for more detailed edge, and topological draping on landform can be executed in case of referring DTM data as an AutoCAD's drawing. The concept of algorithm was simple and clear, but some unexpectable errors were found in detecting intersected coordinates that were AutoCAD's error, not the utility's. Also, the routines to check these errors were included in algorithmic processing. Developed utility named MESHMAP was written in entity data control functions of AutoLISP language and dialog control language(DCL) for the purpose of user-oriented interactive usage. MESHMAP was proved to be more effective in data handling and time comparing with GRIDMAP module in LANDCADD which has similar function.

  • PDF

X3DOM 을 이용한 라이브 행동자와 실체를 통합하기 위한 웹 기반 시스템 (A Web-based System for Embedding a Live Actor and Entity using X3DOM)

  • 부띠에;류가애;정상권;이국환;류관희
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 추계학술대회
    • /
    • pp.1-3
    • /
    • 2016
  • Mixed and augmented reality (MAR) refers to a spatially coordinated combination of media/information components that represent on the real world and its objects, and on the other those that are virtual, synthetic and computer generated including any combination of aural, visual and touch. The extensible 3D (X3D) is the ISO standard for defining 3D interactive web-based 3D content integrated with multimedia. In this paper, we propose a model to integrate live actor and entity that captured from Microsoft Kinect to be represented in Web-based mixed augmented reality world by using X3DOM by which X3D nodes can be integrated seamlessly into HTML5 DOM content.

  • PDF