• 제목/요약/키워드: Entity

검색결과 2,094건 처리시간 0.027초

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

세포 신호전달 경로 데이타베이스를 위한 데이타 모델링 (Data Modeling for Cell-Signaling Pathway Database)

  • 박지숙;백은옥;이공주;이상혁;이승록;양갑석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권6호
    • /
    • pp.573-584
    • /
    • 2003
  • 최근 유전체학과 단백질체학 분야에서 생성되는 방대한 분량의 데이타로부터 생물학적 의미를 추출해내기 위한 생물정보학적인 도구들에 대한 필요성이 크게 대두되고 있다. 본 논문에서는 세포 신호전달 경로에 관한 정보를 효율적으로 표현, 저장함은 물론 저장된 데이타로부터 생물학적 의미를 추출할 수 있도록 하기 위한 다양한 요구 조건들을 생물학자의 관점에서 분석하고, 이들 요구조건을 체계적으로 반영하여 설계한 ROSPath 데이타베이스 시스템을 제안한다. ROSPath 데이타 모델에서는 향후의 확장성을 고려하여 불완전한 지식의 표현이 가능하도록 하며 인터넷상에서 기존의 다른 생화학 데이타베이스를 공유할 수 있는 연결성을 제공한다. 또한, 객체지향 모델을 이용하여 계층적인 구성을 제공함으로써 효율적인 검색을 지원한다. ROSPath 데이타 모델은 두 가지 주요 데이타 요소인 ‘바이오 개체’와 ‘상호작용’으로 정의된다. 바이오 개체는 세포 신호전달 경로에 관여하는 단백질과 단백질 상태 등과 같은 개개의 생화학적인 개체를 의미하고, 상호작용은 단백질 상태 전이나 화학 반응, 단백질-단백질 상호작용 등과 같은 바이오 개체들 간의 다양한 관계 및 신호전달과정을 설명한다. 제안된 ROSPath 데이타 모델을 이용하여 구성되는 복잡한 정보 네트워크는 다양한 생화학 프로세스들을 기술하고 분석하는 데에 활용할 수 있다.

온톨로지와 개체관계 모델의 상호운용성에 대한 연구 (An Investigation on the Interoperability between Ontology and the Entity-Relationship Model)

  • 이동훈;김남규;정인환
    • Journal of Information Technology Applications and Management
    • /
    • 제18권4호
    • /
    • pp.95-118
    • /
    • 2011
  • In developing information systems, conceptual modeling is among the most fundamental means. The importance attributed to conceptual modeling has not only given rise to a lot of modeling methods, but also to the "yet another modeling approach (YAMA)" syndrome and the "not another modeling approach (NAMA)" hysteria. Criticism of conceptual modeling methods usually targets their lacking of theoretical foundations. In response to such criticism, various approaches towards theoretical foundations of conceptual modeling have been proposed so far. One of the recent responses to the quest for theoretical foundations of conceptual modeling is the reference to the philosophical ontology. The currently most prominent of diverse approaches towards ontological foundations of conceptual modeling appears to be the Bunge-Wand-Weber (BWW) ontology. Recent approaches attempt to regard BWW ontology as another conceptual data model as well as a criterion for evaluating various conceptual models. However, unfortunately, relatively few researches have been made on interoperability between the Entity-Relationship (ER) model, which is the most dominant conceptual data model, and ontology based model. In this paper, we investigate the interoperability between ontology and the ER model. In detail we (i) reclassify components of ER model with respect to ontology concepts, (ii) identify some components that cannot be directly represented in ontology notation, and (iii) present alternative representations to the components to acquire ontologically clear ER diagrams. Additionally, we (iv) present a set of mapping rules for converting the ontologically clear ER diagram into the corresponding ontology. In a case study, we show the process of converting an ER diagram for a concise Project Management System (PMS) into the ontologically clear ER diagram and the corresponding ontology. We also describe an experiment that we undertook to test whether users understand the Ontologically-Clear ER diagram better.

딥러닝 기반 교량 점검보고서의 손상 인자 인식 (Bridge Damage Factor Recognition from Inspection Reports Using Deep Learning)

  • 정세환;문성현;지석호
    • 대한토목학회논문집
    • /
    • 제38권4호
    • /
    • pp.621-625
    • /
    • 2018
  • 본 연구는 딥러닝을 활용하여 교량 점검보고서에서 손상 및 손상 인자를 자동으로 식별하는 방법을 제안한다. 교량 점검보고서에는 점검 결과 발견된 손상 및 원인 분석 결과가 기록되어 있다. 그러나 점검보고서의 양이 방대하여 인력으로 보고서로부터 정보를 수집하는 데 한계가 있다. 따라서 본 연구에서는 딥러닝 기반 개체명 인식 방법을 활용하여 교량 점검보고서 텍스트로부터 손상 및 손상 인자에 해당하는 단어들을 식별할 수 있는 모델을 제안한다. 모델 구현의 주요 방법론으로는 개체명 인식(Named Entity Recognition), 워드 임베딩(Word Embedding), 딥러닝의 일종인 순환신경망(Recurrent Neural Network)을 활용하였다. 실험 결과 제안된 모델은 1)훈련 데이터에 포함된 손상 및 손상 인자 단어들을 잘 식별할 수 있고, 2)단어 주변 맥락에 따라 특정 단어가 손상에 해당하는지 손상 인자에 해당하는지 잘 판별할 수 있을 뿐만 아니라, 3)훈련 데이터에 포함되지 않은 새로운 종류의 손상 단어도 잘 인식할 수 있는 것으로 확인되었다.

구조화된 웹 문서에 대한 자동 정보추출 (Automatic Information Extraction for Structured Web Documents)

  • 윤보현
    • 인터넷정보학회논문지
    • /
    • 제6권3호
    • /
    • pp.129-145
    • /
    • 2005
  • 본 논문에서는 구조화된 웹문서에서 자동으로 정보를 추출하고 추출된 정보를 통합하는 정보추출 시스템을 제안한다. 제안한 시스템은 레이블(label)이 없는 엔티티를 인식하기 위해 확률 기반 엔티티 인식 방법을 이용하며, 추출된 데이터를 이용하여 기존의 도메인 지식을 반자동으로 확장하는 기능을 제공한다. 게다가 기본 페이지에 링크된 하위 링크의 정보를 추출하는 기능을 제공하며, 도메인에 대한 이종의 정보 소스로부터 얻어진 유사 추출 결과를 통합하는 기능을 제공한다. 실험 결과, 도메인 지식만을 이용하여 웹 정보추출 시스템을 평가하였을 경우의 성능에 비해 하위링크의 정보를 추출하거나 확률 기반으로 레이블을 추론하여 추출 시스템을 평가한 경우의 성능이 상당히 향상됨을 보인다. 아울러 본 논문에서 제안하는 웹 정보추출 시스템은 도메인별로 시스템을 융통성 있게 적용시킬 수 있기 때문에 보다 다양한 정보들을 추출할 수 있다. 자동 도메인 지식의 확장이나 확률적 엔티티 인식 방법은 도메인 지식을 이용하는 프로그램이 추출할 수 있는 정보의 질을 증대시키기 때문에, 사용자의 만족도를 극대화시킬 수 있다는 장점이 있다. 따라서 본 시스템은 인터넷상의 영화 사이트나 공연 사이트 혹은 음식점 사이트에 대해서 정보를 추출해서 사용자의 지적 호기심을 충족시켜줄 수 있을 뿐만 아니라, 다양한 비교 시스템을 구축할 수 있기 때문에 전자 상거래의 활성화에도 기여한다.

  • PDF

기록물 생산기관명 접근점 제어 온톨로지 기술에 관한 연구 (A Study on the Description of Archives Name by Controlled Access Point in Ontology)

  • 강현민
    • 정보관리학회지
    • /
    • 제35권3호
    • /
    • pp.147-164
    • /
    • 2018
  • 기록물 생산기관에 부여된 행정표준기관코드(Standard Administration Code) 식별기호체계를 이용하여 동일 정체성과 동일 신원을 지닌 기록물 최종 생산기관명을 유일한 우선어 형식(preferred form)으로 정의하였다. 또한 동일 정체성과 동일 신원을 지닌 생산기관명에 대해 다양한 형식의 언어와 문자로 알려진 이형형식의 접근점 중에 대표 이름형식 접근점을 선정하고 온톨로지로 기술하였다. 이로써 과거부터 현재에 이르기까지 동일 정체성과 동일 신원의 생산기관이 생산한 모든 기록물에 대해 식별 접근할 수 있도록 하였다. 또한 '출처주의 원칙'과 '원질서 존중의 원칙'이라는 기본적인 기록물 관리 원칙을 온톨로지 환경에서도 준수함으로써, 기록물에 대한 관리방식 개선과 이용자들에게 기록물 접근의 편의성 및 확장된 검색결과를 제공할 수 있도록 하였다.

Word Embedding 자질을 이용한 한국어 개체명 인식 및 분류 (Korean Named Entity Recognition and Classification using Word Embedding Features)

  • 최윤수;차정원
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.678-685
    • /
    • 2016
  • 한국어 개체명 인식에 다양한 연구가 있었지만, 영어 개체명 인식에 비해 자질이 부족한 문제를 가지고 있다. 본 논문에서는 한국어 개체명 인식의 자질 부족 문제를 해결하기 위해 word embedding 자질을 개체명 인식에 사용하는 방법을 제안한다. CBOW(Continuous Bag-of-Words) 모델을 이용하여 word vector를 생성하고, word vector로부터 K-means 알고리즘을 이용하여 군집 정보를 생성한다. word vector와 군집 정보를 word embedding 자질로써 CRFs(Conditional Random Fields)에 사용한다. 실험 결과 TV 도메인과 Sports 도메인, IT 도메인에서 기본 시스템보다 각각 1.17%, 0.61%, 1.19% 성능이 향상되었다. 또한 제안 방법이 다른 개체명 인식 및 분류 시스템보다 성능이 향상되는 것을 보여 그 효용성을 입증했다.