• Title/Summary/Keyword: 태그 정보 추출

Search Result 211, Processing Time 0.025 seconds

Information Extraction Based on Property Patterns to Construct a Knowledgebase for Encyclopedia Person Domain (인물 백과사전 지식베이스 구축을 위한 속성패턴기반 정보추출)

  • 왕지현;김현진;장명길
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.793-795
    • /
    • 2004
  • 본 논문은 인물 도메인의 백과사전 지식베이스를 구축하기 위하여 백과사전 본문의 자연어 문장으로부터 인물 표제어의 특징을 잘 나타내는 속성 값을 인식하여 추출하는 방법에 관하여 기술한다. 속성은 인물 공통 및 세부 분야별로 총 52개의 속성을 정의하였고 이를 태그셋으로 정의하여 1천 문서의 백과사전 인물 속성태깅코퍼스를 구축하였다. 속성태깅코퍼스로부터 반자동으로 약 1천 8백여 개의 속성패턴을 추출하였고 백과사전 인물 표제어 24,848개에 대해 속성패턴을 적용하여 지식베이스를 구축하였다. 추출성능은 f-score 0.68의 결과를 나타내었다.

  • PDF

Improving Part-of-speech Tagger by using Sejong Corpus (세종 계획 말뭉치를 이용한 품사 태거의 성능 개선)

  • Kim, Hyung-Joon;Lim, Dong-Hee;Kang, Seung-Shik;Eun, Ji-Hyun;Chang, Du-Seong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.177-180
    • /
    • 2007
  • 품사 태거를 구축할 때 어휘사전 증축이나 변환을 통해 성능 개선을 시도하지만 적당한 품사 태깅 코퍼스의 부재와 태그셋 불일치로 인한 변환 과정에 어려움을 겪고 있다. 본 논문에서는 세종 말뭉치 품사 태깅 코퍼스를 이용하여 품사 태깅용 어휘사전을 증축하고 품사 태거에 적용하여 성능을 개선하는 과정을 기술하였다. 품사 태거의 성능을 개선하기 위하여 세종 코퍼스를 태거의 태그셋에 적합하게 변환하고, 변환된 코퍼스에서 추출된 통계 정보를 품사 태거에서 활용하였다. 세종 코퍼스를 이용하여 품사 태거를 위한 어휘사전을 보강함으로써 품사 태거의 성능을 향상시킬 수 있었다.

  • PDF

Web Information Extraction and Multidimensional Analysis Using XML (XML을 이용한 웹 정보 추출 및 다차원 분석)

  • Park, Byung-Kwon
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.5
    • /
    • pp.567-578
    • /
    • 2008
  • For analyzing a huge amount of web pages available in the Internet, we need to extract the encoded information in web pages. In this paper, we propose a method to extract and convert web information from web pages into XML documents for multidimensional analysis. For extracting information from web pages, we propose two languages: one for describing web information extraction rules based on the object-oriented model, and another for describing regular expressions of HTML tag patterns to search for target information. For multidimensional analysis on XML documents, we propose a method for constructing an XML warehouse and various XML cubes from it like the way we do for relational data. Finally, we show the validness of our method through the application to US patent web pages.

  • PDF

Multi-Modal Scheme for Music Mood Classification (멀티 모달 음악 무드 분류 기법)

  • Choi, Hong-Gu;Jun, Sang-Hoon;Hwang, Een-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.259-262
    • /
    • 2011
  • 최근 들어 소리의 세기나 하모니, 템포, 리듬 등의 다양한 음악 신호 특성을 기반으로 한 음악 무드 분류에 대한 연구가 활발하게 진행되고 있다. 본 논문에서는 음악 무드 분류의 정확도를 높이기 위하여 음악 신호 특성과 더불어 노래 가사와 소셜 네트워크 상에서의 사용자 평가 등을 함께 고려하는 멀티 모달 음악 무드 분류 기법을 제안한다. 이를 위해, 우선 음악 신호 특성에 대해 퍼지 추론 기반의 음악 무드 추출 기법을 적용하여 다수의 가능한 음악 무드를 추출한다. 다음으로 음악 가사에 대해 TF-IDF 기법을 적용하여 대표 감정 키워드를 추출하고 학습시킨 가사 무드 분류기를 사용하여 가사 음악 무드를 추출한다. 마지막으로 소셜 네트워크 상에서의 사용자 태그 등 사용자 피드백을 통한 음악 무드를 추출한다. 특정 음악에 대해 이러한 다양한 경로를 통한 음악 무드를 교차 분석하여 최종적으로 음악 무드를 결정한다. 음악 분류를 기반한 자동 음악 추천을 수행하는 사용자 만족도 평가 실험을 통해서 제안하는 기법의 효율성을 검증한다.

Design and Implementation of XML Web Agent for Data Exchange and Replication between Heterogeneous DBMSs (이기종 DBMS간 데이터 교환과 복제를 위한 XML 웹 에이전트 설계 및 구현)

  • Yu, Sun-Young;Lee, Chun-Keun;Yim, Jae-Hong
    • Journal of Korea Multimedia Society
    • /
    • v.7 no.7
    • /
    • pp.967-975
    • /
    • 2004
  • HTML is unstructured document because of using restricted tag. HTML is difficult to extract data from HTML document. But XML is able to use user definition tag, that is easy to store information. Also XML is easy to extract data from XML document. This is the reason why XML is a standard for data exchange format on the Internet, so XML is fitted to exchange data between heterogeneous DBMSs(DataBase Management System). In this paper, we designed and implemented of XML web agent for data replication between heterogeneous DBMSs. A XML web agent system controls data of DBMS, and generates a XML document from data of DBMS. Also XML web agent is data exchange or replication between heterogeneous DBMS by the medium of XML.

  • PDF

Development and Evaluation of Information Extraction Module for Postal Address Information (우편주소정보 추출모듈 개발 및 평가)

  • Shin, Hyunkyung;Kim, Hyunseok
    • Journal of Creative Information Culture
    • /
    • v.5 no.2
    • /
    • pp.145-156
    • /
    • 2019
  • In this study, we have developed and evaluated an information extracting module based on the named entity recognition technique. For the given purpose in this paper, the module was designed to apply to the problem dealing with extraction of postal address information from arbitrary documents without any prior knowledge on the document layout. From the perspective of information technique practice, our approach can be said as a probabilistic n-gram (bi- or tri-gram) method which is a generalized technique compared with a uni-gram based keyword matching. It is the main difference between our approach and the conventional methods adopted in natural language processing that applying sentence detection, tokenization, and POS tagging recursively rather than applying the models sequentially. The test results with approximately two thousands documents are presented at this paper.

Improving Part-of-speech Tagging by using Resolution Information for Individual Ambiguous Word (어절별 중의성 해소 정보를 이용한 품사 태깅의 성능 향상)

  • Park, Hee-Geun;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.134-139
    • /
    • 2007
  • 품사 태깅 시스템에서 규칙 정보와 통계 정보는 상호보완적으로 사용되어 품사 태깅의 성능을 향상시킨다. 하지만, 두 가지 정보로는 품사 태깅의 성능을 향상시키기에는 한계가 있다. 이에 본 논문에서는 어절별 중의성 해소 정보를 이용하여 품사 태깅 시스템의 정확률을 향상시키는 방법에 대해서 기술한다. 통계 정보는 21세기 세종계획의 천만 어절 균형 말뭉치와 태그 부착 말뭉치에서 추출한 trigram 형태의 중의성 어절 및 품사 태그열 출현 빈도 정보를 이용하여 구축하였고, 규칙 정보는 보조용언, 숙어, 관용적 표현 등을 이용하여 구축하였다. 어절별 중의성 해소 정보는 세종 천만 어절 균형 말뭉치의 중의성 어절에서 고빈도 상위 50%에 해당하는 어절을 대상으로 해당 어절의 의미정보와 문맥정보를 고려하여 구축되었고, 이것은 통계 정보를 이용한 품사 태깅 전에 적용되어 분석 후보를 줄여준다. 또한, 학습을 통하여 어절별 중의성 해소 정보를 수정 및 보강하여 잘못된 품사 태깅 결과를 보정해준다. 이와 같이 통계 정보와 규칙 정보를 이용한 품사 태깅 시스템에 고빈도 중의성 어절에 대한 어절별 중의성 해소 정보를 이용함으로써 품사 태깅의 성능을 향상시킬 수 있었다.

  • PDF

A Study on the Identification Method of Security Threat Information Using AI Based Named Entity Recognition Technology (인공지능 기반 개체명 인식 기술을 활용한 보안 위협 정보 식별 방안 연구)

  • Taehyeon Kim;Joon-Hyung Lim;Taeeun Kim;Ieck-chae Euom
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.34 no.4
    • /
    • pp.577-586
    • /
    • 2024
  • As new technologies are developed, new security threats such as the emergence of AI technologies that create ransomware are also increasing. New security equipment such as XDR has been developed to cope with these security threats, but when using various security equipment together rather than a single security equipment environment, there is a difficulty in creating numerous regular expressions for identifying and classifying essential data. To solve this problem, this paper proposes a method of identifying essential information for identifying threat information by introducing artificial intelligence-based entity name recognition technology in various security equipment usage environments. After analyzing the security equipment log data to select essential information, the storage format of information and the tag list for utilizing artificial intelligence were defined, and the method of identifying and extracting essential data is proposed through entity name recognition technology using artificial intelligence. As a result of various security equipment log data and 23 tag-based entity name recognition tests, the weight average of f1-score for each tag is 0.44 for Bi-LSTM-CRF and 0.99 for BERT-CRF. In the future, we plan to study the process of integrating the regular expression-based threat information identification and extraction method and artificial intelligence-based threat information and apply the process based on new data.

Hybrid Part-of-Speech Tagging using Context Information among Words (어절간 문맥 정보를 이용한 혼합형 품사 태깅)

  • Lim, Hee-Dong;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.376-380
    • /
    • 2000
  • 본 논문에서는 규칙 정보와 통계 정보의 상호 보완적 특성을 이용한 혼합형 방법을 기반으로 규칙 정보와 통계 정보의 추출 및 적용 시에 어절간 문맥 정보를 보다 효율적으로 이용하는 혼합형 품사 태깅 시스템을 제안한다. 먼저 규칙이 적용되는 중의성들에 대해서 높은 정확률로 태깅을 수행한 후, 규칙으로 해결할 수 없는 중의성들에 대해서는 통계 정보를 이용하여 태깅을 수행한다. 규칙 정보는 중의성을 갖는 어절과 주변 어절들의 형태소 및 태그를 이용하여 정의하고 통계 정보는 문맥에 영향을 많이 미치고 많은 중의성의 원인이 되는 조사와 어미의 형태를 그대로 활용하여 추출함으로써 어절간 문맥을 보다 효율적으로 이용한다.

  • PDF

Design and Implementation of SFilter for Efficient Filtering of In Documents (효율적인 XML문서의 필터링을 위한 SFilter 설계 및 구현)

  • 장복선;손기락
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10c
    • /
    • pp.277-279
    • /
    • 2002
  • 효율적인 문서 교환을 위해 의미 있는 태그를 사용하는 XML문서가 인터넷상에서 널리 사용되고 있다. XML문서에 대한 정보를 추출하기 위해 많은 질의어가 사용되고있지만 특히 정규 경로 표현에 있어 임의 이동이 쉽고 질의 표현이 쉬운 XPath[2]가 사람들에게 각광을 받고 있다. 이 연구에서는 XPath[2]를 이용하여 사용자 질의를 등록하고, 등록된 질의를 이용하여 효율적으로 XML문서를 필터링하기 위한 방법을 제안한다. 본 논문에서는 NiagaraCQ[1]와 같이 XML문서 정보를 이용하여 사용자에게 계속적으로 XML문서를 제공하는 Continuous Query 시스템에 사용된 SFilter를 설계하고 구현하였다.

  • PDF