• Title/Summary/Keyword: 태그 정보 추출

Search Result 211, Processing Time 0.022 seconds

Automatic Generation of Named Entity Tagged Corpus using Web Search Engine (웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제)

  • An, Joo-Hui;Lee, Seung-Woo;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.85-91
    • /
    • 2002
  • 최근 정보 추출, 질의응답 시스템 등의 고정밀 자연어처리 어플리케이션이 부각됨에 따라 개체명 인식의 중요성이 더욱 커지고 있다. 이러한 개체명 인식을 위한 학습에는 대용량의 어휘자료를 필요로 하기 때문에 충분한 학습 데이터, 즉 개체명 태그가 부착된 충분한 코퍼스가 제공되지 못하는 경우 자료희귀문제(data sparseness problem)로 인하여 목적한 효과를 내지 못하는 경우가 않다. 그러나 태그가 부착된 코퍼스를 생성하는 일은 시간과 인력이 많이 드는 힘든 작업이다. 최근 인터넷의 발전으로 웹 데이터는 그 양이 매우 많으며, 습득 또한 웹 검색 엔진을 사용해서 자동으로 모음으로써 다량의 말뭉치를 모으는 것이 매우 용이하다. 따라서 최근에는 웹을 무한한 언어자원으로 보고 웹에서 필요한 언어자원을 자동으로 뽑는 연구가 활발히 진행되고 있다. 본 연구는 이러한 연구의 첫 시도로 웹으로부터 다량의 원시(raw) 코퍼스를 얻어 개체명 태깅 학습을 위한 태그 부착 코퍼스를 자동으로 생성하고 이렇게 생성된 말뭉치를 개체면 태깅 학습에 적용하는 비교 실험을 통해 수집된 말뭉치의 유효성을 검증하고자 한다. 향후에는 자동으로 웹으로부터 개체 명 태깅 규칙과 패턴을 뽑아내어 실제 개체명 태거를 빨리 개발하여 유용하게 사용할 수 있다.

  • PDF

A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX (한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX)

  • Kim, Nam-Churl;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

Folksonomy Data Mining using Formal Concept Analysis (형식개념분석기법을 이용한 폭소노미 데이터 마이닝)

  • Kang, Yu-Kyung;Hwang, Suk-Hyung;Yang, Hae-Sool
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.562-565
    • /
    • 2009
  • 웹 2.0시대의 대표적인 특징인 폭소노미(folksonomy)는 웹에 존재하는 리소스에 대해 구성원이 자유롭게 선택한 태그(tag)를 붙여서 정보를 체계화하는 새로운 분류 체계이다. 폭소노미를 기반으로하는 웹 애플리케이션 시스템에는 WWW를 이용하는 전 세계의 수많은 사용자들의 다양한 데이터가 축적되어 있으며, 이러한 웹 데이터는 계속적으로 증가 확장 변화하고 있다. 본 논문에서는, 방대한 양의 폭소노미 데이터로부터 유용한 정보를 추출하기 위해 형식개념분석기법을 기반으로, 사용자, 태그, 리소스들 사이의 3항관계를 고려한 폭소노미 데이터 마이닝 기법을 제안하고, 본 연구에서 제안한 기법을 BibSonomy의 데이터에 적용하여 분석한 실험 결과를 보고한다.

Case Study of RFID Sensitivity under Applicable Circumstances (적용 환경에 따른 RFID 인식률 연구)

  • Lee, Ju-Dong;Suh, Hyo-Joong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.1450-1452
    • /
    • 2007
  • RFID(Radio Frequency IDentification) 기술은 RF 신호를 사용하여 물품에 부착된 전자태그(electronic Tag)를 식별하는 비접촉식 기술로서 사물의 정보 및 주변 환경정보를 자동으로 추출하는 특성을 가지고 있다. RFID는 전자태그의 저가격과, 식별코드의 표준화에 힘입어 식료품으로부터 환경관리, 물류 유통 등의 모든 영역 적용에 가능하다. 그러나 현재 RFID 기술을 응용한 사례는 주로 대규모 산업 분야에서만 적용되어 있고, 작은 업체, 가정 등 소규모 그룹에서의 적용 사례는 드문 실정이다. 특히 스마트 홈을 지향하고 있는 가정에서는 각종 식료품, 옷, 책 등 다양한 가정용품들의 관리에 있어서 RFID를 활용은 필수불가결하다. 따라서 본 논문에서 가정 내에서 의류, 식료품, 서적 등 가정 내에 있는 모든 물품에 대해서 RFID 기술을 활용할 수 있도록, 가정 내 특징을 분석하고, 적용 환경에 따른 RFID 인식률 실험을 통하여, 가정 내의 최적의 RFID 시스템 구축 방향성을 제시한다.

The Implementation of the Multiple Security System Based on RFID and Biometrics (RFID와 생체인식기반 다중보안 시스템 구현)

  • Lee, Jae-Yong;Joung, Lyang-Jae;Kim, Jang-Hui;Kang, Dae-Seong
    • Proceedings of the Korea Institute of Convergence Signal Processing
    • /
    • 2006.06a
    • /
    • pp.1-4
    • /
    • 2006
  • 본 논문에서는 보다 높은 보안 체계를 요구하는 환경에서 개인의 얼괄 인증과 RFID의 인증을 통한 다중 보안 시스템을 제안하고자 한다. 이 시스템은 추출된 얼굴 영상의 특징 벡터들을 각각 사용자의 태그에 저장하고 개인 인증 시 얼굴 영상의 입력과 비교 및 판독에 사용하도록 한다. 태그의 생체정보와 입력 얼굴영상에서 추출한 특징벡터가 일치하여야만 Database에 접근이 가능하며, 만약 하나라도 만족하지 못하면 인증은 실패한다. 이것은 사람의 얼굴뿐만 아니라 지문, 홍채 등의 생체인증 기술과 RFID와의 결합으로 보다 안전하고 효과적인 개인 인증 기술로 사용될 수 있을 것이다.

  • PDF

Similarity checking between XML tags through expanding synonym vector (유사어 벡터 확장을 통한 XML태그의 유사성 검사)

  • Lee, Jung-Won;Lee, Hye-Soo;Lee, Ki-Ho
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.9
    • /
    • pp.676-683
    • /
    • 2002
  • The success of XML(eXtensible Markup Language) is primarily based on its flexibility : everybody can define the structure of XML documents that represent information in the form he or she desires. XML is so flexible that XML documents cannot be automatically provided with an underlying semantics. Different tag sets, different names for elements or attributes, or different document structures in general mislead the task of classifying and clustering XML documents precisely. In this paper, we design and implement a system that allows checking the semantic-based similarity between XML tags. First, this system extracts the underlying semantics of tags and then expands the synonym set of tags using an WordNet thesaurus and user-defined word library which supports the abbreviation forms and compound words for XML tags. Seconds, considering the relative importance of XML tags in the XML documents, we extend a conventional vector space model which is the most generally used for document model in Information Retrieval field. Using this method, we have been able to check the similarity between XML tags which are represented different tags.

Text Extraction and Summarization from Web News (웹 뉴스의 기사 추출과 요약)

  • Han, Kwang-Rok;Sun, Bok-Keun;Yoo, Hyoung-Sun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.12 no.5
    • /
    • pp.1-10
    • /
    • 2007
  • Many types of information provided through the web including news contents contain unnecessary clutters. These clutters make it difficult to build automated information processing systems such as the summarization, extraction and retrieval of documents. We propose a system that extracts and summarizes news contents from the web. The extraction system receives news contents in HTML as input and builds an element tree similar to DOM tree, and extracts texts while removing clutters with the hyperlink attribute in the HTML tag from the element tree. Texts extracted through the extraction system are transferred to the summarization system, which extracts key sentences from the texts. We implement the summarization system using co-occurrence relation graph. The summarized sentences of this paper are expected to be transmissible to PDA or cellular phone by message services such as SMS.

  • PDF

Error Compensation Algorithm of CSS-Based Real-Time Location Awareness Systems (CSS기반의 실시간 근거리 위치인식을 위한 위치 보정 기법)

  • Han, Sung-Hoon;Choi, Tae-Wan;Ryu, Dae-Hyun;Shin, Seung-Jung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.11 no.2
    • /
    • pp.119-126
    • /
    • 2011
  • In this paper, we expect that the IEEE 802.15.4a, which is based on CSS, will be used a lot without getting help from other systems or sensors and will make it possible to measure the distance between radio chips in sensor network field, where the location information of the standard have to be based upon. But, the error rate will be high, so we will correct the location of the tag, which will be received by anchor. The technology of location correction we offer is reducing the error rate through calculating the distance from Compensation Tag, and after that, unite the Toa method with the Fingerprint method and adapt them to location correction technology, calculate the location's estimate, and finally abstract the best suited location estimate for Compensation Tag. At last, we offer developing systems as indoor systems of CSS, which pursue the location between nodes, and a thesis about indoor systems and making their accuracy higher.

Auto-tagging Method for Unlabeled Item Images with Hypernetworks for Article-related Item Recommender Systems (잡지기사 관련 상품 연계 추천 서비스를 위한 하이퍼네트워크 기반의 상품이미지 자동 태깅 기법)

  • Ha, Jung-Woo;Kim, Byoung-Hee;Lee, Ba-Do;Zhang, Byoung-Tak
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.10
    • /
    • pp.1010-1014
    • /
    • 2010
  • Article-related product recommender system is an emerging e-commerce service which recommends items based on association in contexts between items and articles. Current services recommend based on the similarity between tags of articles and items, which is deficient not only due to the high cost in manual tagging but also low accuracies in recommendation. As a component of novel article-related item recommender system, we propose a new method for tagging item images based on pre-defined categories. We suggest a hypernetwork-based algorithm for learning association between images, which is represented by visual words, and categories of products. Learned hypernetwork are used to assign multiple tags to unlabeled item images. We show the ability of our method with a product set of real-world online shopping-mall including 1,251 product images with 10 categories. Experimental results not only show that the proposed method has competitive tagging performance compared with other classifiers but also present that the proposed multi-tagging method based on hypernetworks improves the accuracy of tagging.

Context Sharing Framework Based on Time Dependent Metadata for Social News Service (소셜 뉴스를 위한 시간 종속적인 메타데이터 기반의 컨텍스트 공유 프레임워크)

  • Ga, Myung-Hyun;Oh, Kyeong-Jin;Hong, Myung-Duk;Jo, Geun-Sik
    • Journal of Intelligence and Information Systems
    • /
    • v.19 no.4
    • /
    • pp.39-53
    • /
    • 2013
  • The emergence of the internet technology and SNS has increased the information flow and has changed the way people to communicate from one-way to two-way communication. Users not only consume and share the information, they also can create and share it among their friends across the social network service. It also changes the Social Media behavior to become one of the most important communication tools which also includes Social TV. Social TV is a form which people can watch a TV program and at the same share any information or its content with friends through Social media. Social News is getting popular and also known as a Participatory Social Media. It creates influences on user interest through Internet to represent society issues and creates news credibility based on user's reputation. However, the conventional platforms in news services only focus on the news recommendation domain. Recent development in SNS has changed this landscape to allow user to share and disseminate the news. Conventional platform does not provide any special way for news to be share. Currently, Social News Service only allows user to access the entire news. Nonetheless, they cannot access partial of the contents which related to users interest. For example user only have interested to a partial of the news and share the content, it is still hard for them to do so. In worst cases users might understand the news in different context. To solve this, Social News Service must provide a method to provide additional information. For example, Yovisto known as an academic video searching service provided time dependent metadata from the video. User can search and watch partial of video content according to time dependent metadata. They also can share content with a friend in social media. Yovisto applies a method to divide or synchronize a video based whenever the slides presentation is changed to another page. However, we are not able to employs this method on news video since the news video is not incorporating with any power point slides presentation. Segmentation method is required to separate the news video and to creating time dependent metadata. In this work, In this paper, a time dependent metadata-based framework is proposed to segment news contents and to provide time dependent metadata so that user can use context information to communicate with their friends. The transcript of the news is divided by using the proposed story segmentation method. We provide a tag to represent the entire content of the news. And provide the sub tag to indicate the segmented news which includes the starting time of the news. The time dependent metadata helps user to track the news information. It also allows them to leave a comment on each segment of the news. User also may share the news based on time metadata as segmented news or as a whole. Therefore, it helps the user to understand the shared news. To demonstrate the performance, we evaluate the story segmentation accuracy and also the tag generation. For this purpose, we measured accuracy of the story segmentation through semantic similarity and compared to the benchmark algorithm. Experimental results show that the proposed method outperforms benchmark algorithms in terms of the accuracy of story segmentation. It is important to note that sub tag accuracy is the most important as a part of the proposed framework to share the specific news context with others. To extract a more accurate sub tags, we have created stop word list that is not related to the content of the news such as name of the anchor or reporter. And we applied to framework. We have analyzed the accuracy of tags and sub tags which represent the context of news. From the analysis, it seems that proposed framework is helpful to users for sharing their opinions with context information in Social media and Social news.