• 제목/요약/키워드: Semantic Technique

검색결과 295건 처리시간 0.026초

Grammatical Structure Oriented Automated Approach for Surface Knowledge Extraction from Open Domain Unstructured Text

  • Tissera, Muditha;Weerasinghe, Ruvan
    • Journal of information and communication convergence engineering
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2022
  • News in the form of web data generates increasingly large amounts of information as unstructured text. The capability of understanding the meaning of news is limited to humans; thus, it causes information overload. This hinders the effective use of embedded knowledge in such texts. Therefore, Automatic Knowledge Extraction (AKE) has now become an integral part of Semantic web and Natural Language Processing (NLP). Although recent literature shows that AKE has progressed, the results are still behind the expectations. This study proposes a method to auto-extract surface knowledge from English news into a machine-interpretable semantic format (triple). The proposed technique was designed using the grammatical structure of the sentence, and 11 original rules were discovered. The initial experiment extracted triples from the Sri Lankan news corpus, of which 83.5% were meaningful. The experiment was extended to the British Broadcasting Corporation (BBC) news dataset to prove its generic nature. This demonstrated a higher meaningful triple extraction rate of 92.6%. These results were validated using the inter-rater agreement method, which guaranteed the high reliability.

콘텐츠 정보의 연관성을 고려한 Ajax기반의 깊이 검색 시스템 구현 (The implementation of the depth search system for relations of contents information based on Ajax)

  • 김운용;박석규
    • 한국항행학회논문지
    • /
    • 제12권5호
    • /
    • pp.516-523
    • /
    • 2008
  • 최근 웹은 집단지성을 근간으로 참여형 구조를 형성하고 이를 바탕으로 빠르게 성장하고 있다. 이 환경에서 사용자에 의해 생성된 콘텐츠는 정보의 주류를 형성하고 있으며 이들의 효율적인 검색기법이 요구된다. 현재 콘텐츠의 검색은 주로 키워드용 기반으로 운영 되고 있으며, 언어의 유사성과 관계를 고려한 시맨틱 웹(Semantic web)에 대한 연구나 웹2.0환경의 사용자 태그 활용에 대한 연구가 활발히 진행되고 있다. 일반적으로 참여형 구조의 웹 환경은 사용자에 의해 생성된 대량의 콘텐츠와 다양한 형태 및 분류 구조를 가진다. 그 결과 이들의 효율적인 분류와 검색 기법이 요구된다. 이에 본 논문에서는 콘텐츠 검색을 위한 태그들 간의 연관성을 고려한 깊이 검색 시스템을 제시한다. 이를 통해 불필요한 콘텐츠 검색을 줄이고 집단에 포함된 제시어 서비스를 통해 콘텐츠 검색의 효율성을 증가시킬 수 있을 것이다.

  • PDF

TMDR 기반의 실시간 통합 검색을 위한 분산질의 변환 기법에 대한 연구 (A Study on Distribution Query Conversion Method for Real-time Integrating Retrieval based on TMDR)

  • 황치곤;신효영;정계동;최영근
    • 한국정보통신학회논문지
    • /
    • 제14권7호
    • /
    • pp.1701-1707
    • /
    • 2010
  • 본 연구는 분산된 이종 정보시스템 사이의 의미적 상호운용성을 제공함으로써 다양한 형태의 데이터를 실시간으로 통합하여 검색할 수 있는 시스템 환경을 구현하는데 있다. 의미적 상호운용성은 온톨로지의 집합체인 TMDR(Topicmaps Metadata Registry)을 제공함으로써 가능하다. TMDR은 MDR(MetaData Registry)과 토픽맵을 결합하여 데이터베이스에 저장한 것으로, 분산 쿼리 작성과 효율적으로 지식을 제공할 수 있다. MDR은 분산된 데이터 관리를 위한 메타데이터 관리 기법이며, 토픽맵은 지식 데이터의 접근을 위한 계층성과 연관성을 고려한 온톨로지 표현 기법이다. 우리는 온톨로지의 한 형태인 TMDR을 제안하고, 이는 데이터와 스키마 레벨에서 의미적 충돌을 탐지하고 해결할 수 있다. 본 시스템은 이종의 정보 소스들을 통합 접근하기 위한 쿼리 프로세싱 기법을 제안한다. 이는 기존의 검색과 달리 주제를 중심으로 한 연관관계를 제공함으로써 효율적임 검색과 추론이 가능하다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

여성사용자의 평가어휘지표에 의한 공간 환경 분석에 관한 연구 - 미술관 공간 환경의 비교연구를 중심으로 - (An Empirical Analysis of Museums' Spatial Environments using a Sensibility Rating Scale of Women's)

  • 한명흠
    • 한국실내디자인학회논문집
    • /
    • 제20권6호
    • /
    • pp.192-199
    • /
    • 2011
  • The purposes of this study are to present the criteria for a sensibility rating scale for measuring the general women's perception of museums' spatial environment, through an empirical analysis; and to clarify the characteristics of the presented rating scale in terms of each rating element and factor. For this study, a survey was conducted during August 19 - September 16, 2010, and a total of 342 museum visitors participated in the survey. A sensibility rating scale used for the survey consisted of a total of 32 adjectives selected from a literature review of previous studies. To specify the dimensions of semantic space using the semantic adjectives, words with opposite meanings were analyzed with the semantic differential technique developed by Osgood et al. Using SPSS, a reliability analysis, factor analysis were conducted on the data obtained from the survey. The results of this study can be summarized as follows: According to the women's perception of museums' spatial environment, six factors were found from the 25 semantic ratings of the Museum. The summarized criteria were: 'aesthetic', 'pleasant', 'valuable', 'function', 'affinity', and 'material.' The derived criteria were verified through an empirical test using emotional adjectives. In the coming years, the results of this study will serve as valuable data for constructing a sensibility rating scale for evaluating spatial environments of museums.

A Muti-Resolution Approach to Restaurant Named Entity Recognition in Korean Web

  • Kang, Bo-Yeong;Kim, Dae-Won
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제12권4호
    • /
    • pp.277-284
    • /
    • 2012
  • Named entity recognition (NER) technique can play a crucial role in extracting information from the web. While NER systems with relatively high performances have been developed based on careful manipulation of terms with a statistical model, term mismatches often degrade the performance of such systems because the strings of all the candidate entities are not known a priori. Despite the importance of lexical-level term mismatches for NER systems, however, most NER approaches developed to date utilize only the term string itself and simple term-level features, and do not exploit the semantic features of terms which can handle the variations of terms effectively. As a solution to this problem, here we propose to match the semantic concepts of term units in restaurant named entities (NEs), where these units are automatically generated from multiple resolutions of a semantic tree. As a test experiment, we applied our restaurant NER scheme to 49,153 nouns in Korean restaurant web pages. Our scheme achieved an average accuracy of 87.89% when applied to test data, which was considerably better than the 78.70% accuracy obtained using the baseline system.

무인 자동차의 주변 환경 인식을 위한 도시 환경에서의 그래프 기반 물체 분할 방법 (Graph-based Segmentation for Scene Understanding of an Autonomous Vehicle in Urban Environments)

  • 서보길;최윤근;노현철;정명진
    • 로봇학회논문지
    • /
    • 제9권1호
    • /
    • pp.1-10
    • /
    • 2014
  • In recent years, the research of 3D mapping technique in urban environments obtained by mobile robots equipped with multiple sensors for recognizing the robot's surroundings is being studied actively. However, the map generated by simple integration of multiple sensors data only gives spatial information to robots. To get a semantic knowledge to help an autonomous mobile robot from the map, the robot has to convert low-level map representations to higher-level ones containing semantic knowledge of a scene. Given a 3D point cloud of an urban scene, this research proposes a method to recognize the objects effectively using 3D graph model for autonomous mobile robots. The proposed method is decomposed into three steps: sequential range data acquisition, normal vector estimation and incremental graph-based segmentation. This method guarantees the both real-time performance and accuracy of recognizing the objects in real urban environments. Also, it can provide plentiful data for classifying the objects. To evaluate a performance of proposed method, computation time and recognition rate of objects are analyzed. Experimental results show that the proposed method has efficiently in understanding the semantic knowledge of an urban environment.

Research on the Drinking Culture of the Choseon dynasty's Ruling Class using Semantic Network Analysis

  • Mi-Hye, Kim;Yeon-Hee, Kim
    • 셀메드
    • /
    • 제13권2호
    • /
    • pp.3.1-3.21
    • /
    • 2023
  • In this study, the drinking culture of the Choseon dynasty is examined with the text frequency analysis technique on the entire 『Choseonwangjosilok (朝鮮王朝實錄)』. This study examined a total of 1,968 volumes and 948 books about 27 kings of Choseon , which spans a total of 518 years, through web crawling on the National Institute of Korean History website. Python 3.8 was used to extract sentences related to alcohol, Rhino 1.4.5 was used for morphological analysis to extract nouns, and Gephi 0.9.2 was used for semantic network analysis. According to 『Choseonwangjosilok (朝鮮王朝實錄)』 about alcohol culture, the results of the analysis are as follow: Alcoholic beverages were more often used in court or in ritual ceremonies rather than those based on specific ingredients or manufacturing methods commonly used by the general public. regarding the ruling class through semantic network analysis l in the 『Choseonwangjosilok (朝鮮王朝實錄)』, the Choseon dynasty was found to be highly associated with political issues related to maintaining the power relations within the Korean royal court system. At times, alcohol was used to maintain personal relationships, while at other times it was seen as an essential item in state ceremonies. It was also used as a highly political means to maintain and strengthen national power.

Word2Vec를 이용한 한국어 단어 군집화 기법 (Korean Language Clustering using Word2Vec)

  • 허지욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.25-30
    • /
    • 2018
  • 최근 인터넷의 발전과 함께 사용자들이 원하는 정보를 빠르게 획득하기 위해서는 효율적인 검색 결과를 제공해주는 정보검색이나 데이터 추출등과 같은 연구 분야에 대한 중요성이 점점 커지고 있다. 하지만 새롭게 생겨나는 한국어 단어나 유행어들은 의미파악하기가 어렵기 때문에 주어진 단어와 의미적으로 유사한 단어들을 찾아 분석하는 기법들에 대한 연구가 필요하다. 이를 해결하기 위한 방법 중 하나인 단어 군집화 기법은 문서에서 주어진 단어와 의미상 유사한 단어들을 찾아서 묶어주는 기법이다. 본 논문에서는 Word2Vec기법을 이용하여 주어진 한글 문서의 단어들을 임베딩하여 자동적으로 유사한 한국어 단어들을 군집화 하는 기법을 제안한다.

GORank: Gene Ontology를 이용한 유전자 산물의 의미적 유사성 검색 (GORank: Semantic Similarity Search for Gene Products using Gene Ontology)

  • 김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.682-692
    • /
    • 2006
  • 유사한 생물학적 특성을 가진 유전자 산물을 검색하는 것은 생물정보학 연구에 필수적인 기술이다. 현재 대부분의 생물학 데이타베이스에서 Gene Ontology의 용어를 사용하여 유전자 산물의 생물학적 특성을 기술하고 있다. 본 논문에서는 이런 유전자 산물의 주석 정보를 사용해 의미적으로 유사한 유전자 산물을 검색하는 방법을 제안한다. 이를 위해 우선 정보 이론에 기반한 유전자 산물간의 의미적 유사도를 정의하였다. 그리고 이 유사도를 이용한 의미적 유사성 검색 알고리즘을 제안하였다. 의미적 유사성 검색을 처리하기 위해 Fagin의 문턱값 알고리즘(threshold algorithm)을 다음과 같이 변형한 기법을 사용하였다. 우선 사용하는 유사도 함수가 단조 증가 성질을 갖지 않기 때문에 유사도 함수에 맞는 문턱값을 재정의 하였다. 또 역색인 리스트의 구조를 사용하여 중간 검색을 생략할 수 있는 클러스터 스키핑 기법과 역색인 리스트 액세스 순서를 제안하였다. 실제 GO와 주석 정보를 이용하여 성능 평가를 했으며 제안한 알고리즘은 효율적인 알고리즘임을 보였다.