• 제목/요약/키워드: Language-Based Retrieval Model

검색결과 71건 처리시간 0.035초

존대등분 계산법과 사례기반추론을 활용한 상황 인식형 모바일 인터페이스 시스템 (Applying Polite level Estimation and Case-Based Reasoning to Context-Aware Mobile Interface System)

  • 권오병;최석재;박태환
    • 지능정보연구
    • /
    • 제13권3호
    • /
    • pp.141-160
    • /
    • 2007
  • 모바일 서비스의 수용성에는 사용자 인터페이스가 중요한 요소이다. 특히 모바일 인터페이스에서 청자(listner)인 인간에게 화자(Speaker)인 기계가 어떻게 시의 적절한 대화를 하는가는 수용성에 중요한 요소임에도 불구하고 아직까지 이에 대한 본격적인 연구가 진행되지 못했다. 따라서 본 연구의 목적은 사용자의 상황을 인식한 존대등분 계산법을 제안하여 이에 근거한 시의 적절한 대화를 지원하는 상황 인식형 모바일 인터페이스를 설계하도록 하는 것이다. 다만 존대등분 계산은 문화별 및 언어별로 차이가 날 수 있으므로 한국어를 대상으로 계산법을 제안하려고 한다. 유비쿼터스 환경과 같은 분산 환경에서 사생활 정보를 보호하면서 사례기반 추론을 수행하기 위해 기존의 Minkowski aggregation 방법을 수정한 Nested Minkowski aggregation 방법을 사용하였다. 또한 본 방법론의 사용가능성을 증명하기 위하여 드라마 사례를 가지고 시뮬레이션 기반의 성능 비교를 수행하였다.

  • PDF

새로운 N-ary 관계 디자인 기반의 온톨로지 모델을 이용한 문장의미결정 (A Semantic Similarity Decision Using Ontology Model Base On New N-ary Relation Design)

  • 김수경;안기홍;최호진
    • 정보관리학회지
    • /
    • 제25권4호
    • /
    • pp.43-66
    • /
    • 2008
  • 시맨틱 웹 기술의 제안과 더불어 다양한 분야에 온톨로지의 특징을 적용한 기술 개발 연구가 많이 진행되고 있다. 인간이 소유한 개념을 가장 적절하게 표현하기 위해 현재에도 OWL, RDF와 같은 온톨로지 언어의 표현력을 확장시키기 위해 N-ary 관계나 모델-이론 의미론과 같은 개발이 진행되고있다. 본 연구는 한국어에 있어 문장이 내포하는 의미를 정확하게 결정하기 위해 문장의 구조에 따라 달라지는 단어의 의미를 연관할 수 있도록 N-ary 관계와 디자인 기반이 적용된 온톨로지의 지식 표현 방법을 연구하였다. 특히 다양한 지식 영역을 포함하는 다의어(polysemy)와 동의어(synonym)의 특징을 갖는 단어에 있어 각 지식 영역으로 분류되어 각 지식 영역에 있는 유사한 의미를 가진 단어로 확장되어 유사한 의미를 가진 단어가 포함된 문장의 경우 까지도 확장할 수 있는 표현 방법을 연구하였다. 연구의 검증을 위해 사용자가 입력한 병증 문장을 제안된 방법에 따라 구축된 온톨로지내 지식 관계와 의미 결정을 위한 추론 표현 방법을 이용하여 병증의 의미를 결정하고 그에 따른 진단을 제공하는 실험 시스템을 구현하였고, 한국어가 갖고 있는 문장의 유의성, 모호성, 복합성 의 특징을 보유한 증상문들의 실험 결과 의미 결정과 유사 의미 확장에 있어 우수한 성능을 보여주었다.

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델 (Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering)

  • 이현구;김민경;김진태;김학수;이연수;최맹식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.197-200
    • /
    • 2017
  • 채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.

  • PDF

핵심질의 클러스터와 단어 근접도를 이용한 문서 검색 정확률 향상 기법 (A Method for Precision Improvement Based on Core Query Clusters and Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제17B권5호
    • /
    • pp.399-404
    • /
    • 2010
  • 본 논문에서는 상위 검색결과 문서의 정확률을 향상시키기 위하여 핵심질의 클러스터와 단어 근접도를 이용해 재순위화하는 방법을 제안한 다. 언어모델에 의한 초기 검색결과를 상위 문서에 대해 발생한 질의어휘 조합을 기반으로 문서를 클러스터링한다. 질의어휘 조합 클러스터에 대해 질의어휘 사이의 근접도를 이용하여 핵심질의 클러스터를 선택한다. 질의의 문맥정보를 이용해 핵심질의 클러스터의 문서를 재순위화한다. 뉴스집합인 TREC AP 컬렉션에 대해 언어모델과 제안한 방법의 문서 정확률을 비교한 결과 제안방법이 언어모델에 비해 상위 100개 문서(P@100)에서 11.2% 성능이 향상되었다.

Information Strategy Planning for Digital Infrastructure Building with Geo-based Nonrenewable Resources Information in Korea: Conceptual Modeling Units

  • Chi, Kwang-Hoon;Yeon, Young-Kwang;Park, No-Wook;Lee, Ki-Won
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2002년도 Proceedings of International Symposium on Remote Sensing
    • /
    • pp.191-196
    • /
    • 2002
  • From this year, KIGAM, one of Korean government-supported research institutes, has started new national program for digital geologic/natural resources infrastructure building. The goal of this program is to prepare digitally oriented infrastructure for practical digital database building, management, and public services of numerous types of paper maps related to geo-scientific resources or geologic thematic map sets: hydro-geologic map, applied geologic map, geo-chemical map, airborne radiometric/magnetic map, coal geologic map and off-shelf bathymetry map and so forth. As for digital infrastructure, several research issues in this topic are composed of: ISP (Information Strategy Planning), geo-framework modeling of each map set, pilot database building, cyber geo-mineral directory service system, and web based geologic information retrieval system upgrade which services Korean digital geologic maps scaled 1:50K. In this study, UML (Unified Modeling Language)-based data modeling of geo-data sets by and in KIGAM, among them, is mainly discussed, and its results are also presented in the viewpoint of digital geo-modeling ISP. It is expected this model is further progressed with the purpose of being a guidance or framework modeling for geologic thematic mapping and practical database building, as well as other types of national thematic map database building.

  • PDF

Operational Experience in DB "TERMIN"

  • Shaburova, Natalya N.
    • Journal of Information Science Theory and Practice
    • /
    • 제7권3호
    • /
    • pp.21-30
    • /
    • 2019
  • Information about the formation and filling (in 2014 to 2016) of a terminological dictionary on electronics and radioengineering and collective work (in 2017 to 2018) with a data bank "TERMIN" is presented in this article. In purpose of creating an instrument of navigating the modern scientific-technical space a net of terms with set semantic links is described. This set is based on the analysis of terms' definitions (each term is checked for inclusion in the definitions of all other terms; the definitions were borrowed from reputable reference editions: encyclopedias, dictionaries, reference books). The created model of a system that consists of different information sources, in which it (information) is indexed by the terminology of Russian State Rubricator of Scientific and Technical Information rubrics and/or keywords, is described. There is an access for the search in all these sources in the system. Searching inquiries are referred to in the language of these rubrics or formulated by arbitrary terms. The system is to refer to information sources and give out relevant information. In accordance with this model, semantic links of various types, which allow expanding a search at different modalities of query, should be set among data bank terms. Obtained links will have to increase semantic matching, i.e., they can provide actual understanding of the meaning of the information that is being sought.

Question Similarity Measurement of Chinese Crop Diseases and Insect Pests Based on Mixed Information Extraction

  • Zhou, Han;Guo, Xuchao;Liu, Chengqi;Tang, Zhan;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.3991-4010
    • /
    • 2021
  • The Question Similarity Measurement of Chinese Crop Diseases and Insect Pests (QSM-CCD&IP) aims to judge the user's tendency to ask questions regarding input problems. The measurement is the basis of the Agricultural Knowledge Question and Answering (Q & A) system, information retrieval, and other tasks. However, the corpus and measurement methods available in this field have some deficiencies. In addition, error propagation may occur when the word boundary features and local context information are ignored when the general method embeds sentences. Hence, these factors make the task challenging. To solve the above problems and tackle the Question Similarity Measurement task in this work, a corpus on Chinese crop diseases and insect pests(CCDIP), which contains 13 categories, was established. Then, taking the CCDIP as the research object, this study proposes a Chinese agricultural text similarity matching model, namely, the AgrCQS. This model is based on mixed information extraction. Specifically, the hybrid embedding layer can enrich character information and improve the recognition ability of the model on the word boundary. The multi-scale local information can be extracted by multi-core convolutional neural network based on multi-weight (MM-CNN). The self-attention mechanism can enhance the fusion ability of the model on global information. In this research, the performance of the AgrCQS on the CCDIP is verified, and three benchmark datasets, namely, AFQMC, LCQMC, and BQ, are used. The accuracy rates are 93.92%, 74.42%, 86.35%, and 83.05%, respectively, which are higher than that of baseline systems without using any external knowledge. Additionally, the proposed method module can be extracted separately and applied to other models, thus providing reference for related research.

Design of Query Processing System to Retrieve Information from Social Network using NLP

  • Virmani, Charu;Juneja, Dimple;Pillai, Anuradha
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권3호
    • /
    • pp.1168-1188
    • /
    • 2018
  • Social Network Aggregators are used to maintain and manage manifold accounts over multiple online social networks. Displaying the Activity feed for each social network on a common dashboard has been the status quo of social aggregators for long, however retrieving the desired data from various social networks is a major concern. A user inputs the query desiring the specific outcome from the social networks. Since the intention of the query is solely known by user, therefore the output of the query may not be as per user's expectation unless the system considers 'user-centric' factors. Moreover, the quality of solution depends on these user-centric factors, the user inclination and the nature of the network as well. Thus, there is a need for a system that understands the user's intent serving structured objects. Further, choosing the best execution and optimal ranking functions is also a high priority concern. The current work finds motivation from the above requirements and thus proposes the design of a query processing system to retrieve information from social network that extracts user's intent from various social networks. For further improvements in the research the machine learning techniques are incorporated such as Latent Dirichlet Algorithm (LDA) and Ranking Algorithm to improve the query results and fetch the information using data mining techniques.The proposed framework uniquely contributes a user-centric query retrieval model based on natural language and it is worth mentioning that the proposed framework is efficient when compared on temporal metrics. The proposed Query Processing System to Retrieve Information from Social Network (QPSSN) will increase the discoverability of the user, helps the businesses to collaboratively execute promotions, determine new networks and people. It is an innovative approach to investigate the new aspects of social network. The proposed model offers a significant breakthrough scoring up to precision and recall respectively.

질의응답 시스템에서 처음 보는 단어의 역문헌빈도 기반 단어 임베딩 기법 (Inverse Document Frequency-Based Word Embedding of Unseen Words for Question Answering Systems)

  • 이우인;송광호;심규석
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.902-909
    • /
    • 2016
  • 질의응답 시스템은 사용자의 질문에 대한 답을 찾아주는 시스템으로, 기존의 검색엔진이 사용자의 질의에 대해 관련된 문서의 링크만을 찾아주는 반면 질문에 대한 최종적인 답을 찾아준다는 차이점이 있다. 특정 분야에 국한되지 않고 다양한 질문을 처리해주는 오픈 도메인 질의응답 시스템에 필요한 연구들이 최근 자연어 처리, 인공지능, 데이터 마이닝 등 학계의 다양한 분야들에서 뜨거운 관심을 받고 있다. 하지만 관련 연구에서는 학습 데이터에는 없었던 단어들이 질문에 대한 정확한 답과 유사한 오답을 구별해내는데 결정적인 역할을 할 수 있음에도, 이러한 처음 보는 단어들을 모두 단일 토큰으로 치환해버리는 문제가 있다. 본 논문에서는 문맥 정보를 통해 이러한 모르는 단어에 대한 벡터를 계산하는 방법을 제안한다. 그리고 역문헌빈도 가중치를 활용하여 문맥정보를 더 효율적으로 처리하는 모델을 제안한다. 또한 풍부한 실험을 통해 질의응답 시스템의 모델 학습 속도 및 정확성이 기존 연구에 비해 향상됨을 확인하였다.