• Title/Summary/Keyword: 수학식 검색

Search Result 11, Processing Time 0.023 seconds

Indexing and Ranking Mathematical Equations Using Postfix Notation (후위 표기법을 사용한 수학식 색인 및 랭킹)

  • Lee, Sehee;Shin, Junsoo;Kim, Harksoo
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.160-164
    • /
    • 2009
  • 최근 인터넷 및 컴퓨터의 사용이 활발해짐에 따라 문서의 디지털화가 빠르게 진행되고 있다. 이런 변화에 따라 수학식이 많이 사용되는 과학, 공학, 수학 등의 분야와 관련된 문서들을 검색해야할 필요성이 늘어가고 있다. 그러나 현재 일반 검색엔진은 텍스트 검색만을 제공하며 별도의 수학식 검색은 제공하지 않는다. 따라서 본 논문에서는 수학식 검색이 가능하도록 수학식의 색인 방법 및 랭킹 방법을 제안한다. 제안하는 색인 방법은 MathML로 입력되는 수학식을 후위 표기법과 일반 색인 방법의 두 가지로 색인하며, 언어모델을 사용하여 질의에 적합한 수학식을 랭킹한다. 일반 검색 엔진의 성능과 비교하기 위하여 2-포아송 모델과 제안 모델을 비교하였으며, 그 결과 제안 모델의 성능이 더 우수함을 보였다.

  • PDF

A Mathematical Equation Retrieval System Based on Formula Patterns Expressed in Korean (한글화된 수식 패턴을 이용한 수학식 검색 시스템)

  • Kim, Shin-Il;Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.233-236
    • /
    • 2011
  • 일반적인 문서에 대한 정보 검색 연구는 활발히 진행되고 있으며, 일상 생활 속에서도 대중화되어 많이 사용되고 있다. 이에 따라 음성, 이미지 검색 등 특정 분야의 검색에 대한 연구도 활발히 진행되고 있지만, 수학식 검색에 대한 연구는 비교적으로 미비한 실정이다. 수학식 검색과 관련된 연구들은 대부분 MathML (Mathematical Markup Language), TeX 등으로 작성된 수학식을 대상으로 진행되었지만, 특정 언어나 별개의 수학 입력 툴들을 이용한 검색 방법은 일반 사용자들이 사용하기에는 쉽지 않다는 단점이 있다. 그래서, 본 논문에서는 일반 문서 검색과 마찬가지로, 수학식을 읽듯이 한글을 입력했을 때 색인어 추출 방법 및 검색 방법에 대해 제안한다. 실험을 위해서 수학 문제집에 나오는 1,432개의 수학식을 한글화 시켰고, 한글화된 결과에 대해 패턴 등을 추출하여 MRR (Mean Reciprocal Rank), $Rel_{EQ}$@N(Relevance evaluation at N)로 평가하였다. 100개의 한글 질의어에 대해 MRR@5로 계산된 수학식 검색 결과가 약 0.6 정도 되는 것을 확인할 수 있었고, 학습 데이터에 포함되지 않은 질의수학식 5개에 대해 $Rel_{EQ}$@5로 계산했을 때 평균 60% 의 정확률을 보였다.

Mathematical Equation Retrieval by Converting Plaintext Queries into MathML Terms (평문 질의어 MathML 용어 변환을 이용한 수학식 검색)

  • Lee, Jun-Young;Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06b
    • /
    • pp.312-314
    • /
    • 2012
  • 본 논문은 한글로 입력된 질의어를 이용하여 웹상의 MathML (Mathematical Markup Language) 수학식을 검색하는 시스템을 제안한다. 웹상의 수학식은 과거 이미지를 이용하여 표현되는 경우가 많았지만, 현재는 대부분 MathML과 같은 수학식 표현 마크업 언어로 작성되고 있다. 그러나 이러한 수학식을 검색하기 위해서는 해당 언어를 알고 있거나 수식 입력 툴을 이용해야 하는 경우가 대부분이기 때문에, 일반 사용자들이 수학식 검색을 하는 데에는 제약점이 따랐다. 본 연구에서는 사용자들이 전통적인 검색 방법을 이용하여 특정 마크업 언어가 아닌 일반 평문으로 작성된 질의어를 입력하여 수학식을 검색 가능 하도록 하기 위해, 평문 질의어를 MathML 표현으로 변환시키는 방법을 사용한다. 질의어로 입력될 수 있는 다양한 수학식 표현을 미리 구축한 사전을 이용하여 MathML 표현으로 변환하는 간결한 기법만으로도 MRR 0.495 의 높은 성능을 얻을 수 있었다.

Reranking Search Results for Mathematical Equation Retrieval Using Topic Models (토픽 모델을 이용한 수학식 검색 결과 재랭킹)

  • Yang, Seon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.77-81
    • /
    • 2013
  • 본 논문은 두 가지 주제에 대해 연구한다. 첫 번째는 수학식 검색에 대한 것이다. 웹에는 양질의 수학식 데이터가 마크업 언어 형태로 저장되어 있으며 이를 활용하기 위한 연구들이 활발히 진행되고 있다. 본 연구에서는 MathML (Mathematical Markup Language)로 저장된 수학식 데이터를 일반 질의어를 이용하여 검색한다. 두 번째 주제는 토픽 모델(topic model)로 검색 성능을 향상시키는 방법에 대한 것이다. 먼저 수학식 데이터를 일반 자연어 문장으로 변환한 후 Indri 시스템을 이용하여 검색을 수행하고, 토픽 모델을 이용하여 미리 산출된 스코어를 적용하여 검색 순위를 재랭킹한 결과, MRR 기준 평균 5%의 성능을 향상시킬 수 있었다.

  • PDF

Mathematical Properties of the Formulas Evaluating Boolean Operators in Information Retrieval (정보검색에서 부울연산자를 연산하는 식의 수학적 특성)

  • 이준호;이기호;조영화
    • Journal of the Korean Society for information Management
    • /
    • v.12 no.1
    • /
    • pp.87-97
    • /
    • 1995
  • Boolean retrieval systems have been most widely used in the area of information retrieval due to easy implementation and efficient retrieval. Conventional Boolean retrieval systems. however, cannot rank retrieved documents in decreasing order of query-document similarities because they cannot compute similarity coefficients between queries and documents. Extended Boolean models such as fuzzy set. Waller-Kraft, Paice, P-Norm and Infinite-One have been developed to provide the document ranking facility. In extended Boolean models, the formulas evaluating Boolean operators AND and OR are an important component to affect the quality of document ranking. In this paper we present mathematical properties of the formulas, and analyse their effect on retrieval effectiveness. Our analyses show that P-Norm is the most suitable for achieving high retrieval effectiveness.

  • PDF

A Design and Implementation of MathML-based Math Equation Generating Website (MathML에 기반한 수학식 생성 웹사이트의 설계 및 구현)

  • Park, Jeong-Hee;Lee, Mee-Jeong
    • The Journal of Korean Association of Computer Education
    • /
    • v.6 no.3
    • /
    • pp.173-183
    • /
    • 2003
  • E-learning education methodology using the web has been as much activated with the introduction of the internet to our society. As for the web-based education, there is no exception in case of mathematics. However, when it comes to representing math equations by using HTML image tags, a type of web marked-up language, it can be hard to represent math equations that have structural features, and to do the search, resulting in the difficulty in reusing math related applications. Therefore, based on MathML and using ActiveX control technology, a math equation generating website was designed and implemented in this study. Since this system employed ActiveX control technology, it is possible to generate math equations without the limit of time and place on the web, and to manage the program with the most up-to-dale version. And in this system, it is also possible to save the math equations generated in this system to be referred to for their reuse in the future.

  • PDF

The Ecology of the Scientific Literature and Information Retrieval (I)

  • Jeong, Jun-Min
    • Journal of the Korean Society for information Management
    • /
    • v.2 no.2
    • /
    • pp.3-37
    • /
    • 1985
  • This research deals with the problems encountered in designing systems for more efficient and effective information retrieval used in the proliferation of literature. This research was designed to develop and test 1) the partitioning a large bibliographic data base into quality oriented subsets (quality filtering), and 2) a system for effective and efficient information retrieval within subsets of data base (relevance). In order to accomplish this partitioning, the 'kernel' technique of graph theory was applied. In addition, a method of quality filtering utilizing the 'epidemic' theory and the 'obsolescence' of scientific literature was developed.

  • PDF

The Ecology of the Scientific Literature and Information Retrieval (II)

  • Jeong, Jun-Min
    • Journal of the Korean Society for information Management
    • /
    • v.3 no.1
    • /
    • pp.3-16
    • /
    • 1986
  • This research deals with the problems encountered in designing systems for more efficient and effective information retrieval used in the proliferation of literature. This research was designed to develop and test 1) the partitioning a large bibliographic data base into quality oriented subsets (quality filtering), and 2) a system for effective and efficient Information retrieval within subsets of data base (relevance). In order to accomplish this partitioning, the 'kernel' technique of graph theory was applied. In addition, a method of quality filtering utilizing the 'epidemic' theory and the 'obsolescence' of scientific literature was developed.

  • PDF

XML Document Editing System for Structural Processing of the Digital Document to Including Mathematical Formula (수식을 포함한 전자문헌의 구조적 처리를 위한 XML 문서편집시스템)

  • 윤화묵;유범종;김창수;정회경
    • Journal of the Korean Society for information Management
    • /
    • v.19 no.4
    • /
    • pp.96-111
    • /
    • 2002
  • A lot of accumulated data of many quantity exist within a institution or an organization, but most data is remained in form of standardization as each institution or organization. There are difficulty in exchange and share of information. New concept of knowledge information resource management to overcome this disadvantage was introduced, and the digitization of knowledge information resources to share and manage accumulated data is been doing. Specially, in science technic or education scholarship it, the tendency that importing XML to process necessary data to exchange and share of knowledge information resources structurally, and limitation of back for search and indexing or reusability is happened according as expression of great many mathematics used inside electron document of these sphere is processed to nonstructural data of image or text and so on. There is interest converged in processing of mathematics that use MathML to overcome this, and we require the solution to be able to process MathML easily and efficiently on structural document. In this paper, designed and implemented of XML document editing system which easy structural process of electronic document for knowledge information resources, and create and express MathML easily on structural document without expert knowledge about MathML.

A Study on Valid Time for Nearest Neighbor Query of Moving Objects (이동 객체의 최근접 질의를 위한 유효 시간에 관한 연구)

  • Kang, Ku-An;Lee, Sang-Wook;Kim, Jin-Doeg
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.163-166
    • /
    • 2005
  • The latest wireless communications technology bring about the rapid developments of Global Position System and Location-Based Service. It is very important for the moving object database to deal with database queries related to the trajectories of a moving objects and the valid time of the query results as well. In this paper, we propose how to get not only the current result of query but also the valid time and the result after the time when a query point and objects are moving at the same time. We would like to predict the valid time by formula because the current results will be incorrect due to the characteristic of the continuous movements of the moving objects and the future results can not be calculated by iterative computations.

  • PDF