• Title/Summary/Keyword: Ontology Learning

Search Result 121, Processing Time 0.028 seconds

BIOLOGY ORIENTED TARGET SPECIFIC LITERATURE MINING FOR GPCR PATHWAY EXTRACTION (GPCR 경로 추출을 위한 생물학 기반의 목적지향 텍스트 마이닝 시스템)

  • KIm, Eun-Ju;Jung, Seol-Kyoung;Yi, Eun-Ji;Lee, Gary-Geunbae;Park, Soo-Jun
    • Proceedings of the Korean Society for Bioinformatics Conference
    • /
    • 2003.10a
    • /
    • pp.86-94
    • /
    • 2003
  • Electronically available biological literature has been accumulated exponentially in the course of time. So, researches on automatically acquiring knowledge from these tremendous data by text mining technology become more and more prosperous. However, most of the previous researches are technology oriented and are not well focused in practical extraction target, hence result in low performance and inconvenience for the bio-researchers to actually use. In this paper, we propose a more biology oriented target domain specific text mining system, that is, POSTECH bio-text mining system (POSBIOTM), for signal transduction pathway extraction, especially for G protein-coupled receptor (GPCR) pathway. To reflect more domain knowledge, we specify the concrete target for pathway extraction and define the minimal pathway domain ontology. Under this conceptual model, POSBIOTM extracts interactions and entities of pathways from the full biological articles using a machine learning oriented extraction method and visualizes the pathways using JDesigner module provided in the system biology workbench (SBW) [14]

  • PDF

A Strategy Study on Sensitive Information Filtering for Personal Information Protect in Big Data Analyze

  • Koo, Gun-Seo
    • Journal of the Korea Society of Computer and Information
    • /
    • v.22 no.12
    • /
    • pp.101-108
    • /
    • 2017
  • The study proposed a system that filters the data that is entered when analyzing big data such as SNS and BLOG. Personal information includes impersonal personal information, but there is also personal information that distinguishes it from personal information, such as religious institution, personal feelings, thoughts, or beliefs. Define these personally identifiable information as sensitive information. In order to prevent this, Article 23 of the Privacy Act has clauses on the collection and utilization of the information. The proposed system structure is divided into two stages, including Big Data Processing Processes and Sensitive Information Filtering Processes, and Big Data processing is analyzed and applied in Big Data collection in four stages. Big Data Processing Processes include data collection and storage, vocabulary analysis and parsing and semantics. Sensitive Information Filtering Processes includes sensitive information questionnaires, establishing sensitive information DB, qualifying information, filtering sensitive information, and reliability analysis. As a result, the number of Big Data performed in the experiment was carried out at 84.13%, until 7553 of 8978 was produced to create the Ontology Generation. There is considerable significan ce to the point that Performing a sensitive information cut phase was carried out by 98%.

Patent Keyword Analysis for Forecasting Emerging Technology : GHG Technology (부상기술 예측을 위한 특허키워드정보분석에 관한 연구 - GHG 기술 중심으로)

  • Choe, Do Han;Kim, Gab Jo;Park, Sang Sung;Jang, Dong Sik
    • Journal of Korea Society of Digital Industry and Information Management
    • /
    • v.9 no.2
    • /
    • pp.139-149
    • /
    • 2013
  • As the importance of technology forecasting while countries and companies manage the R&D project is growing bigger, the methodology of technology forecasting has been diversified. One of the forecasting method is patent analysis. This research proposes quick forecasting process of emerging technology based on keyword approach using text mining. The forecasting process is following: First, the term-document matrix is extracted from patent documents by using text mining. Second, emerging technology keyword are extracted by analyzing the importance of word from utilizing mean values and standard deviation values of the term and the emerging trend of word discovered from time series information of the term. Next, association between terms is measured by using cosine similarity. finally, the keyword of emerging technology is selected in consequence of the synthesized result and we forecast the emerging technology according to the results. The technology forecasting process described in this paper can be applied to developing computerized technology forecasting system integrated with various results of other patent analysis for decision maker of company and country.

Web Ontology Learning and Population Model using Structured Data Based on MDR (MDR 기반의 구조화 된 데이터를 이용한 웹 온톨로지 학습 및 확장 모델)

  • Jeong, Hye-Jin;Baik, Doo-Kwon;Jeong, Dong-Won
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.05a
    • /
    • pp.393-396
    • /
    • 2009
  • 기존의 웹을 확장한 시맨틱 웹의 등장으로 웹 온톨로지의 구축이 중요시 되고 있다. 이로 인하여 현재 웹 온톨로지의 관리 및 활용을 위한 편집기, 웹 온톨로지 기술언어, 저장소 및 추론 엔진 등 다양한 기술 및 시스템들이 개발되어 웹 온톨로지의 구축이 용이해졌다. 이제는 구축된 웹 온톨로지를 응용 시스템에 활용하기 위한 웹 온톨로지 클래스에 대한 인스턴스를 풍부하게 할 수 있는 웹 온톨로지의 확장에 대한 연구가 요구된다. 웹 온톨로지의 확장을 위해서는 먼저 웹 온톨로지를 보다 정확하게 정의해야 하며 웹 온톨로지를 보다 풍부하게 확장할 수 있는 방법이 개발되어야 한다. 웹 온톨로지의 보다 정확한 정의를 위해서는 표준화 된 공통 개념을 이용하여 웹 온톨로지 스키마를 생성해야하며 이를 기반으로 한 웹 온톨로지 간 상호운용성 향상되어야 한다. 따라서 이 논문에서는 표준화 된 공통 개념을 관리하는 메타데이터 레지스트리(Metadata Registry)를 기반으로 구조화 된 데이터를 이용한 웹 온톨로지의 학습 및 확장 모델을 제안한다. 또한, 제안 모델을 위한 프로토타입을 구현하고 제안 모델의 평가에 대하여 기술한다.

  • PDF

Learning User Interest using Hierarchical Concept indexing based on Ontology (온톨로지 기반의 계층적 개념 인덱싱을 이용한 사용자 관심사 학습)

  • Park Ji-Hyun;Kim Heung-Nam;Jo Geun-Sik
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.646-648
    • /
    • 2005
  • 인터넷의 급속한 성장과 더불어 사용자들은 인터넷을 통해 많은 정보를 얻을 수 있게 되었으며 최신 뉴스를 실시간으로 접근할 수 있게 되었다. 이에 따라 방대한 정보 속에 사용자 관심사에 맞는 정보를 효과적으로 검색하기 위한 여러 방법들이 연구되어 왔다. 하지만 기존의 많은 선행 연구들은 단어 빈도 기반의 키워드 벡터 모델을 이용하여 사용자의 관심사를 학습하고 있다. 이러한 키워드 벡터 모델은 사용자의 선호도를 명확하게 기술하지 못하고 키워드를 이용한 특징 벡터 (feature-vector)는 개념들 사이의 관계를 찾기 어려운 한계를 가지고 있다. 이를 개선하기 위해 본 논문에선 계층적 개념 인덱싱(Hierarchical Concept Indexing)을 이용한 온톨로지 형태의 개인화된 사용자 프로파일을 만드는 방법을 제안한다. 생성된 사용자 프로파일에 개념 간의 유사도와 개념에 대한 사용자의 관심도를 고려하여 보다 개인의 선호도에 맞는 기사를 제공한다. 실험에서는 제안된 방법의 성능 평가를 위해서 기존의 키워드 벡터 모델의 학습 방법인 WebMate 시스템과 비교 분석하였다. 그 결과 제안하는 방법이 키워드 벡터를 이용한 학습 방법보다 향상된 성능을 보였다.

  • PDF

Design and Implementation of eBook Annotation Ontology Based on Non-First Normal Form (Non-First Normal Form에 입각한 eBook Annotation 온톨로지의 설계와 구현)

  • Shin Sung-Wook;Kim Jong-Suk;Lim Soon-Bum;Choy Yoon-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.361-363
    • /
    • 2005
  • 본 연구에서는 온라인 다중 사용자 환경의 eBook 어노테이션 시스템 개발에서 데이터를 의미 기반으로 관리하고, 데이터에 대하여 상호 공통적인 이해를 표현하며, 그리고 데이터에 대한 무결성 검사 등을 지원하기 위해서 eBook 어노테이션 온톨로지를 구축하였다. eBook 어노테이션 테이터에 대한 상호 공통적인 이해의 표현을 위해서 한국 전자책 문서 표준인 EBKS(Electronic Book of Korea Standard)를 기반으로 구축 하였으며 구축된 온톨로지는 Conceptual Graph(CG)를 사용하여 표현하였다. 의미 기반의 처리를 위해서 본 온톨로지에서는 다국어(Multilingua) 관계를 고려하였으며 또한 오노테이션 데이터 생성 시 중요도를 표현하기 위해서 중요성 axiom을 고려했고, $NF^2$(Non-First Normal Form)에 입각하여 온톨로지를 설계함으로서 어노테이션 데이터의 검색에 활용도를 높였다. 제안된 온톨로지는 어노테이션 데이터의 재사용성을 높일 수 있고 의미 정보를 활용함으로써 eLearning, cyberclass과 같은 다중 사용자 환경에서 효과적인 협업을 가능하게 한다. 본 연구에서는 구현한 eBook annotation 시스템은 구축한 온톨로지를 사용함으로써 의미 기반의 데이터 관리가 가능하다. 또한 어노테이션 생성 시 온톨로지 구조를 모르더라도 어노테이션을 생성할 수 있는 인터페이스를 구현하였다.

  • PDF

Middleware for Context-Aware Ubiquitous Computing

  • Hung Q.;Sungyoung
    • Korea Information Processing Society Review
    • /
    • v.11 no.6
    • /
    • pp.56-75
    • /
    • 2004
  • In this article we address some system characteristics and challenging issues in developing Context-aware Middleware for Ubiquitous Computing. The functionalities of a Context-aware Middleware includes gathering context data from hardware/software sensors, reasoning and inferring high-level context data, and disseminating/delivering appropriate context data to interested applications/services. The Middleware should facilitate the query, aggregation, and discovery for the contexts, as well as facilities to specify their privacy policy. Following a formal context model using ontology would enable syntactic and semantic interoperability, and knowledge sharing between different domains. Moddleware should also provide different kinds of context classification mechanical as pluggable modules, including rules written in different types of logic (first order logic, description logic, temporal/spatial logic, fuzzy logic, etc.) as well as machine-learning mechanical (supervised and unsupervised classifiers). Different mechanisms have different power, expressiveness and decidability properties, and system developers can choose the appropriate mechanism that best meets the reasoning requirements of each context. And finally, to promote the context-trigger actions in application level, it is important to provide a uniform and platform-independent interface for applications to express their need for different context data without knowing how that data is acquired. The action could involve adapting to the new environment, notifying the user, communicating with another device to exchange information, or performing any other task.

  • PDF

Minimally Supervised Relation Identification from Wikipedia Articles

  • Oh, Heung-Seon;Jung, Yuchul
    • Journal of Information Science Theory and Practice
    • /
    • v.6 no.4
    • /
    • pp.28-38
    • /
    • 2018
  • Wikipedia is composed of millions of articles, each of which explains a particular entity with various languages in the real world. Since the articles are contributed and edited by a large population of diverse experts with no specific authority, Wikipedia can be seen as a naturally occurring body of human knowledge. In this paper, we propose a method to automatically identify key entities and relations in Wikipedia articles, which can be used for automatic ontology construction. Compared to previous approaches to entity and relation extraction and/or identification from text, our goal is to capture naturally occurring entities and relations from Wikipedia while minimizing artificiality often introduced at the stages of constructing training and testing data. The titles of the articles and anchored phrases in their text are regarded as entities, and their types are automatically classified with minimal training. We attempt to automatically detect and identify possible relations among the entities based on clustering without training data, as opposed to the relation extraction approach that focuses on improvement of accuracy in selecting one of the several target relations for a given pair of entities. While the relation extraction approach with supervised learning requires a significant amount of annotation efforts for a predefined set of relations, our approach attempts to discover relations as they occur naturally. Unlike other unsupervised relation identification work where evaluation of automatically identified relations is done with the correct relations determined a priori by human judges, we attempted to evaluate appropriateness of the naturally occurring clusters of relations involving person-artifact and person-organization entities and their relation names.

Design and Implementation of a Learning Disorder Diagnosis System using Ontology (온톨로지를 이용한 학습 장애 진단시스템 설계 및 구현)

  • 한국정보교육학회
    • Journal of The Korean Association of Information Education
    • /
    • v.9 no.4
    • /
    • pp.571-579
    • /
    • 2005
  • 교수-학습과정에서 학습자가 가지고 있는 학습 장애는 학습 결과에 많은 영향을 미친다. 학습자의 학습 장애를 정확하게 진단하고 이를 고려한 수업 활동이 전개되어야 효과적인 교수-학습 활동이 이루어 질 수 있다. 학습 장애의 특성상 장애 진단과 처방과정에서는 비공개적인 접근이 요구된다. 인터넷 기반의 온라인 학습 장애 진단과 처방시스템은 이와 같은 문제를 해결할 수 있는 유용한 방안 중의 하나가 될 것이다. 하지만 기 구축되어 운영 중인 온라인 기반 학습 장애 관련 사이트들은 학습 장애를 진단해 주고 처방해 주기 보다는 학습 장애 정보를 안내해 주는 정도의 수준에 에 그치고 있다. 단순히 웹문서 형태의 정보제공 체제이거나 텍스트 기반의 지식 전달 체계로 인하여 학습자 개개인의 특성을 고려한 장애 진단에 한계점을 가지고 있다. 학습 장애에 대한 지식을 체계화함과 동시에 일정한 기준에 의해 연관성을 지어 줄 수 있는 의미 분석과 추론 등의 방법에 사용되어지는 온톨로지를 활용하게 되면 기존의 시스템이 가지는 제한점들을 극복할 수 있을 것이다. 이에 본 연구에서는 온라인 상황에서 학습자의 학습 장애를 정확하게 진단하기 위해 온톨로지를 이용하여 학습장애 진단 시스템을 설계하고 구현하였다. 온톨로지의 구축에 사용된 도구는 protege-2000을 사용하였다. 진단시스템 개발 환경으로 학습자의 인터페이스는 Visual C++, 교사의 인터페이스는 Visual Studio.NET을 사용하였으며, DBMS는 Microsoft Office Access와 MS-SQL Server를 사용하였다. 이 연구는 OWL 온톨로지를 사용하여 보다 지능화된 학습 장애 진단시스템을 개발함으로써 실현 가능성을 제안하고 있는 것이 연구의 의의이다.

  • PDF

Class prediction of an independent sample using a set of gene modules consisting of gene-pairs which were condition(Tumor, Normal) specific (조건(암, 정상)에 따라 특이적 관계를 나타내는 유전자 쌍으로 구성된 유전자 모듈을 이용한 독립샘플의 클래스예측)

  • Jeong, Hyeon-Iee;Yoon, Young-Mi
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.12
    • /
    • pp.197-207
    • /
    • 2010
  • Using a variety of data-mining methods on high-throughput cDNA microarray data, the level of gene expression in two different tissues can be compared, and DEG(Differentially Expressed Gene) genes in between normal cell and tumor cell can be detected. Diagnosis can be made with these genes, and also treatment strategy can be determined according to the cancer stages. Existing cancer classification methods using machine learning select the marker genes which are differential expressed in normal and tumor samples, and build a classifier using those marker genes. However, in addition to the differences in gene expression levels, the difference in gene-gene correlations between two conditions could be a good marker in disease diagnosis. In this study, we identify gene pairs with a big correlation difference in two sets of samples, build gene classification modules using these gene pairs. This cancer classification method using gene modules achieves higher accuracy than current methods. The implementing clinical kit can be considered since the number of genes in classification module is small. For future study, Authors plan to identify novel cancer-related genes with functionality analysis on the genes in a classification module through GO(Gene Ontology) enrichment validation, and to extend the classification module into gene regulatory networks.