• Title/Summary/Keyword: 기술용어 추출

Search Result 113, Processing Time 0.028 seconds

Detection of Porno Sites on the Web using Fuzzy Inference (퍼지추론을 적용한 웹 음란문서 검출)

  • 김병만;최상필;노순억;김종완
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.11 no.5
    • /
    • pp.419-425
    • /
    • 2001
  • A method to detect lots of porno documents on the internet is presented in this parer. The proposed method applies fuzzy inference mechanism to the conventional information retrieval techniques. First, several example sites on porno arc provided by users and then candidate words representing for porno documents are extracted from theme documents. In this process, lexical analysis and stemming are performed. Then, several values such as tole term frequency(TF), the document frequency(DF), and the Heuristic Information(HI) Is computed for each candidate word. Finally, fuzzy inference is performed with the above three values to weight candidate words. The weights of candidate words arc used to determine whether a liven site is sexual or not. From experiments on small test collection, the proposed method was shown useful to detect the sexual sites automatically.

  • PDF

Procedural Entity Extraction for Procedural Knowledge on Medline Abstracts (의료 문헌에서의 절차적 지식 추출을 위한 단위 절차 추출 연구)

  • Song, Sa-Kwang;Oh, Heung-Seon;Choi, Yoon-Jung;Jang, He-Ju;Myaeng, Sung-Hyon;Choi, Sung-Pil;Choi, Yun-Soo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.154-157
    • /
    • 2011
  • 본 연구는 2인의 전문의와 함께 의료 문헌의 초록을 분석하여 의료문서에서의 절차적 지식을 모델링하고 텍스트 마이닝 기법을 적용하여 절차적 지식을 추출하는 방법론에 대해 기술한다. 절차적 지식은 목적과 해법의 묶음으로, 해법은 다시 단위 절차 지식의 네트워크로 정의 하였고, 목적과 해법 정보 추출과 단위 절차 지식의 구성요소인 대상/행위/방법 개체를 인식하기 위해, 품사태깅, 구문분석, 술어-논항구조(Predicate-Argument Structure), 온톨로지 용어 매핑 정보 등에 기반한 기계학습 방법을 사용하였다. 실험을 위해 전문의와 함께 위함과 척추질환에 대한 1309 문서에 절차적 지식 태깅을 수행하였고, 이 문서 집합을 기반으로 목적/해법 추출 작업과 단위 절차 지식(대상질병/행위/적용방법) 추출 실험을 수행하여, 각각 82% 와 63%의 F-measure 값을 얻을 수 있었다.

Research for Interlink Retrieval of Patent and Technical Information (특허 및 기술정보의 연계 검색에 관한 연구)

  • Song, J.C.;Hong, G.C.;Lee, S.Y.;Kang, Y.H.
    • Electronics and Telecommunications Trends
    • /
    • v.16 no.5 s.71
    • /
    • pp.143-150
    • /
    • 2001
  • 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어 짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 고에서는 사용자의 특허검색 과정에서 특허와 관련된 기술 문서를 동시에 검색이 용이하도록 지원하는 시스템의 개발에 대하여 논하고자 한다. 특허 및 기술정보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.

Processing Detailed Description of Product Extracted from Web Using The Functional Hierarchy of Goods (상품의 기능 계층 구성도를 이용한 웹상에서 추출한 상품 상세 정보 처리)

  • Lee, Keun-Yong;Park, Ki-Seon;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.233-240
    • /
    • 2006
  • 인터넷 쇼핑몰을 이용하는 구매자의 상품 구매를 돕는 방법으로 가격 비교 서비스가 가장 많이 이용되고 있다. 가격비교 서비스는 구매자가 구매할 상품을 이피 결정했다고 가정하고 동일 상품을 판매하는 사이트들의 가격과 서비스 정보를 비교하여 구매자치 구매 결정에 많은 도움을 주고 있다. 가격 비교 서비스는 구매자에게 인터넷 쇼핑몰 사이트에서 판매되는 수많은 상품 중 어떤 상품을 선택할 지에 대한 고민을 해결해 주지는 못하고 있다. 구매자가 구매할 상품을 결정하지 못했을 때, 상품의 선택을 도울 수 있는 방법은 서로 다른 상품 모델에 대한 기능적 차이를 비교할 수 있도록 해주어야 한다. 상품에 대한 기능의 차이점은 상품의 상세 정보를 통해서 파악이 가능하다. 따라서 상품의 상세 정보를 구매자가 한눈에 파악할 수 있도록 제공하는 것은 상품을 선택하는데 매우 중요한 요소이다. 각 상품의 상세 정보는 구매자에게 해당 상품이 어떤 기능을 가지고 있는지 보기 쉽게 기술되어 있지만 다른 상품과는 기능을 설명하는 순서가 다르거나 사용한 용어 및 단위 표현에 같은 의미의 다른 표현 방식을 사용하기도 한다. 본 논문은 상품들의 기능적인 차이점을 파악하는 것을 도울 수 있도록 하기 위해서, 개별 상품에 대해서는 상품의 상세 정보가 보기 쉽게 기술되었다는 점을 이용하여 상품의 상세 정보로부터 상품의 정보를 추출한다. 추출된 정보는 상품을 구성하는 기능 계층 정보를 이용하여 각 상품들의 기능과 기능에 대한 설명을 일치시키는 방법을 제안한다.

  • PDF

Extractiong mood metadata through sound effects of video (영상의 효과음을 통한 분위기 메타데이터 추출)

  • You, Yeon-Hwi;Park, Hyo-Gyeong;Yong, Sung-Jung;Lee, Seo-Young;Moon, Il-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2022.05a
    • /
    • pp.453-455
    • /
    • 2022
  • Metadata is data that explains attributes and features to the data as structured data. Among them, video metadata refers to data extracted from information constituting the video for accurate content-based search. Recently, as the number of users using video content increases, the number of OTT providers is also increasing, and the role of metadata is becoming more important for OTT providers to recommend a large amount of video content to individual users or to search appropriately. In this paper, a study was conducted on a method of automatically extracting metadata for mood attributes through sound effects of images. In order to classify the sound effect of the video and generate metadata about the attributes of the mood, I would like to propose a method of establishing a terminology dictionary for the mood and extracting information through supervised learning.

  • PDF

Research Outcomes and Limitations of Records and Archives Organization in Korea (국내 기록조직 연구의 성과와 과제)

  • Lee, Eun-Ju;Rho, Jee-Hyun
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.20 no.4
    • /
    • pp.129-146
    • /
    • 2020
  • This study aims to investigate the outcomes and limitations of research studies on records and archives organization published in Korea. In particular, it will serve as an in-depth examination of the contribution of this area of research to the improvements and changes in the country's records management field. To this end, 150 journal articles related to the records and archives organization were gathered. After extracting refined keywords from the titles and author-assigned keywords, terminology analysis and contents analysis were conducted. On the one hand, terminology analysis (frequency and network analysis) identified frequently discussed topics and the relationships between them. On the other hand, through content analysis, the study revealed the detailed contents regarding the two main topics and their meanings.

A Study on Data Cleansing Techniques for Word Cloud Analysis of Text Data (텍스트 데이터 워드클라우드 분석을 위한 데이터 정제기법에 관한 연구)

  • Lee, Won-Jo
    • The Journal of the Convergence on Culture Technology
    • /
    • v.7 no.4
    • /
    • pp.745-750
    • /
    • 2021
  • In Big data visualization analysis of unstructured text data, raw data is mostly large-capacity, and analysis techniques cannot be applied without cleansing it unstructured. Therefore, from the collected raw data, unnecessary data is removed through the first heuristic cleansing process and Stopwords are removed through the second machine cleansing process. Then, the frequency of the vocabulary is calculated, visualized using the word cloud technique, and key issues are extracted and informationalized, and the results are analyzed. In this study, we propose a new Stopword cleansing technique using an external Stopword set (DB) in Python word cloud, and derive the problems and effectiveness of this technique through practical case analysis. And, through this verification result, the utility of the practical application of word cloud analysis applying the proposed cleansing technique is presented.

A Study on the Retrieval Effectiveness of KoreaMed using MeSH Search Filter and Word-Proximity Search (검색용 MeSH 필터와 단어인접탐색 기법을 활용한 KoreaMed 검색 효율성 향상 연구)

  • Jeong, So-Na;Jeong, Ji-Na
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.18 no.5
    • /
    • pp.596-607
    • /
    • 2017
  • This study examined the method for adding related to "stomach neoplasms" as filters to the Medical Subject Headings (MeSH) for search as well as a method for improving the search efficiency through a word-proximity search by measuring the distance of co-occurring terms. A total of 8,625 articles published between 2007 and 2016 with the major topic terms "stomach neoplasms" were downloaded from PubMed article titles. The vocabulary to be added to the MeSH for search were analyzed. The search efficiency was verified by 277 articles that had "Stomach Neoplasms" indexed as MEDLINE MeSH in KoreaMed. As a result, 973 terms were selected as the candidate vocabulary. "Gastric Cancer" (2,780 appearances) was the most frequent term and 7,376 compound words (88.51%) combined the histological terms of "stomach" and "neoplasm", such as "gastric adenocarcinoma" and "gastric MALT lymphoma". A total of 5,234 compounds words (70.95%), in which the co-occurring distance was two words, were found. The matching rate through the MEDLINE MeSH and KoreaMed MeSH Indexer was 209 articles (75.5%). The search efficiency improved to 263 articles (94.9%) when the search filters were added, and to 268 articles (96.7%) when the 13 word-proximity search technique of the co-occurring terms was applied. This study showed that the use of a thesaurus as a means of improving the search efficiency in a natural language search could maintain the advantages of controlled vocabulary. The search accuracy can be improved using the word-proximity search instead of a Boolean search.

Analysis on the author keywords in the scientific articles (과학기술 논문의 저자 키워드 분석)

  • Kim, Tae-Jung;Lee, Seok-Hyoung;Kim, Kwang-Young;Kim, Hwanmin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2014.11a
    • /
    • pp.53-54
    • /
    • 2014
  • 대부분 국내에서 발행되는 과학기술 분야의 논문에는 저자 키워드가 포함되어 있다. 이 키워드는 논문을 이해를 돕고 온라인 검색에 유용하게 활용되고 있다. 특히 많은 논문에서 키워드를 영문과 국문을 동시에 부여하도록 하고 있어 과학기술 용어로서의 가치도 있다. 일정 기간 국내에서 발행되는 논문으로부터 저자 키워드들을 추출하여 다양한 각도에서 부여 키워드의 현황을 분석하였다. 결론으로 바람직한 키워드 부여의 방향을 제시한다.

  • PDF

Keyword Extraction from News Corpus using Modified TF-IDF (TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법)

  • Lee, Sung-Jick;Kim, Han-Joon
    • The Journal of Society for e-Business Studies
    • /
    • v.14 no.4
    • /
    • pp.59-73
    • /
    • 2009
  • Keyword extraction is an important and essential technique for text mining applications such as information retrieval, text categorization, summarization and topic detection. A set of keywords extracted from a large-scale electronic document data are used for significant features for text mining algorithms and they contribute to improve the performance of document browsing, topic detection, and automated text classification. This paper presents a keyword extraction technique that can be used to detect topics for each news domain from a large document collection of internet news portal sites. Basically, we have used six variants of traditional TF-IDF weighting model. On top of the TF-IDF model, we propose a word filtering technique called 'cross-domain comparison filtering'. To prove effectiveness of our method, we have analyzed usefulness of keywords extracted from Korean news articles and have presented changes of the keywords over time of each news domain.

  • PDF