• 제목/요약/키워드: Thesaurus System

검색결과 141건 처리시간 0.022초

텍스트마이닝을 위한 패션 속성 분류체계 및 말뭉치 웹사전 구축 (Development of Online Fashion Thesaurus and Taxonomy for Text Mining)

  • 장세윤;김하연;김송미;최우진;정진;이유리
    • 한국의류학회지
    • /
    • 제46권6호
    • /
    • pp.1142-1160
    • /
    • 2022
  • Text data plays a significant role in understanding and analyzing trends in consumer, business, and social sectors. For text analysis, there must be a corpus that reflects specific domain knowledge. However, in the field of fashion, the professional corpus is insufficient. This study aims to develop a taxonomy and thesaurus that considers the specialty of fashion products. To this end, about 100,000 fashion vocabulary terms were collected by crawling text data from WSGN, Pantone, and online platforms; text subsequently was extracted through preprocessing with Python. The taxonomy was composed of items, silhouettes, details, styles, colors, textiles, and patterns/prints, which are seven attributes of clothes. The corpus was completed through processing synonyms of terms from fashion books such as dictionaries. Finally, 10,294 vocabulary words, including 1,956 standard Korean words, were classified in the taxonomy. All data was then developed into a web dictionary system. Quantitative and qualitative performance tests of the results were conducted through expert reviews. The performance of the thesaurus also was verified by comparing the results of text mining analysis through the previously developed corpus. This study contributes to achieving a text data standard and enables meaningful results of text mining analysis in the fashion field.

전자정부내 의미기반 기술 도입에 따른 기능 및 정책 연구 (Research on Function and Policy for e-Government System using Semantic Technology)

  • 장영철
    • 한국산업정보학회논문지
    • /
    • 제13권5호
    • /
    • pp.22-28
    • /
    • 2008
  • 본 논문에서는 전자정부 시스템의 대 국민 사용성과 효율성을 증진시키기 위한 의미기반 문서 분류 방법(CoWDC)을 제시한다. 기존 의미기반 문서분류 방법에서 많은 양의 키워드들의 계층적 컨셉들을 이용하는 것을 지양하고 사용자들이 사용하는 키워드들 간의 관계를 중심으로 문서를 분류한다. 즉, 문서의 컨텍스트(context)에 근거하여 깊고 정확한 의미를 키워드 간 관계를 분석하여 적은 양의 정보로 효율적인 문서분류를 하게 된다. 이를 위해 제안한 CoWDC(Concept Wright Document Classification) 시스템은 기존의 시소러스/온톨로지의 의존도를 줄이고 키워드 관계, 관계의 경중 고려, 상하위 개념으로 변환 등을 통한 실험과 평가가 이루어졌다. 전자정부 시스템의 구조 및 특징 분석을 통해 CoWDC 실험 결과는 대국민 서비스 향상을 위해 매우 필요함을 인지하고 이를 접목하기 위한 기술적, 정책적 제언을 제시하였다. CoWDC를 통해 의미기반 검색기술의 우수함을 입증하였고 이는 전자정부 시스템의 지식베이스 구축, 운영체제의 운용, 시소러스의 구성 등의 과정에서 체계적으로 통합 운영되어야 한다.

  • PDF

통합의학언어 시스템(UMLS)의 구성 및 적용에 대한 고찰 (A Review of Structure and Application of Unified Medical Language System(UMLS))

  • 김혜선
    • 정보관리연구
    • /
    • 제32권2호
    • /
    • pp.26-39
    • /
    • 2001
  • 효과적인 정보검색 도구로 활용되는 시소러스, 분류표 등의 통제어휘집들은 동일한 개념이나 의미를 표현하는데 서로 다른 어휘를 사용하고 있다. 이러한 동일 개념에 대한 용어 표현차이로 인한 정보의 검색 및 통합문제를 해결하기 위하여 미국국립의학도서관은 통합의학언어시스템(Unified Medical Language System : 이하 UMLS)을 개발하였다. UMLS 개발은 1986년부터 시작된 장기 프로젝트로서 2001년판 UMLS는 메타시소러스, 의미망, 전문가 사전의 세가지 요소로 구성되어 있다. 본고는 UMLS의 개발배경과 구성요소 및 PubMed, NLM Gateway에서의 적용사례에 대해 고찰하였다.

  • PDF

KNetIRS : 키워드망을 이용한 정보검색 시스템 (KNetIRS : Information Retrieval System using Keyword Network)

  • 우선미;유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2185-2196
    • /
    • 1997
  • 기존의 정보검색 시스템들은 질의가 정확하지 않더라도 원하는 정보를 검색할 수 있도록 하기 위해 시소리스 (thesaurus)를 사용했다. 그러나 시소러스를 구축하고 유지하는데 드는 비용이 매우 높고 검색에 있어서도 완전하다고 볼 수 없다. 그래서 본 논문에서는 이러한 문제점들을 해결하기 위하여 키워드망을 이용한 정보검색 시스템인 KNetIRS를 설계 및 구현한다. 키워드망은 문서로부터 직접 추출한 키워드들로 구성된다. KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 키워드망 브라우저(Keyword Network Browser)를 사용하여 질의를 확장하고, 분할 연산(spilt function)을 정의하여 "정보 검색", "정보", 그리고 "검색"과 같은 복합어에 관한 처리를 한다.

  • PDF

Analyzing the correlation of Spam Recall and Thesaurus

  • Kang, Sin-Jae;Kim, Jong-Wan
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2005년도 6th 2005 International Conference on Computers, Communications and System
    • /
    • pp.21-25
    • /
    • 2005
  • In this paper, we constructed a two-phase spam-mail filtering system based on the lexical and conceptual information. There are two kinds of information that can distinguish the spam mail from the legitimate mail. The definite information is the mail sender's information, URL, a certain spam list, and the less definite information is the word list and concept codes extracted from the mail body. We first classified the spam mail by using the definite information, and then used the less definite information. We used the lexical information and concept codes contained in the email body for SVM learning in the $2^{nd}$ phase. According to our results the spam precision was increased if more lexical information was used as features, and the spam recall was increased when the concept codes were included in features as well.

  • PDF

한국어 구어 음성 언어 이해 모델에 관한 연구 (A Study on Korean Spoken Language Understanding Model)

  • 노용완;홍광석
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2435-2438
    • /
    • 2003
  • In this paper, we propose a Korean speech understanding model using dictionary and thesaurus. The proposed model search the dictionary for the same word with in input text. If it is not in the dictionary, the proposed model search the high level words in the high level word dictionary based on the thesaurus. We compare the probability of sentence understanding model with threshold probability, and we'll get the speech understanding rate. We evaluated the performance of the sentence speech understanding system by applying twenty questions game. As the experiment results, we got sentence speech understanding accuracy of 79.8%. In this case probability of high level word is 0.9 and threshold probability is 0.38.

  • PDF

전문용어기반 eDocument 관리 방안에 관한 연구 (A Study on eDocument Management Using Professional Terminologies)

  • 김명옥
    • 한국전자거래학회지
    • /
    • 제7권2호
    • /
    • pp.21-38
    • /
    • 2002
  • Document retrieval (DR) has been a serious issue for long in the field of Office Information Management. Nowadays, our daily work is becoming heavily dependent on the usage of information collected from the internet, and the DR methods on the Web has become an important issue which is studied more than any other topic by many researchers. The main purpose of this study is to develop a model to manage business documents by integrating three major methodologies used in the field of electronic library and information retrieval: Metadata, Thesaurus, and Index/Reversed Index. In addition, we have added a new concept of eDocument, which consists of metadata about unit documents and/or unit document themselves. eDocument is introduced as a way to utilize existing document sources. The core concepts and structures of the model were introduced, and the architecture of the eDocument management system has been proposed. Test (simulation) result of the model and the direction for the future studies were also mentioned.

  • PDF

용어의 자동분류에 관한 연구 (A Study on Automatic Keyword Classification)

  • 서은경
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.78-99
    • /
    • 1984
  • 본 논문은 기계가독형 데이타베이스를 탐색하는 자연어 정보검색 시스템에서 검색용 디소오러스를 이용하면 정보검색효율이 향상된다는 전제하에, 검색용 디스오러스 자동 작성방법 중의 하나인 용어 다동분류를 우리말 용어에 적용시켜 실험하였고, 이 결과로 형성된 용어군의 응용방법을 제시하였다. 용어자동분류는 용어사이에 존재하는 어의적 관계가 한 문장에서 출현하는 용어의 통계적 양상에 근거하여 밝혀질 수 있다는 가설하에 세워진 방법으로, 본 논문에서는 심리학 분야의 국내 학술잡지중 초록이 수록된 4개의 잡지를 실험대상잡지로 선택하였다.

  • PDF

자동화추론의 성능개선을 위한 퍼지관계요구의 응용 및 구현 (Application and Implementation of Fuzzy Relational Request for Improving the Performance of Automated Reasoning)

  • 조재희;진정애;김용기
    • 한국정보처리학회논문지
    • /
    • 제5권8호
    • /
    • pp.2050-2060
    • /
    • 1998
  • 가중치전략(weighting strategy)은 인공지능의 한 분야인 자동화추론(automated resaonnimg) 분야에서, 허용 가능한 시간과 기억공간내에서 해를 구하기 위해서 필수적으로 사용되는 방법이다. 그러나 가중치전략의 적용은 문제에 대한 사용자의 지식이나 경험에 주로 의존할 뿐 아니라, 각각의 단계에서 프로그램화되지 못하여 수작업으로인한 시간의 소모가 많다. 수작업을 필요로 하던 기존의 시스템을 자동화하여, 관계계층구조(thesaurus)를 시스템이 자동으로 구축하는 도구를 개발하고, 이를 기존의 자동정리증명기에 통합하여, 그 성능을 개선하는 시스템을 제안한다.

  • PDF

IMO문서의 효과적 관리를 위한 국내.외 정보시스템 동향 분석 (Tendency Analysis of Information System for Effectively Management of IMO Document)

  • 장운재;장승도;조민철
    • 선박안전
    • /
    • 통권33호
    • /
    • pp.63-73
    • /
    • 2012
  • The Ministry of Land, Transport and Maritime Affairs(MLTM) constructed the IMO Korea homepage to owned jointly IMO information when establishing a international standard in about marine transport and the shipbuilding, in order to speak for the profit of Korea in IMO and it was double renewal since 2004. But the newly re-opened the IMO Korea homepage is also operated to the level which simply keeps IMO documents because of limited H/W sizes. This study investigated and analyzed the domestic and similar foreign homepages to provide effectively about the IMO informations At the result, these homepages were serviced to the meeting resultants using the various contents such as Semantic search, Thesaurus search, establishment of web accessible etc. Therefore, the existing IMO Korea homepage must be re-constructed as IMO Information Portal Site to provide better information.

  • PDF