• Title/Summary/Keyword: 용어추출

Search Result 365, Processing Time 0.024 seconds

방재기상정보 DB를 활용한 김해시 자연재해 특성사례 분석

  • Park, Jong-Gil;Jeong, U-Sik;Choe, Hyo-Jin;Kim, Seok-Cheol;Park, Hwang-Su;Gu, Hyeon-O
    • Proceedings of the Korean Environmental Sciences Society Conference
    • /
    • 2007.05a
    • /
    • pp.227-230
    • /
    • 2007
  • 1985년-2004년 동안의 재해연보 자료를 전산화하여 필요한 자료를 프로그램을 이용하여 추출하고 분석할 수 있도록 자연재해 Database를 Table 2와 같이 구축하였다. 이 DB는 매년 발생하는 피해에 대하여 updata 해야 하는 자료이므로 피해액을 당해연도 기준으로 사용하였으며, 기존의 재해연보를 입력하는 과정에서 총 피해액 합계의 오류와 지난 20년간의 행정구역의 변화를 재정리한데 의의가 있다. 또한 기상연보와 재해연보를 비교하는 과정에서 재해 발생빈도가 원인별로 일치하지 않은 점을 발견하여 기상연보에는 있으나 재해연보에는 없는 사건을 DB에 추가하였다. DB를 구축하는데 있어 가장 어려운 부분은 용어와 분류에 대한 기준을 정하는 과정과 사용하는 자료마다 수치가 달랐다는 점이다. 자연재해 피해 자료를 기재하는 일정한 기준을 마련하여 앞으로 만들어질 피해자료가 좀 더 체계적으로 분류되어야 한다. 또한 김해시에서 1,000억원이 넘는 피해를 입힌 호우와 태풍 사례에 대하여 우심지역으로 분석된 한림면과 상동면, 생림면은 김해시 내에서도 특히 사전재해저감계획을 수립하여 매년 같은 피해를 입지 않도록 노력해야 한다.

  • PDF

Finding Meaningful Chronological Pattern of Key Words in Computer Science Bibliography (K-평균 군집화 기법을 활용한 DBLP 논문 서지정보의 연대별 출현 패턴 연구)

  • Heo, Joo-Seong;Im, Hyeon-Gyo;Kim, Gyeong-Han;Han, Youn-Hee
    • Annual Conference of KIPS
    • /
    • 2016.10a
    • /
    • pp.542-545
    • /
    • 2016
  • 컴퓨터공학 분야의 논문 정보를 다루고 있는 대표적인 사이트인 DBLP의 연구 동향을 알아보기 위해 본 논문에서는 약 300만개 이상의 논문 서지정보 가져와 분석했다. IT용어 사전을 만들고 각 논문의 제목과 초록에 포함된 주제어를 추출해 분석을 위한 고차원의 행렬을 만들고, k-평균 군집화 기법을 활용하여 1960년도부터 2010년도까지 총 60여 년간의 연대별 주제어 출현 패턴을 분석함으로써 흥미로운 결과를 도출해 냈다.

Analysis on the author keywords in the scientific articles (과학기술 논문의 저자 키워드 분석)

  • Kim, Tae-Jung;Lee, Seok-Hyoung;Kim, Kwang-Young;Kim, Hwanmin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2014.11a
    • /
    • pp.53-54
    • /
    • 2014
  • 대부분 국내에서 발행되는 과학기술 분야의 논문에는 저자 키워드가 포함되어 있다. 이 키워드는 논문을 이해를 돕고 온라인 검색에 유용하게 활용되고 있다. 특히 많은 논문에서 키워드를 영문과 국문을 동시에 부여하도록 하고 있어 과학기술 용어로서의 가치도 있다. 일정 기간 국내에서 발행되는 논문으로부터 저자 키워드들을 추출하여 다양한 각도에서 부여 키워드의 현황을 분석하였다. 결론으로 바람직한 키워드 부여의 방향을 제시한다.

  • PDF

Learning User Profile with Reinforcement Learning (강화학습 기반 사용자 프로파일 학습)

  • 김영란;한현구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.325-327
    • /
    • 2002
  • 정보검색 태스크에서 사용자 모델링의 목적은 관련정보 검색을 용이하게 해주기 위하여 사용자의 관심도 또는 필요정보의 모델을 학습하는 것으로 시간적인 속성(temporal characteristics)을 가지며 관심 이동을 적절하게 반영하여야 한다. 강화학습은 정답이 주어지지 않고 사용자의 평가만이 수치적으로 주어지는 환경에서 평가를 최대화 한다는 목표를 가지므로 사용자 프로파일 학습에 적용할 수 있다. 본 논문에서는 사용자가 문서에 대해 행하는 일련의 행위를 평가값으로 하여 사용자가 선호하는 용어를 추출한 후, 사용자 프로파일을 강화학습 알고리즘으로 학습하는 방법을 제안한다. 사용자의 선호도에 적응하는 능력을 유지하기 위하여 지역 최대값들을 피할 수 있고, 가장 좋은 장기간 최적정책에 수렴하는 R-Learning을 적용한다. R-learning은 할인된 보상값의 최적화보다 평균 보상값을 최적화하기 때문에 장기적인 사용자 모델링에 적합하다는 것을 제시한다.

  • PDF

Term Weighting Using Date Information and Its Appliance in Automatic Text Classification (날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류)

  • Shim, Bojun;Park, Jinwoo;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.169-173
    • /
    • 2007
  • 문장을 구성하는 단어들은 문장의 의미를 표출하는 데에 있어서 모두 같은 크기의 중요도를 갖지는 않는다. 따라서, 정보검색 분야에서는 오랫동안 단어에 부여할 서로 다른 가중치를 구하는 다양한 전략을 연구해 왔다. 매우 일반적인 기능어들은 불용어로 분류하여 고려 대상에서 제외하기도 하고, 개체명 추출기를 이용하여 고유명사에 높은 가중치를 부여하거나, TF-IDF와 같이 단어가 문서 집합에 출현하는 양상과 빈도를 고려하여 가중치를 구하는 전략을 사용하기도 한다. 이와 같은 연구들에서는 같은 단어라면 어떤 상황에서도 변하지 않는 가중치를 가지게 된다. 본 논문에서는 같은 단어라 할지라도 날짜에 따라서, 어떤 날짜에는 중요한 단어이므로 높은 가중치를 받지만, 다른 날짜에는 낮은 가중치를 부여하는 전략을 제안하고 있다. 이 방법은 모든 정보검색 작업에서 사용할 수 있는 범용적인 전략이다. 본 연구에서는 특히, 문서분류 작업에 제안 방법을 적용했을 때, 제안 방법을 적용하지 않은 기본 시스템보다 분류 정확성이 더 향상되는 것을 실험을 통해서 확인하였다.

  • PDF

Research for Interlink Retrieval of Patent and Technical Information (특허 및 기술정보의 연계 검색에 관한 연구)

  • Song, J.C.;Hong, G.C.;Lee, S.Y.;Kang, Y.H.
    • Electronics and Telecommunications Trends
    • /
    • v.16 no.5 s.71
    • /
    • pp.143-150
    • /
    • 2001
  • 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어 짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 고에서는 사용자의 특허검색 과정에서 특허와 관련된 기술 문서를 동시에 검색이 용이하도록 지원하는 시스템의 개발에 대하여 논하고자 한다. 특허 및 기술정보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.

A Design and Implementation of Malicious Web Log Identification System by Using SVM (SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현)

  • Kim, Myo-Sil;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.285-289
    • /
    • 2006
  • 댓글은 온라인 상에서 자신의 의견을 달고 다른 사람의 의견을 공유함으로써 필요한 정보를 쉽고 빠르게 얻을 수 있다. 본 논문에서는 익명성을 이용해서 특정인을 근거 없이 비방하거나 명예를 훼손하는 악성 댓글을 판단하는 시스템을 구현한다. 자질의 추출 방법을 여러 가지로 실험하여 동사, 형용사 등을 추가했을 때 자질의 출현빈도를 이용한 가중치를 계산하고, 용어 벡터로 표현된 입력 문서를 이진 분류기(Binary Classifier)인 $SVM^{light}$을 이용하여 악성 댓글인지를 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

Automatic Document Classification Based on Word Frequency Weight (단어 빈도 가중치를 이용한 자동 문서 분류)

  • Noh, Hyun-A;Kim, Min-Soo;Kim, Soo-Hyung;Park, Hyuk-Ro
    • Annual Conference of KIPS
    • /
    • 2002.11a
    • /
    • pp.581-584
    • /
    • 2002
  • 본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

  • PDF

A Study on the Classification System of KDC for School Libraries - Focused on Vocabulary Analysis of Elementary Materials - (학교도서관을 위한 KDC 분류체계에 관한 연구 - 초등학생관련 문헌의 어휘분석을 중심으로 -)

  • Kim, Jeong-Hyen
    • Journal of Korean Library and Information Science Society
    • /
    • v.35 no.4
    • /
    • pp.171-191
    • /
    • 2004
  • This study presents revision scheme of Korean Decimal Classification appropriate for classification of children-related materials, mainly centered on social science(300) and pure science(400) occupying the majority of children-related materials in school Libraries. Towards this goal, 1 have studied the development and use of classification system for children-related materials available in domestic and overseas school libraries or children's libraries, and researched elementary school 4th, 5th, and 6th grade students' degree of understanding on classification item terms and children-related materials terms used for KDC's social science and Pure science. Based on the results of analysis, f have presented revision scheme of Korean Decimal Classification item terms and class numbers for children-related materials.

  • PDF

An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment (U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서)

  • Joo, Kil-Hong;Choi, Jin-Tak
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.9
    • /
    • pp.859-872
    • /
    • 2004
  • With the rapid advance of computer and communication techonology, the recent trend of education environment is edveloping in the ubiquitous learning (u-learning) direction that learners select and organize the contents, time and order of learning by themselves. Since the amount of education information through the internet is increasing rapidly and it is managed in document in an effective way is necessary. The document clustering is integrated documents to subject by classifying a set of documents through their similarity among them. Accordingly, the document clustering can be used in exploring and searching a document and it can increased accuracy of search. This paper proposes an efficient incremental clustering method for a set of documents increase gradually. The incremental document clustering algorithm assigns a set of new documents to the legacy clusters which have been identified in advance. In addition, to improve the correctness of the clustering, removing the stop words can be proposed.

  • PDF