• 제목/요약/키워드: 사전세분화

검색결과 86건 처리시간 0.023초

기계학습과 사전을 이용한 개체명 세분화 (Fine Grained Classification of Named Entities Using Machine Learning and Dictionary)

  • 이기중;이도길;임해창;임수종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.519-521
    • /
    • 2003
  • 개체명 인식은 효과적인 정보추출 시스템을 구축하기 위해 반드시 선행되어야 하는 작업이다. 지금까지의 개체명 인식에 관한 연구는 인명이나 조직, 장소와 같은 일반적인 개체명 인식 작업이 대부분이었다. 그러나, 효과적인 정보추출을 위해서는 이런 일반적인 개체명들을 더욱 세분화할 필요가 있다. 본 논문에서는 SVM기반 기계학습법과 기구축된 사전과의 편집거리 비교법을 이용하여 개체명을 세분화하는 방법을 제시한다. 실험은 개체명과 세분화된 범주가 부착된 공연 관련 문서 100개 중 80개는 학습집합, 20개는 실험집합으로 사용하였고 성능 평가 척도는 정확도(accuracy)를 이용해 개별적으로 평가하였다. 실험 결과 기계학습법과 사전을 이용한 방법을 결합한 모델이 가장 좋은 성능(정확도 72.91%)을 보였다.

  • PDF

사전 세분화를 통한 고객 분류모형의 효과성 제고에 관한 연구 (Improving the Effectiveness of Customer Classification Models: A Pre-segmentation Approach)

  • 장남식
    • 경영정보학연구
    • /
    • 제7권2호
    • /
    • pp.23-40
    • /
    • 2005
  • 시장에서의 경쟁이 점차 심화되고 서비스나 상품에 대한 고객들의 요구와 기대치가 증가함에 따라 기업들에 있어 과학적인 데이터 분석에 근거한 경영전략 수립 및 실행의 필요성이 어느 때보다 크게 강조되고 있다. 그러나 인적자원과 및 자금 등을 포함한 가용자원은 한정적이기 때문에 이들 자원을 얼마나 효율적으로 사용하여 효과적인 결과를 획득하는가가 기업 성패를 좌우하는 주요 지표가 되고있다. 본 연구에서는 선택과 집중적 자원 배분이라는 이슈에 초점을 맞춰 사전 세분화를 통해 선정된 고객 군만을 대상으로 고객의 특성을 파악하고 관리하는 방안이 전체 고객을 대상으로 하는 것보다 보다 의미가 있다는 것을 실제 현업데이터를 통해 검증하고자 하였다. 이를 위해 카드사, 이동통신사, 보험사의 고객 인적데이터 및 거래데이터를 수집하였고, 통계분석과 현업전문가의 의견을 수렴해 고객 세분화를 수행하였으며, 각 세분 군별로 데이터마이닝의 의사결정나무 기법을 이용해 해지모형을 구축하여 전체 고객을 대상으로 한 모형과 정분류율과 규칙의 간결성 측면에서 비교 평가하였다. 결과적으로 세분 군별 해지모형이 전체 고객대상 모형에 비해 정분류율은 높거나 비슷한 수준을 유지하면서 보다 간결하고 의미있는 규칙을 제공하였다.

한국어 지명 인식 처리를 위한 사전기반의 규칙 적용을 위한 세분화된 시스템 연구 (A Study on Recognition of Korean Place Names System on the Internet by Using the Rules of Dictionary Use)

  • 장혜숙;정규철;이진관;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.301-304
    • /
    • 2005
  • 문서의 내용을 대표하는 용어를 추출하는데 있어서 반드시 선행되어야 할 작업이 개체명 인식이다. 개체명의 범주로는 인명, 지명, 단체명, 시간, 날짜등이 있다. 높은 신뢰도의 개체명 인식은 정보추출 시스템구축을 한 차원 높일 수 있을 것이다. 일반적인 개체명 인식이나 인명의 개체명 인식에 대한 연구는 활발하게 진행되어 왔다.. 그러나 세분화된 지명 인식의 연구는 다루어지지 않았다. 본 논문에서는 한국어 지명 인식 처리를 위한 사전기반의 세분화된 규칙 적용 시스템 연구방법을 제안하고자 한다.

  • PDF

규칙을 적용하여 세분화한 사전기반의 한국어 지명인식 시스템 연구 (A Study on Recognition of Korean Place Names System on the Internet by Using the Rules of Dictionary Use)

  • 장혜숙;정규철;이진관;박기홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.1097-1100
    • /
    • 2005
  • 개체명 인식에 있어서 반드시 선행되어야 할 작업이 문서의 내용을 대표하는 용어의 추출이다. 높은 신뢰도의 개체명 인식은 정보추출 시스템구축을 한 차원 높일 수 있을 것이다. 지금까지 일반적인 개체명 인식이나 인명의 개체명 인식에 대한 많은 연구가 활발하게 진행되어 왔지만 세분화된 지명 인식의 연구는 다루어지지 않았다. 본 논문에서는 수작업으로 작성된 규칙을 적용하여 세분화한 사전기반의 한국어 지명인식 시스템 개발 방법을 제안한다.

  • PDF

한영 기계 번역을 위한 조사 사전 구성에 관한 연구 (The Study of Josa Dictionary Construction for Korean-English Machine Translation)

  • 최재혁;김권양;박상규;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.219-224
    • /
    • 1989
  • 본 연구는 한영 기계 번역을 위한 사전 중에서 한국어 조사 사전에 대한 모델을 제시하였다. 특히 정확한 역어 선택을 위한 제약정보를 수집하는데 중점을 두었다. 지금까지의 한국어 조사에 대한 역어 선택 방법은 체언의 속성 정보에 의한 역어 선택과 default 역어의 선택이었다. 그러나 한국어의 한 조사에 대응하는 영어의 전치사의 수가 너무 많음으로 인하여 이러한 기존의 방법을 사용할 경우 고질의 변역은 기대할 수 없다. 따라서 본 논문에서는 정확한 역어의 선택을 위하여 조사의 격 분류와 체언의 속성 정보를 더욱 세분화 시키고, 이를 이용한 용언의 기본 구문 패턴을 재정립하였다. 또한 한 두개의 default 역어로 인한 번역의 부 정확성을 탈피하기 위하여 default 역어 및 체언의 속성 정보에 의한 역어를 용언의 의미적 분류에 의해 더욱 세분화시킴으로써 정확한 역어를 선택하는 방법을 제시하였다.

  • PDF

격틀 구조에 기반한 유사 동사 추출 (Similar Verb Words Extraction based on their Case Frame Structure)

  • 조정현;정현기;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.219-224
    • /
    • 2009
  • 한국어 Propbank를 구축하기 위해서는 유사 동사를 군집화하고 군집에 포함되는 동사들의 구문 및 의미 특성을 모아놓은 정보가 필요하다. 본 연구에서는 이러한 군집화의 초기 단계로써 개별 동사들의 격틀 구조에 기반하여 동사간의 유사도를 추정하여 유사 동사를 추출하고자 하였다. 본 연구는 개별 동사의 격틀 정보를 추출하기 위하여 세종 계획의 용언 사전과 KAIST 언어자원의 동사 격틀 사전을 활용하였다. 또한 격틀을 세분화하여 보다 상세한 격틀 정보를 생성하기 위하여 격틀이 가지고 있는 논항의 특성을 활용하였다. 동사의 유사도를 측정하기 위하여 개별 동사들은 벡터로 표현하였고, 벡터의 원소는 해당 동사가 다른 동사와 세분화된 격틀을 공유하는 정도로 하였다. 실험에서는 두 용언 사전에서 개별적으로 위의 과정을 진행하여 각 동사와 유사한 동사들을 추출하였다.

  • PDF

자동차보험 신뢰도 적용에 대한 베이지안 추론 방식 연구 (A study of Bayesian inference on auto insurance credibility application)

  • 김명준;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.689-699
    • /
    • 2013
  • 본 연구는 가격 경쟁으로 인하여 최근 들어 요율 세분화가 심화되고 있는 자동차보험 시장에서, 부분 신뢰도의 적용 대상에 대한 경험적 사전분포 (empirical prior distribution) 함수 또는 무정보적 사전분포 (noninformative prior distribution) 정보의 가정을 통한 신뢰도 산출 방식에 대하여 살펴보았다. 요율 세분화의 확대로 가격 산출 단위의 수가 증가될 경우, 부분 신뢰도의 적용 대상은 점차 증가되게 될 것으로 판단되기 때문에, 기존에 제시된 신뢰도 적용 방식을 베이지안 프레임에서 적용, 추론함으로써 보다 다양하고 정교한 방식으로 그 활용 범위를 넓히고자 한다. 즉, 경험적으로 사용되는 사전 분포함수 또는 무정보적 사전 정보를 통하여 적절한 사후분포 (posterior distribution)함수를 도출하고 오차를 최소화하는 베이즈 통계량을 적용한 신뢰도를 추정하여 적용함으로써, 위험도 예측에 있어 기존에 제시된 방법과 비교하여 그 효용성을 입증하고자 한다. 현재 가장 많이 활용되는 제곱근 법칙 (square root rule)의 신뢰도 추정 방식에 베이지안 추론에서 도출된 통계량을 반영한 결과를 분석하여 실질적인 위험도에 수렴하는 수준을 비교하게 된다. 이는 이론적으로 위험도 예측에서 오차를 줄이는 방식에 대한 대안 제시와 더불어 신뢰도 적용 방식에 대한 추가적인 활용 대안을 보험업계에 제시함으로써 요율 세분화로 인한 부분 신뢰도 적용방식에 대한 그 이해와 활용의 폭을 넓히고자 한다.

한국학술지인용색인(KCI)의 인문학, 사회과학, 예술체육 분야 저자키워드의 의미적 관계 유형 최적화 연구 (A Study on the Optimization of Semantic Relation of Author Keywords in Humanities, Social Sciences, and Art and Sport of the Korea Citation Index (KCI))

  • 고영만;송민선;이승준
    • 한국문헌정보학회지
    • /
    • 제49권1호
    • /
    • pp.45-67
    • /
    • 2015
  • 본 연구의 목적은 KCI의 인문, 사회, 예술체육 분야 저자키워드를 기반으로 구축한 구조적 학술용어사전 데이터베이스 시스템 STNet에 실제 입력된 용어들의 의미적 관계들을 분석하여 관계 유형을 최적화하고 관계명을 세분화하는 방안을 기술하는 것이다. 분석 결과, 관계 유형과 관계명을 최적화하기 위해서는 빈도수에 의한 관계명 신설 또는 관계의 유형화 제한, 관계의 방향성 고려, 기존 관계명 반영의 4가지 논리적 기준이 필요한 것으로 나타났다. STNet의 "실존인물" 클래스를 테스트베드로 삼아 이 기준을 적용해 관계 유형을 최적화하고 관계명을 세분화한 결과 원래 RT, RT_X, RT_Y로 연결된 1,743건의 관계 중 1,135건이 세분화되는 것으로 나타났다. 이는 약 65%의 RT 관계가 구체화된 것으로 사전 구축 및 검색 단계에서의 유용성 측면에서 상당한 의미가 있음을 보여주는 것이다.

소비자 분석을 위한 감성사전 모델링 (Sentiment lexicon modeling for consumer analysis)

  • 이재웅;윤현노;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.850-853
    • /
    • 2017
  • 본 논문은, 크롤링을 통해 얻은 비정형 데이터를 'Python'의 'KoNLPy' 라이브러리를 사용해 형태소 분석한 후 텍스트 마이닝을 통한 감성사전 구축을 목표로 하고 있으며, 형태소들의 빈도수를 기반으로 가중치로 두어 선별된 단어들을 이용해 긍정과 부정으로 나누어 카테고리화 한다. 이후, 선별한 카테고리에 단어의 극성을 판단하여 감성사전을 모델링한다. 실험을 위하여, 온라인 쇼핑몰 리뷰를 크롤링하여 비정형 데이터를 수집하고, 수집한 데이터를 분석, 가공 과정을 거쳐 정형화된 단어를 추출한다. 그 후에, 리뷰에 자주 사용되는 단어를 바탕으로 카테고리를 구성하였다. 구성된 카테고리 별로 단어의 극성을 판단하여 소비자 성향을 분석한 결과, 단순히 긍정과 부정을 표현하는 범용 감성사전보다 더 세분화된 감성 사전을 구축 할 수 있었다.