• 제목/요약/키워드: 평가규칙

검색결과 1,019건 처리시간 0.051초

한국어 문서에서 개체명 인식에 관한 연구 (Study on Named Entity Recognition in Korean Text)

  • 이경희;이주호;최명석;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.292-299
    • /
    • 2000
  • 본 논문에서는 개체명 사전과 결합 단어 사전, 그리고 용언의 하위범주화 사전을 이용하는 규칙 기반의 한국어 개체명 인식 방법을 제안한다. 각 규칙은 네 단계로 나누어 적용되는데, 첫번째 단계에서는 어절 내의 단어 정보를, 두번째 단계에서는 제한된 주변 문맥 정보를, 그리고 세번째 단계에서는 용언의 하위범주화 정보와 개체명과의 관계를 이응하고, 마지막으로 네번째 단계에서는 개체명 간의 관계 정보를 고려한다. 본 논문에서 제안한 규칙 기반 개체명 인식기의 성능을 평가하기 위해 실험한 결과 90.4%의 정화률과 83.4%의 재현율을 얻었다.

  • PDF

유전자 알고리즘을 이용한 통합의학언어시스템(UMLS)의 의미망 자동 군집 방법 (Semantic Network Automatic Clustering Method of the Unified Medical Language System Using Genetic Algorithm)

  • 지영신;김태준;전혜경;정헌만;이정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.82-84
    • /
    • 2003
  • UMLS 의미망은 크기가 방대하고 복잡하여 사용자가 이해하기가 어렵고 화면상에 모든 의미망을 모두 표현할 수 없다는 단점을 가지고 있다. 이 문제를 해결하기 위해 의미망을 효율적으로 분할하기 위한 규칙들이 소개되고 있지만 이것은 UMLS 의미망이 수정될 때마다 규칙을 적용하여 수작업으로 분류를 해야한다는 단점이 있다. 이 문제점을 해결하기 위해 유전자 알고리즘을 이용한 UMLS 의미망의 자동 군집화 방법을 제안한다. 제안한 방법은 각각의 의미유형 간의 연결된 의미관계를 사용하여 의미망을 구조적으로 유사한 의미유형 집합들로 군집화하고 규칙에 의한 군집 방법의 결과 비교 평가한다.

  • PDF

림프종 암의 정확한 분류를 위한 산술연산자 분류규칙의 결합 (Ensemble of Classification Rules with Arithmetic Operators for the Accurate Classification of Lymphoma Cancer)

  • 홍진혁;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.202-204
    • /
    • 2004
  • 앙상블은 다수의 분류기를 효과적으로 결합하여 분류의 성능을 향상시키는 대표적인 기술이다. 효과적인 앙상블을 위해서는 다양한 특성을 지닌 분류기를 확보하여야 한다. 기존의 앙상블은 개별 분류기의 결과를 바탕으로 분류기 사이의 의존성이나 유사성을 평가하여 분류기 결합을 시도하였다. 따라서 분류기 사이의 유사도의 정확한 측정에 한계를 지니고 있다. 본 연구에서는 이를 극복하기 위해서 다수의 산술연산자 기반 분류규칙을 유전자 프로그래밍을 이용하여 획득하고, 실제 표현형의 유사성을 측정한 후 이를 바탕으로 분류기를 결합한다. 생물정보학에서 많이 사용되는 유전자 데이터 중 하나인 림포마 암 데이터에 제안하는 방법을 적용하여 97% 수준의 높은 분류 성능과 해석 가능한 분류규칙을 획득하였다.

  • PDF

수량 연관규칙 생성을 위한 데이터의 지역성을 고려한 효과적인 알고리즘 제안 (An Efficient Algorithm Using the locality of Data for Mining Quantitative Association Rules)

  • 이혜정;박원환;박두순
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.126-129
    • /
    • 2003
  • 최근 대용량의 데이터베이스로부터 연관규칙을 발견하여 이를 활용하는 단계에서 이러한 연관규칙을 수량항목에도 적용할 수 있도록 확장하는 연구가 소개되고 있다. 본 논문에서는 수량 항목을 이진항목으로 변환하기 위하여 빈발구간 항목집합(Large Interval Itemsets)을 생성할 때 수량 항목이 특정 영역에 집중하여 발생하거나 골고루 분포되어 있지 않은 경우, 이러한 지역성(locality)을 고려하여 빈발구간 항목집합을 생성하는 방법을 제안한다. 이 방법은 기존의 방법보다 많은 수의 세밀한 빈발구간 항목들을 생성할 수 있을 뿐만 아니라 의미 있는 구간을 중심으로 빈발구간 항목들이 순서대로 생성되기 때문에 세밀도를 판단하여 활용할 수 있으며, 원 데이터가 가지고 있는 특성의 손실을 최소화할 수 있는 특징이 있다 또한 인구센서스등 실 데이터를 사용한 성능평가를 통하여 기존의 방법보다 우수함을 보였다.

  • PDF

의사결정트리에서 공간사건 예측을 위한 리프노드 등급 결정 방법 분석 (Analysis of Leaf Node Ranking Methods for Spatial Event Prediction)

  • 연영광
    • 한국지리정보학회지
    • /
    • 제17권4호
    • /
    • pp.101-111
    • /
    • 2014
  • 공간사건들은 데이터마이닝 분류알고리즘을 이용하여 예측 가능하며, 의사결정 트리는 대표적인 분류알고리즘들 중 하나로 사용되고 있다. 의사결정 트리는 레이블 값을 갖는 분류작업에 주로 사용되었으나 규칙평가 기법을 트리 리프노드 등급 계산에 응용하면서부터 공간사건 예측에 이용되고 있다. 이 논문에서는 의사결정 트리에서 사용되는 규칙평가 방법들을 공간예측에 적용하여 비교하였다. 실험을 위해 의사결정 트리 알고리즘인 C4.5알고리즘과 규칙 평가기법인 Laplace, M-estimate 및 m-branch 기법들을 구현하여 자연환경에서 발생되는 대표적인 공간예측 응용분야인 산사태에 적용하였다. 적용한 규칙 평가 기법들의 정확도 평가결과, 그 특성에 따라 정확도의 차이가 있었으며 m-branch가 가장 높은 성능을 보였다. 그러나 m-branch 및 M-estimate와 같이 별도의 파라미터를 갖는 경우 반복적으로 최적의 파라미터 값을 찾는 과정을 요구하였다. 따라서 적용 대상에 따라 선택적으로 활용할 수 있다. 이러한 의사결정 트리를 이용한 공간예측은 예측 결과뿐만 아니라 특정 위치에서의 예측결과에 대한 원인분석을 가능하게 함으로 다양한 응용을 가능하게 한다.

연관성 규칙에서 활용 가능한 대칭적 기여 순수 신뢰도의 개발 (The development of symmetrically and attributably pure confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권3호
    • /
    • pp.601-609
    • /
    • 2014
  • 빅 데이터 분석을 위한 데이터마이닝 기법 중의 하나인 연관성 규칙은 지지도, 신뢰도, 향상도 등의 여러 가지 연관성 평가기준을 기반으로 하여 항목집합들 간의 관련성을 찾아내는 데 활용되고 있다. 기본적인 연관성 평가기준들 중에서 가장 많이 활용되고 있는 신뢰도는 연관성의 방향 (음 또는 양)을 알 수가 없다는 단점을 가지고 있다. 이를 보완하기 위한 측도로 순수 신뢰도 기여 순수 신뢰도가 제안되었으나, 이는 전항과 후항이 바뀌면 그 값이 달라지는 문제점이 있다. 본 논문에서는 기존의 신뢰도와 순수 신뢰도, 그리고 기여 순수 신뢰도의 단점을 보완한 연관성 평가 기준으로 네 가지의 대칭적 기여 순수 신뢰도를 제안하였다. 또한 신뢰도와 기여 순수 신뢰도, 그리고 네 가지의 대칭적 기여 순수 신뢰도를 예제를 통하여 비교 분석하였다. 그 결과, 대칭적 기여 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 파악할 수 있는 동시에 전항과 후항이 바뀌어도 그 값이 변하지 않으므로 연관성 규칙을 생성하는 데 매우 유익한 평가 기준이라는 사실을 확인할 수 있었다. 이들 네 가지 대칭적 기여 순수 신뢰도 중에서는 두 종류의 기여 순수 신뢰도의 분자의 합과 분모의 합의 비로 나타나는 측도가 가장 바람직한 것으로 예제를 통하여 확인하였다.

단백질 구조 예측을 위한 서열 연관 규칙 탐사 (Discovering Sequence Association Rules for Protein Structure Prediction)

  • 김정자;이도헌;백윤주
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.553-560
    • /
    • 2001
  • 바이오정보학(bioinformatic)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 유전체 연구의 다양한 접근 방식 중 단백체학(proteomics)는 유전체의 최종 산물인 단백질을 직접적으로 다룬다는 측면에서 그 효용성에 대해 많은 기대를 모으고 있다. 본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 구조를 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에 타나나는 부서열간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열간의 연관성을 표현하기 위한 모델로서 서열 연관 규직을 정의한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 주어진 단백질 집단으로부터 유용한 서열 연관 규칙을 발견하기 위한 기법을 제안한다. 아울러, SWISS-PROT 단백질 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 성능을 평가한다.

  • PDF

다중상황의 군집분석과 연관규칙을 이용한 지식추론 모델 (Knowledge Reasoning Model using Association Rules and Clustering Analysis of Multi-Context)

  • 신동훈;김민정;오상엽;정경용
    • 한국융합학회논문지
    • /
    • 제10권9호
    • /
    • pp.11-16
    • /
    • 2019
  • 사람들은 바쁜 현대사회 속에서 시간적 제재를 받고 있다. 이에 따라 사람들은 건강에 나쁜 영향을 미치는 간편한 인스턴트 식품을 섭취하고 간단한 운동조차하기 어려운 상황에 놓여있다. 또한 불필요한 정보과부화 현상으로 인해 개인의 특성에 적합하고 정확한 추론을 하는 것에 대한 중요성이 커지고 있다. 따라서 본 논문에서는 다중상황의 군집분석과 연관규칙을 이용한 지식추론 모델을 제안한다. 제안하는 방법은 상황정보에 따른 군집을 기반으로 연관규칙을 생성함으로써 사용자들에게 개인화된 헬스케어 방법을 제공한다. 이를 통해 각 질병에 대한 위험도를 추론함으로써 해당 질병에 대한 발병률을 낮출 수 있다. 또한 성능 평가를 통해 제안하는 모델이 비교 모델보다 수치상으로 F-measure 값이 0.027 더 높게 나타나며, 비교 모델 보다 우수하게 평가된다.

질의 기반 사용자 감정상태 예측 (Query-based User Emotion Prediction)

  • 민혜진;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.211-214
    • /
    • 2014
  • 본 연구에서는 질의를 기반으로 사용자의 감정상태를 예측하는 방법을 제안한다. 제안방법은 자극-감정 규칙베이스 구축, 규칙확률 값 기반 질의 랭킹, 질의 랭킹 기반 사용자 감정예측의 단계로 구성된다. 방법의 적절성을 검증하기 위하여 힘들다와 심심하다에 대한 결과로 사용자평가를 실시하였다. 힘들다의 결과에서는 힘들다 정도에 대한 점수가 높은 질의들을 지속적으로 검색하는 사용자들을 힘들다라고 판단할 수 있다고 분석되었다. 심심하다의 결과에서는 방법 간 유의미한 차이를 보이지 않았으나, 특정 개별질의의 지속적인 패턴을 분석하는 것이 좀 더 높은 점수를 얻은 것으로 평가되었다.

  • PDF

한국어에서 Viterbi 형태소 복원 (Viterbi Morpheme Restoration in Korean)

  • 이제승;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.536-539
    • /
    • 2021
  • 본 논문은 한국어에서 형태소 복원을 위한 새로운 방법을 제안한다. 일반적으로 기계학습 기반 형태소 분석에서 형태소 복원은 기분석 사전과 약간의 경험규칙을 이용한다. 이와 같은 방법은 모호성을 해결하기 위해 사전에 모든 정보를 저장하는 것이 불가능할 뿐 아니라 단음절 이형태의 모호성을 해결할 수 없을 것이다. 이러한 문제를 완화하기 위해 본 논문에서는 생성된 모호성을 Viterbi 알고리즘을 이용해서 해소한다. 본 논문의 형태소 복원 과정은 기본적으로 기분석 사전과 약간의 경험규칙을 이용하여 형태소 복원 후보를 찾고 여러 후보가 있을 경우(모호성의 생성), 그 결과를 Viterbi 알고리즘으로 이형태를 결정한다. 실험을 위해 모두의 말뭉치(형태 분석)를 사용하고, 평가는 NER 방식으로 평가한다. 그 결과 품사 부착에 대해 96.28%정도의 성능을 보여주었다.

  • PDF