• 제목/요약/키워드: 베이지언 방법

검색결과 23건 처리시간 0.024초

다항시행접근 단순 베이지안 문서분류기의 개선 (Improving Multinomial Naive Bayes Text Classifier)

  • 김상범;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.259-267
    • /
    • 2003
  • 단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다.

용어 가중치와 역범주 빈도에 의한 자동문서 범주화 (Automatic Text Categorization by Term Weighting and Inverted Category Frequency)

  • 이경찬;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

워터쉐드 영역병합을 이용한 스테레오 정합의 베이지언 접근방법 (A Bayesian Approach to Stereo Matching via Merging Watershed Regions)

  • 길우성;김신형;장종환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.809-812
    • /
    • 2005
  • 본 논문은 세그멘테이션 기반의 스테레오 정합에서 복잡한 장면 정합 시 발생되는 오 정합을 최소화 하는 방법을 제안한다. 이를 위하여, 스테레오 영상의 좌측 영상에 대해 워터쉐드 영상 분할을 이용하여 정합을 위한 feature 를 생성한 다음, 베이지언 프레임웍을 적용하여, 각각의 영역을 비슷한 변이 정보를 가진 것들로 병합한다. 생성되는 정합 패치들은 정합의 모호성이 작게 되어 오 정합이 현저히 줄어 들 뿐만 아니라, 영역간의 콘트라스트가 적은 영상에서도 신뢰할 만한 변이 영상을 생성하게 된다.

  • PDF

유전자 알고리즘과 나이브 베이지언 기법을 이용한 의료 노모그램 생성 방법 (A Clinical Nomogram Construction Method Using Genetic Algorithm and Naive Bayesian Technique)

  • 이건명;김원재;윤석중
    • 한국지능시스템학회논문지
    • /
    • 제19권6호
    • /
    • pp.796-801
    • /
    • 2009
  • 복잡한 진단이나 예측 모델은 계산이 복잡하고 추론 과정을 해석하기 어렵기 때문에 임상현장에서 널리 사용되지 않고 있다. 의료 종사자들은 이러한 복잡한 모델 대신에, 복잡한 함수를 컴퓨터 등을 사용하지 않고도 쉽게 계산할 수 있도록 수치 관계를 그래픽으로 표현한 노모그램을 사용해 왔다. 의료분야에서 질병의 진단과 질병예후의 예측은 매우 주요한 관심사이다. 노모그램은 증상검사결과치료이력질병의 진단 결과 등의 속성을 포함한 임상 데이터들로부터 만들어진다. 노모그램을 만들 때는 가용한 여러 가지 속성 중에서 효과적인 것들을 찾아야 하고, 경우에 따라서는 속성에 대한 파라미터를 함께 결정해야 한다. 이 논문에서는 효과적인 속성과 파라미터를 선택하기 위해 유전자 알고리즘을 사용하고, 노모그램을 생성하기 위해 나이브 베이지언 기법을 사용하는 방법을 제안한다. 또한 제안한 방법을 실제 임상 데이터에 적용한 결과를 보인다.

한국어 띄어쓰기 모델에서 사용자 입력을 고려한 베이지언 파라미터 추정 (Bayesian Parameter Estimation Considering User-input for Korean Word Spacing Model)

  • 이정훈;홍금원;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.5-11
    • /
    • 2008
  • 한국어 띄어쓰기에서 통계적 모델을 사용한 기존의 연구들은 최대우도추정(Maximum Likelihood Estimation)에 기반하고 있다. 그러나 최대우도추정은 자료부족 시 부정확한 결과를 주는 단점이 있다. 본 연구는 이에 대한 대안으로 사용자 입력을 고려하는 베이지언 파라미터 추정(Bayesian parameter estimation)을 제안한다. 기존 연구가 사용자 입력을 교정 대상으로만 간주한 것에 비해, 제안 방법은 사용자 입력을 교정 대상이면서 동시에 학습의 대상으로 해석한다. 제안하는 방법에서 사용자 입력은 학습 말뭉치의 자료부족에서 유발되는 부정확한 파라미터 추정(parameter estimation)을 방지하는 역할을 수행하고, 학습 말뭉치는 사용자 입력의 불확실성을 보완하는 역할을 수행한다. 실험을 통해 문어체 말뭉치, 통신환경 구어체 말뭉치, 웹 게시판 등 다양한 종류의 말뭉치와 다양한 통계적 모델에 대해 제안 방법이 효과적임을 알 수 있다.

  • PDF

컴퓨터 대수 시스템을 이용한 이공계 수학용이러닝 시스템 개발 (The Development of e-Learning System for Science and Engineering Mathematics using Computer Algebra System)

  • 박홍준;전영국;장문석
    • 정보처리학회논문지A
    • /
    • 제14A권6호
    • /
    • pp.383-390
    • /
    • 2007
  • 본 논문에서는 컴퓨터 대수 시스템과 베이지언 추론망 기반 학습자 모델을 이용하여 개발한 이공계 수학용 이러닝 시스템을 소개하였다. 이 시스템은 컴퓨터 대수 시스템 기반 수학용 콘텐츠 저작모델의 최근 모델인 동적 클라이언트 비의존형 모델을 따른다는 점과 개별 진단평가를 위한 추론 엔진으로 베이지언 추론망을 활용한 학습자 모델을 구성한다는 점에서 기존의 이러닝 시스템과 차별화된다. 이 시스템의 컴퓨터 대수 시스템 기반 저작모듈은 웹 수식표현에 관한 선지식이 없는 교수자에게 일체의 소프트웨어 지원 없이 수치계산, 기호연산, 그래픽처리가 가능한 수학 콘텐츠를 손쉽게 저작할 수 있는 환경을 제공해 주며, 베이지언 추론망을 웹과 연동되도록 구성한 평가모듈은 각 학습자의 학습영역별 학업성취도를 확률로 제시하는 것이 가능하도록 해주어, 학습자의 수준을 이원분류표와 같은 기존의 평가 방법보다 타당하고 과학적으로 진단해 준다. 이는 궁극적으로 학습자에게 보다 정확한 보충학습 내용을 제시하고, 사용자 개개인에게 가장 적합한 심화학습 내용을 적응적으로 제공해 주는 것이 가능하게 해 준다.

베이지언 정보엔트로피에 의한 불완전 의사결정 시스템의 불확실성 향상 (Uncertainty Improvement of Incomplete Decision System using Bayesian Conditional Information Entropy)

  • 최규석;박인규
    • 한국인터넷방송통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.47-54
    • /
    • 2014
  • 러프집합을 구성하는 식별불가능 관계를 표현하는 정보시스템에서 데이터의 중복이나 비일관성은 피할 수 없기 때문에 속성의 감축은 매우 중요하다. 러프집합이론에 있어서 일관적인 정보시스템과 비일관적인 정보시스템의 속성감축의 차이를 극복하고 자, 본 연구에서는 조건 및 결정속성에 대한 상관분석에 베이지언 사후확률을 적용한 새로운 불확실성 척도와 속성감축 알고리즘을 제안한다. 정보시스템의 불확실성에 대하여 제안된 척도와 기존의 조건부 정보엔트로피 척도를 비교해 본 결과, 정보시스템의 조건속성과 결정속성의 상호정보를 이용하여 속성간의 불확실성을 측정하는데 있어 제안된 방법이 조건부 정보엔트로피에 의한 방법보다 정확성이 있음을 보여준다.

협력적 여과 시스템에서 귀납 추리를 이용한 순위 결정 (Ranking by Inductive Inference in Collaborative Filtering Systems)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권9호
    • /
    • pp.659-668
    • /
    • 2010
  • 협력적 여과 시스템은 새로운 사용자의 행위를 파악하고 사용자가 흥미로워할 아이템을 추천해주기 위해서 사용자들에 대한 새로운 정보를 필요로 한다. 이러한 정보를 획득하기 위하여 협력적 여과 시스템은 기존 데이터를 기반으로 학습을 하고, 그 결과에 따라 사용자에 대한 새로운 정보를 찾아낼 수 있다. 본 논문에서는 사용자에 대한 새로운 정보를 획득하기 위한 방법으로 귀납적 추리 방법을 제안하고, 추리된 사용자의 정보를 이용하여 아이템의 순위를 결정한다. 제안된 방법에서는 귀납적 기계 학습 방법인 NMF를 이용하여 사용자를 학습시켜서 모든 사용자들을 그룹으로 군집시키고, 각 그룹으로부터 카이제곱을 이용하여 그룹의 특징을 추출한다. 다음으로, 귀납 추리 방법의 하나인 베이지언 확률모델을 이용하여 새로운 사용자가 입력한 평가값과 각 그룹의 특징을 기반으로 사용자를 적합한 그룹으로 분류한다. 마지막으로, 사용자가 결측한 아이템을 대상으로 로치오(Rocchio) 알고리즘을 적용하여 아이템의 순위를 결정한다.

온라인 구전이 구매의도에 미치는 영향: 정보원 유형간 구전방향의 불일치성을 중심으로 (Whose Opinion Matters More? A Study on the Effect of Contradictory Word of Mouth on the Intention of Purchase)

  • 김수지;김범수
    • 지식경영연구
    • /
    • 제25권2호
    • /
    • pp.115-134
    • /
    • 2024
  • 인터넷의 지속적인 발전과 다양한 모바일 기기의 확산으로 인해 소비자 구매결정에 대한 인터넷 구전의 영향력은 끊임없이 증가하고 있는 상황이다. 그러나 다양한 정보원으로부터 상반된 내용의 많은 정보를 접하는 소비자들은 끊임없이 정보의 신뢰성에 대해 고민하게 되고 이에 따라 제품 종류 별 구전 영향력이 큰 정보원의 유형에 대한 연구가 지속되고 있다. 이에 본 연구에서는 정보원 유형간 구전방향이 불일치할 경우, 소비자들이 어떠한 정보원의 구전에 더욱 영향을 받는지 온라인 구전을 전문가와 일반소비자 구전으로 나눈 후, 계층적 베이지언 분석방법론을 통해 분석하였다. 연구 결과, 전문가 구전과 일반소비자의 구전 방향성이 일치할 경우에는 기존 연구와 같이 구매의도에 정의 영향을 미치는 것을 확인하였다. 나아가 전문과 구전과 일반소비자의 구전 방향성이 불일치할 경우에는 소비자의 구매의도가 전문가 보다는 일반소비자의 구전 방향성에 더욱 영향을 받는 것을 확인할 수 있었다. 본 연구에서는 표본집단의 크기가 작더라도 데이터 시뮬레이션을 통해 분석이 가능한 베이지언 방법론을 적용해 분석을 시도하였다. 이를 통해 한정된 데이터로 여러 소집단에 대한 분석 가능성을 확인한 것은 향후 더욱 세분화된 제품군과 다양한 정보원 유형의 온라인 구전 효과 연구에 기여하고 온라인 마케팅 관리자에게 유용한 실무적 시사점을 제공할 것으로 기대한다.

TextRank 알고리즘을 이용한 문서 범주화 (Text Categorization Using TextRank Algorithm)

  • 배원식;차정원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권1호
    • /
    • pp.110-114
    • /
    • 2010
  • 본 논문에서는 TextRank 알고리즘을 이용한 문서 범주화 방법에 대해 기술한다. TextRank 알고리즘은 그래프 기반의 순위화 알고리즘이다. 문서에서 나타나는 각각의 단어를 노드로, 단어들 사이의 동시출현성을 이용하여 간선을 만들면 문서로부터 그래프를 생성할 수 있다. TextRank 알고리즘을 이용하여 생성된 그래프로부터 중요도가 높은 단어를 선택하고, 그 단어와 인접한 단어를 묶어 하나의 자질로 사용하여 문서 분류를 수행하였다. 동시출현 자질(인접한 단어 쌍)은 단어 하나가 갖는 의미를 보다 명확하게 만들어주므로 문서 분류에 좋은 자질로 사용될 수 있을 것이라 가정하였다. 문서 분류기로는 지지 벡터 기계, 베이지언 분류기, 최대 엔트로피 모델, k-NN 분류기 등을 사용하였다. 20 Newsgroups 문서 집합을 사용한 실험에서 모든 분류기에서 제안된 방법을 사용했을 때, 문서 분류 성능이 향상된 결과를 확인할 수 있었다.