• 제목/요약/키워드: 연관도

검색결과 12,814건 처리시간 0.038초

상대적 규칙 정확도의 균형화에 의한 연관성 측도의 개발 (Development of association rule threshold by balancing of relative rule accuracy)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1345-1352
    • /
    • 2014
  • 데이터마이닝 기법 중에서 연관성 규칙은 연관성 평가 기준을 기반으로 하여 데이터베이스에 포함되어 있는 항목들 간의 관련성을 탐색하는 기법이다. 일반적인 연관성 규칙 기법과는 달리 역의 연관성 규칙은 하나의 항목집합이 발생하지 않으면 다른 항목집합도 발생하지 않는다는 규칙을 찾아내는 것이다. 이러한 역의 연관성 규칙을 일반적인 연관성 규칙과 함께 생성하면 기업체에서 특정 제품을 판매하기 위해서는 그 제품만의 마케팅뿐만 아니라 더 나아가 어떤 제품의 마케팅이 필요한 지에 대한 정보를 파악할 수 있다. 이를 위해 본 논문에서는 이러한 두 종류의 연관성 규칙에 적용 가능한 균형화된 기여 상대적 규칙 정확도를 연관성 평가 기준으로 제안하고자 한다. 또한 Piatetsky-Shapiro (1991)가 제안한 흥미도 측도가 가져야 할 조건들을 점검한 후, 예제를 통하여 제안된 측도와 연관성 규칙에 적용 가능한 의학진단분야의 평가 측도들의 유용성을 비교하였다. 그 결과, 기여 상대적 정확도와 역의 기여 상대적 정확도의 크기가 다르게 나타나면 연관성의 정도를 명확하게 설명하기가 어려우므로 이들 두 측도를 동시에 고려한 균형화된 기여 상대적 규칙 정확도를 이용하는 것이 가장 바람직하다는 사실을 확인하였다.

연관 단어 마이닝을 사용한 웹문서의 특징 추출 (Feature Extraction of Web Document using Association Word Mining)

  • 고수정;최준혁;이정현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.351-361
    • /
    • 2003
  • 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존의 방법은 주기적으로 프로파일을 갱신해야하는 문제점, 명사구를 처리해야 하는 문제점, 명사구를 처리해야 하는 문제점, 색인어에 대한 화률을 계산해야 하는 문제점 등을 포함한다. 본 논문에서는 연관 단어 마이닝을 사용하여 문서의 특징을 효율적으로 추출하는 방법을 제안한다. 제안한 방법은 Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 백터로 표현한다. Apriori 알고리즘을 사용하여 문서의 특징을 단일 단어가 아닌 연관 단어 벡터로 표현한다. Apriori 알고리즘을 사용하여 문서로부터 추출된 연관 단어는 이를 구성하는 수와 신뢰도와 지지도에 따라 차이를 보인다. 따라서 본 논문에서는 문서 분류의 성능을 향상 시키기 위허ㅐ 연관 단어를 구성하는 단어의 수와 지지도를 결정하는 효율적인 방법을 제안한다. 연관 단어 마이닝을 이용한 특징 추출 방법은 프로파일을 사용하지 않으므로 프로파일 갱신의 필요성이 없으며, 색인어에 대한 확률을 계산하지 않고도, Apriori 알고리즘의 신뢰도와 지지도에 따라 자동으로 명사구를 생성하므로 단어의 연관성을 이용하여 문서의 특징을 추출하는 기존 방법에 대한 문제점을 해결한다. 제안한 방법의 성능을 평가하기 위해 Naive Bayes 분류자를 이용한 문서 분류에 적용하여 정보이득, 역문헌빈도의 방법과 비교하며, 또한 색인어의 연관성과 확률 모델을 기반으로 단어의 연관성을 이용하여 문서 분류를 하는 기존의 방법과 각각 비교한다.

텍스트 마이닝 기법을 이용한 연관용어 선정에 관한 실험적 연구 (An Experimental Study on Selecting Association Terms Using Text Mining Techniques)

  • 김수연;정영미
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.147-165
    • /
    • 2006
  • 이 연구에서는 전체 문헌집단으로부터 초기 질의어에 대한 연관용어 선정 시 사용할 수 있는 최적의 기법을 찾기 위해 연관규칙 마이닝과 용어 클러스터링 기법을 이용하여 연관용어 선정 실험을 수행하였다. 연관규칙 마이닝 기법에서는 Apriori 알고리즘을 사용하였으며, 용어 클러스터링 기법에서는 연관성 척도로 GSS 계수, 자카드계수, 코사인계수, 소칼 & 스니스 5, 상호정보량을사용하였다. 성능평가 척도로는 연관용어 정확률과 연관용어 일치율을 사용하였으며, 실험결과 Apriori 알고리즘과 GSS 계수가 가장 좋은 성능을 나타냈다.

연관속성개념공간으로의 사상을 이용한 단백질 상호작용 예측 (Prediction of Protein Interactions using the Associative Feature Concept Space Mapping)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.73-75
    • /
    • 2006
  • 생물체 내에서 중요 생물학적 기능을 수행하는 기본 단위인 단백질 및 이들의 상호작용 대한 많은 연구가 이루어져 다양한 생물체에 대한 단백질 상호작용 데이터베이스가 구축되었다. 본 논문에서는 효모에 대해 공개되어있는 단백질 상호작용 데이터를 이용하여 새로운 단백질 상호작용을 예측하는 방법을 제안한다. 논문에서는 문헌에서 연관 정보를 효율적으로 찾아내기 위하여 제안된 연관개념공간 탐색 방법을 확장하여 단백질 상호작용 예측에 사용한다. 단백질들은 각각이 가지는 다양한 속성들의 벡터로 간주되며, 상호작용은 해당 단백질들의 연관성을 통해 이루어지는 것으로 표현된다. 상호작용하는 두 단백질들의 속성은 단어의 공동 출현과 같이 고려되어 단백질 상호작용은 두 단백질 벡터의 요소로 표현되고 벡터의 요소 속성들 간의 연관성을 표현하기 위해 연관속성개념공간으로 사상되어 공간상의 거리 기반으로 연관속성을 추출한다. 추출된 연관속성을 최대로 포함하는 단백질들 간의 상호작용을 예측하는 방식으로 단백질 상호작용을 예측한다. 논문에서 제안한 방법은 효모의 단백질 상호작용 예측에 대해 평균 약 91.8%의 예측 정확도를 보여, 연관속성개념공간을 이용한 방법이 단백질 상호작용을 예측하는 또 다른 대안으로 사용 될 수 있음을 확인하였다.

  • PDF

키워드 관련도를 이용한 뉴스기사의 연관검색 기법 (A Relationship Search in News Articles Using a Keyword Association Frequency)

  • 김지혜;장재영;윤홍준;김한준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.53-57
    • /
    • 2010
  • 현재 많은 포털 사이트에서는 인기가 있거나 중요도가 높은 키워드에 대해 정보를 제공해주는 태그 클라우드나 연관 검색어 등의 기능이 제공되고 있다. 하지만 대부분의 뉴스기사 페이지들은 날짜와 분야별로 기사들이 나열되어 있으며 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사의 정보에 대해서 한눈에 알아 볼 수 있는 방법은 미흡한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력 내용을 기반으로 연관성 정도를 분석하여 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 시스템을 소개한다. 이 시스템은 사용자가 기사 검색을 하였을 때, 키워드와 가장 밀접한 기사를 검색해 주는 것뿐만 아니라 검색어와 관련된 연관 키워드들을 보여주고 연관된 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.

  • PDF

산업 및 직종의 상호연관적 다양성과 비연관적 다양성이 지역의 경제성장에 미치는 영향 (The Effect of Related and Unrelated Varieties of Industry and Occupation on Regional Economic Growth in Korea)

  • 송창현;김찬용;임업
    • 지역연구
    • /
    • 제35권2호
    • /
    • pp.73-86
    • /
    • 2019
  • 본 연구의 목적은 산업 및 직종의 상호연관적 다양성과 비연관적 다양성이 지역의 경제성장에 미치는 영향을 실증적으로 분석하는 데에 있다. 지역경제성장의 메커니즘을 다룬 최근의 연구들은 산업을 넘어 직종의 상호연관적 다양성과 비연관적 다양성이 지식외부효과를 유발함으로써 지역경제성장의 동력으로 작용한다고 주장한다. 이에 본 연구에서는 산업다양성과 함께 직종다양성의 영향을 포괄적으로 분석하였다. 실증분석을 위해서는 전국사업체조사와 인구주택총조사 자료를 사용하였으며 지역노동시장권을 분석의 공간적 단위로 설정하였다. 종속변수는 2010년부터 2015년 사이의 지역별 지역내총생산 및 고용 성장으로 설정하였으며 핵심 설명변수인 산업 및 직종의 상호연관적 다양성과 비연관적 다양성은 엔트로피 접근법에 기초하여 측정하였다. 분석결과에 따르면, 산업의 상호연관적 다양성은 지역의 1인당 지역내총생산 성장에, 직종의 상호연관적 다양성은 지역의 고용 성장에 긍정적인 영향을 미치는 것으로 나타났다. 반면 산업의 비연관적 다양성은 지역의 고용 성장에 부정적인 영향을 미치는 것으로 나타났다. 본 연구는 산업 및 직종 부문의 다양성을 상호연관적 다양성과 비연관적 다양성으로 세분하여 지역경제성장에 미치는 영향을 분석함으로써 지역의 경제적 활력 강화를 목적으로 하는 지역 단위의 정책의제에 대한 시사점을 이끌어내고자 하였다.

검색 포털들의 검색어 추천 서비스 분석 평가: 네이버와 구글의 연관 검색어 서비스를 중심으로 (Analysis and Evaluation of Term Suggestion Services of Korean Search Portals: The Case of Naver and Google Korea)

  • 박소연
    • 정보관리학회지
    • /
    • 제30권2호
    • /
    • pp.297-315
    • /
    • 2013
  • 본 연구에서는 주요 검색 포털들의 검색어 추천 서비스를 분석, 평가하였다. 이 연구에서는 네이버와 구글 코리아를 대상으로 추천되는 연관 검색어의 적합도 및 최신성을 평가하고, 연관 검색어의 개수 및 분포, 연관 검색어가 제공되지 않는 질의의 특징을 조사하였다. 또한 연관 검색어의 유형을 질의와 연관 검색어의 관계 측면에서 분석하고, 연관 검색어들 중 유해 검색어의 유형 및 특징, 비표준어의 유형 및 특징도 조사하였다. 마지막으로, 한글 질의와 영어 질의, 대중적인 질의와 전문적인 질의의 연관 검색어의 특징을 비교하였다. 연구 결과, 네이버가 구글보다 연관 검색어의 적합도와 최신성이 다소 높은 것으로 나타났다. 또한 구글과 네이버 모두 새로운 연관 검색어를 제시하기보다는 질의에 단어를 추가 또는 삭제하거나, 질의와 동일한 검색어나 동의어 검색어를 제공하는 경우가 많은 것으로 나타났다. 본 연구의 결과는 향후 포털들의 검색어 추천 서비스의 개선에 활용될 수 있을 것으로 기대된다.

연관 규칙 마이닝에서의 평가기준 표준화 방안 (Standardization for basic association measures in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권5호
    • /
    • pp.891-899
    • /
    • 2010
  • 연관성 규칙은 방대한 양의 데이터베이스 속에 있는 각 항목들 간의 관련성을 수치화함으로써 두개 이상의 항목간의 관련성을 나타내는 기법으로 데이터 마이닝 분야에서 가장 많이 활용되고 있다. 의미 있는 연관성 규칙을 탐색하기 위한 가장 기본적인 평가기준에는 지지도, 신뢰도, 향상도 등이 있으며, 이들을 이용하여 연관성 규칙을 생성하게 된다. 이 때 사용되는 향상도는 그 값의 범위가 지지도나 신뢰도와는 다르므로 지지도나 신뢰도의 범위를 동일하도록 하기 위해 표준화할 필요가 있으며, 지지도와 신뢰도도 하나의 후항변수에 대해 여러 개의 전항변수들이 있는 경우 이들 중 어느 것이 후항변수와 가장 연관성이 있는지를 객관적으로 비교하기 위해서도 표준화가 필요하다. 본 논문에서는 각 항목집합의 주변 발생확률을 고려하여 객관적이고도 정확한 연관성 정도를 파악하기 위해 연관성 평가기준을 표준화하는 방안에 대해 연구하고자 한다. 또한 흥미도 측도의 세 가지 조건의 충족 여부를 점검해 본 후, 구체적인 예제를 통하여 기존의 연관성 평가기준과 표준화된 연관성 평가기준을 비교 분석하고자 한다.

한국인 성인남녀에서 신경통과 혈액정보 및 체형정보와의 연관성 연구 (Study of association of neuralgia with blood parameters and anthropometric indices in Korean adult men and women)

  • 이범주
    • 문화기술의 융합
    • /
    • 제6권3호
    • /
    • pp.413-418
    • /
    • 2020
  • 신경통은 중증의 고통을 수반하는 질병으로써 인간의 삶의 질에 매우 강한 영향을 주는 질병이며, 국내에서도 노화에 따라 유병율이 증가하는 추세이다. 그동안 신경통에 대한 국내외연구들은 주로 신경통과 연관성이 있는 정신질환, 인구학정 정보, 영양성분 등 과의 연관성 분석이 대부분이고, 혈액정보와의 연관성 연구는 매우 드물다. 따라서, 본 연구에서는 신경통과 혈액 파라미터들과의 연관성을 도출하고 신경통과 연관성이 있는 임상지표를 도출하고자 한다. 본 연구를 위해 질병관리본부의 국민건강영양조사 데이터를 기반으로 binary logistic regression을 이용하여 분석하였다. 실험결과 남녀 모두에서 나이가 신경통과 가장 연관성이 높은 경향이 있는 것으로 나타났으며, 여성에서는 복부둘레와 헤마토크리트 수치가 신경통과 연관성이 있는 것으로 나타났고, 남성에서는 공복시혈당과 헤모글로빈이 신경통과 연관성이 있는 것으로 나타났다. 또한 복부둘레 및 혈액정보들과 신경통사이에서의 연관성이 남녀에서 차이가 있는 것을 밝혀내었다.

강화학습을 이용한 부정적 연관성 피드백 (Negative Relative Feedback Using Reinforcement Learning)

  • 손기준;이재안;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.351-355
    • /
    • 2007
  • 문서 여과 시스템은 사용자의 정보요구를 기준으로 문서들을 선별하여 제시한다. 사용자의 정보요구는 하나 이상의 단어들로 구성된 프로파일로 표현이 되며, 문서의 여과 과정 동안에 발생하는 사용자의 연관성 평가를 통해 구체적인 내용으로 변할 수 있다. 기존 연구의 경우 사용자는 자신이 직접 연관성 평가에 참여하여 평가 정보를 입력하고, 사용자가 평가한 긍정적 피드백 정보를 이용하여 사용자 프로파일을 학습한다. 본 연구는 사용자가 평가한 긍정적 연관성 피드백 뿐만 아니라 부정적 연관성 피드백을 함께 이용한 사용자 프로파일 학습 방법을 제안한다. 제안된 방법과, 대표적인 연관성 피드백 방법인 Rocchio 방법과의 성능을 측정하기 위해 네 가지 토픽에 대하여 여과를 수행하였다. 실험한 결과 부정적 연관성 피드백 정보를 이용하였을 경우 Rocchio 방법 보다는 6% 더 성능이 높은 것을 볼 수 있었다. 실험결과 부정적 평가를 받은 문서를 이용하여 사용자가 선호하지 않는 문서를 제거함으로써 여과 시스템의 성능을 향상 시킬 수 있었다.

  • PDF