• 제목/요약/키워드: software clustering

검색결과 319건 처리시간 0.02초

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

병리특이적 형태분석 기법을 이용한 HRCT 영상에서의 새로운 봉와양폐 자동 분할 방법 (A Novel Method for Automated Honeycomb Segmentation in HRCT Using Pathology-specific Morphological Analysis)

  • 김영재;김태윤;이승현;김광기;김종효
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권2호
    • /
    • pp.109-114
    • /
    • 2012
  • 봉와양폐(Honeycomb)는 직경 2~10mm 정도의 크기가 같지 않은 낭포(Cyst)가 경계가 명확한 섬유질(Fibrosis)로 이루어진 벽에 둘러싸여 밀집된 형태로 이루어져 있다. 봉와양폐가 발견될 경우 급성악화의 발생 빈도가 높으며 따라서 봉와양폐의 관찰 여부와 측정은 임상에서 중요한 지표가 된다. 따라서 본 논문에서는 봉와양폐 영역의 정량적 측정을 위하여 봉와양폐의 특징을 이용한 형태학적 기법과 군집성 평가 기법을 통해 자동 구획 방법을 제안하였다. 첫 번째로 영상의 잡음을 제거하기 위하여 가우시안 필터링을 적용하고, 모폴로지 기법 중 팽창 기법을 이용하여 폐 영역을 구획하였다. 두번째로, 주변 8방향 검사를 통해 봉와양폐를 구성하는 낭포의 후보군을 찾고, 영역 확장과 외곽선 검사를 통해 비 낭포들을 제거하였다. 마지막으로 군집화 검사를 통해 최종적으로 봉와양폐를 구획하였다. 제안한 방법은 80장의 고해상도 컴퓨터 단층촬영 영상에서 실험한 결과, 89.4%의 민감도와, 72.2%의 양성 예측도를 보였다.

오령산 구성성분-타겟 네트워크 분석 (Analysis of a Compound-Target Network of Oryeong-san)

  • 김상균
    • 한국지식정보기술학회논문지
    • /
    • 제13권5호
    • /
    • pp.607-614
    • /
    • 2018
  • 오령산은 몸 속의 수분을 순환시키고 소변으로 배출이 잘 되게 하는 효능이 있어 수분이 정체되어 나타나는 질환에 많이 쓰이는 처방이다. 본 연구에서는 시스템 약리학 접근 방법을 이용해서 오령산의 작용 기전을 탐색하기 위해서 오령산의 구성약재의 성분-타겟 네트워크를 구축하고 분석하였다. 우선, 오령산의 475개 성분에 대해서 STITCH 데이터베이스에서 연관된 타겟을 검색하였으며, 성분과 타겟의 상호작용에 대한 검색 결과는 XML 파일로 다운로드하였다. 본 연구에서 성분-타겟 네트워크는 Gephi를 이용해서 시각화하고 탐색하였다. 노드는 성분과 타겟이 되고, 링크는 성분과 타겟들간에 상호작용이 존재하면 연결되며, 상호작용의 신뢰도에 따라 링크에 가중치를 부여하였다. MCL 알고리즘을 이용해서 네트워크를 클러스터링 하였으며, 총 130개의 클러스터가 생성되었다. 가장 많은 노드를 가지는 클러스터에서 노드의 개수는 32개였다. 성분-타겟 네트워크에서 약재의 유효 성분들이 신장의 혈압 조절 기능과 관련된 타겟들과 연결되어 있는 것을 발견할 수 있었다. 향후에는 질병 데이터베이스와 연계해서 보다 명확한 오령산의 작용 기전을 밝힐 수 있도록 할 계획이다.

MS 마커를 활용한 지역별 오계 유전자원의 다양성 및 유연관계 분석 (Genetic Diversity and Relationship of Ogye Population in Korea Using 25 Microsatellite Markers)

  • 노희종;김관우;이진욱;전다연;김승창;전익수;고응규;이준헌;김성희;백준종;오동엽;한재용;이승숙;조창연
    • 한국가금학회지
    • /
    • 제45권3호
    • /
    • pp.229-236
    • /
    • 2018
  • 본 연구는 연산오계(천연기념물 제265호)와 이를 기원으로 하는 5개 지역별 오계 집단의 유전적 특성 및 차별성을 분석하기 위해 25개의 초위성체(MS) 마커를 이용하여 총 9개 집단 243수를 대상으로 유전자형을 분석하였다. 마커별 다형성 분석 결과, 총 153개의 대립유전자가 확인되었으며, $H_{\exp}$와 PIC의 경우 MCW0145에서 각각 0.640, 0.570으로 가장 높았고, $H_{obs}$는 MCW0252에서 0.607로 가장 높은 값을 나타내었다. 반면, LEI0166에서 $H_{\exp}$, $H_{obs}$, PIC가 각각 0.248, 0.204, 0.202로 가장 낮았다. 집단간 유전거리 분석 결과로는 9개 집단중 YSO 집단과 SUO 집단이 가장 가까운(0.073) 반면, LG 집단과 CBO 집단 사이에서 가장 먼(0.937) 것으로 확인되었다. 집단의 실제 구조를 확인하기 위한 집단별 균일도를 분석한 결과, 공시된 9개의 집단은 3개의 집단으로 구분했을 때 최적의 K값(7.96)을 얻을 수 있었으며, 5개의 오계 집단(YSO, ARO, CBO, CNO, SUO) 및 LG 집단과 CN RIR 집단은 각각 1, 2, 3번 군집에 분포하고 있는 것으로 나타났다. 한편, GBO 집단의 경우 1번과 3번 클러스터에 걸쳐서 분포하고 있는 것으로 보아 사육과정에서 타집단과의 교잡이 일어났을 것으로 추정된다. 이러한 결과를 통해 추후 오계 유전자원에 대한 국가 수준의 유전적 특성평가 및 관리의 기초 자료로 유용하게 활용될 것으로 기대된다.

소셜 네트워크와 데이터 마이닝 기법을 활용한 학문 분야 중심 및 융합 키워드 추천 서비스 (Recommending Core and Connecting Keywords of Research Area Using Social Network and Data Mining Techniques)

  • 조인동;김남규
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.127-138
    • /
    • 2011
  • 대부분의 연구포털 사이트는 관심 분야의 논문을 획득하고자 하는 연구자를 대상으로 한 서비스를 주로 제공하고 있다. 하지만 이러한 서비스는 정확한 서지사항을 알고 있는 일부 사용자의 경우 손쉽게 이용할 수 있지만, 대부분의 이용자는 원하는 자료를 획득하기 위해 키워드 검색을 통한 반복적 시행착오를 겪게 된다. 특히 사용자가 익숙하지 않은 분야의 논문을 검색하는 경우에는, 찾고자 하는 논문의 적절한 키워드 자체를 알지 못하여 검색에 큰 어려움을 겪게 된다. 이러한 한계를 극복하기 위해 일부 연구포털 사이트에서는 온라인 쇼핑몰의 상품 추천에 주로 사용되어온 연관관계 분석 기반 키워드 추천 서비스를 채택하고 있다. 하지만 연관관계 분석에만 기반한 키워드 추천 방식은 두 키워드간의 단편적인 관계만을 알려줄 뿐, 해당 학술 분야와 관련된 전체 키워드 간의 복합적 연결 관계를 보여주기에는 한계가 있다. 따라서 본 논문에서는 연관관계 분석을 통해 빈발 출현 키워드 쌍을 추출하고 이를 근거로 전체 키워드 간 네트워크를 구축함으로써, 학술 분야별 중심 키워드 및 분야 간 융합을 위한 연계 키워드를 추천하기 위한 방법을 제시하고자 한다.

웹서비스 유사성 평가 방법들의 실험적 평가 (Evaluation of Web Service Similarity Assessment Methods)

  • 황유섭
    • 지능정보연구
    • /
    • 제15권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 월드와이드웹(WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근의 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스를 서비스 중심 컴퓨팅환경으로서 운용하기 위해서는 웹서비스 저장소는 조직화되어 있어야 할 뿐 아니라, 사용자들의 요구에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 중심 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스 발견을 효율적으로 제공할 수 있는 기법의 수요 또한 증대된다. 웹서비스 발견을 위한 많은 기법들이 제안되어 왔지만, 대부분의 선행연구들은 활용하기에는 제대로 발달하지 못하였거나 특정 도메인에 너무 치중하여 일반화하기 어려웠다. 이 논문에서는 군집화기법과 XML기반의 서비스 기술표준인 WSDL의 의미적 가치를 활용하여 다수의 웹서비스를 군집화하는 프레임워크를 제안한다. 웹서비스 발견이라는 연구영역에 최초로 데이터마이닝 기법을 적용한 연구이다. 본 논문에서 제안하는 방식은 여러 흥미로운 요소들이 있다: (1) 서비스 사용자와 제공자들의 사전지식 요구를 최소화한다 (2) 특정 도메인에 과도하게 치중한 온톨로지를 피한다 (3) 웹서비스들 간의 의미론적 관계를 시각화할 수 있다. 이 논문에서 인공신경 정신망 네트워크를 기반으로 하여 프로토타입 시스템을 개발하였으며, 실제 운용되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 조직화 프레임워크를 실증적으로 평가하였으며 제안하는 방식의 효용성을 보여주는 실험결과를 보고한다.

  • PDF

텍스트마이닝을 활용한 북한 관련 뉴스의 기간별 변화과정 고찰 (An Investigation on the Periodical Transition of News related to North Korea using Text Mining)

  • 박철수
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.63-88
    • /
    • 2019
  • 북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.

온톨로지 기반 영화 메타데이터간 연관성을 활용한 영화 추천 기법 (The Ontology Based, the Movie Contents Recommendation Scheme, Using Relations of Movie Metadata)

  • 김재영;이석원
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.25-44
    • /
    • 2013
  • 최근 IPTV와 스마트 TV 등의 등장과 영상 콘텐츠를 시청하고 검색할 수 있는 웹 서비스의 등장으로 영상 콘텐츠의 접근이 용이해져 사용자들은 자신이 원하는 콘텐츠를 찾고자 하는 요구가 증가하고 있다. 하지만 서비스되는 콘텐츠의 양이 방대하여 영상 콘텐츠를 검색할 때 사용하는 키워드 기반의 검색은 많은 양의 결과를 가져오며 사용자가 필요로 하지 않은 결과가 검색된다. 따라서 사용자가 원하는 콘텐츠의 검색 시간과 노력이 증가 하게 되었다. 이를 극복 하기 위해 콘텐츠 추천 및 검색에 대한 연구가 수행되어 왔다. 기존의 연구에는 사용자의 선호도 분석을 통하여 영상 콘텐츠를 추천하거나 비슷한 성향을 가지는 사용자들을 분류하여 콘텐츠를 추천하는 기법들이 연구되어 왔다. 본 논문에서는 영상 콘텐츠 중 영화의 추천을 위해 사용자 개인의 영화 메타데이터의 선호도를 분석하고, 영화의 메타데이터와 영화의 유사성을 도출하여 이를 기반으로 영화 추천 기법을 제안한다. 영화의 특징을 담고 있고, 사용자의 영화 선호도에 영향을 끼치는 장르, 줄거리, 배우, 키워드 등의 영화 메타데이터를 기반으로 온톨로지를 구축하고, 확률 기법을 통한 메타 데이터간의 유사성을 분석하여 유사 메타데이터를 연결한다. 또한 사용자의 선호도와 그룹을 정의하고, 사용자 정보를 활용하기 위한 사용자 모델을 정의한다. 제안하는 추천 기법은 1) 사용자 정보기반의 후보 영화 검색 컴포넌트, 2) 사용자 선호기반의 후보 영화 검색 컴포넌트, 3) 1)과 2)의 결과를 통합하고 가중치를 부여하는 컴포넌트, 4) 최종결과의 분석을 통한 개인화된 영화 추천 컴포넌트 등 총 4가지 컴포넌트로 구성된다. 제안하는 추천 기법의 실험을 위하여 20대 남/녀 10명씩 20명을 대상으로 실험을 진행하였으며, 실험결과 평균 Top-5에서 2.1개 Top-10에서 3.35개 Top-20에서 6.35의 영화가 보고 싶은 영화로 선택되었다. 본 논문에서는 영화 메타데이터간의 연관성 도출을 통하여 영화간의 유사성을 도출하고 이를 기반으로 사용자의 기본적인 정보를 활용한 추천뿐만 아니라 사용자가 예상하지 못한 영화의 추천이 가능하다.