• 제목/요약/키워드: 가중치 마이닝

검색결과 116건 처리시간 0.018초

유전자를 중간 매개로 고려한 동시발생 기반의 약물-질병 관계 추론 (Co-occurrence Based Drug-disease Relationship Inference with Genes as Mediators)

  • 신상원;신예은;장기업;윤영미
    • 한국정보기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.1-9
    • /
    • 2018
  • 신약 재창출은 현재 사용되는 약물의 새로운 용도를 발견하는 방법이다. 텍스트 마이닝은 정형화되지 않은 문서로부터 의미 있는 지식을 획득하는 과정을 의미한다. 본 논문에서는 약물-유전자와 유전자-질병에서 동시에 측정된 유전자 출현 빈도의 비율을 고려하여 새로운 약물-질병 관계를 추론하는 방법을 제안한다. 생물학적 문헌으로부터 약물-유전자와 유전자-질병의 동시출현 빈도를 측정하고 각 약물과 질병에 대하여 유전자의 출현 비율을 계산한다. 약물-질병 관계의 가중치는 동시에 측정된 유전자 출현 비율의 평균을 이용하여 계산되고 이를 이용하여 각 질병의 분류 정확도를 측정한다. 약물-질병 관계를 추론하는 것에서 동시출현 빈도를 문장 단위로 측정하고 여러 관계를 고려하는 방법이 기존 방법보다 더 정확히 식별해내는 것을 보였다.

소셜 빅데이터로 알아본 코로나19와 가족생활: 토픽모델 접근 (COVID-19 and Korean Family Life on Social Media: A Topic Model Approach)

  • 박선영;이재림
    • 한국콘텐츠학회논문지
    • /
    • 제21권3호
    • /
    • pp.282-300
    • /
    • 2021
  • 본 연구의 목적은 코로나19 확산으로 가족생활에서 급격한 변화가 일어난 1차 확산기에 블로그와 온라인 카페에 게시된 소셜 빅데이터를 분석하여 키워드를 파악하고, 게시글에 잠재된 주요 토픽을 발견하는 것이다. 강화된 사회적 거리두기가 처음 시행되었던 2020년 2월 23일부터 4월 19일까지 네이버와 다음의 블로그 및 카페에 게시된 글 중 '코로나'와 '가족' 또는 '코로나'와 '가정'이 함께 언급된 문서 총 351,734건을 분석하였다. 수집된 데이터는 전처리를 거쳐 텍스트 마이닝 기법으로 분석하였다. TF-IDF 가중치 값을 바탕으로 상위 100개 단어를 살펴보았으며, 잠재디리클레할당 방식의 토픽모델 분석을 통해 총 22개 토픽을 도출하고 토픽명을 부여하였다. 연구결과, 코로나19가 가족의 일상생활에 미친 전방위적 영향이 나타났으며, 특히 식생활, 주거생활, 여가생활, 종교생활, 자녀돌봄, 자녀교육, 가족관계, 가족의례 등에서 변화가 두드러졌다. 더불어, 가족 관련 국내 문헌에서는 잘 논의되지 않던 건강공동체로서의 가족을 시사하는 토픽도 등장하였다.

텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구 (A Study on Development of Patent Information Retrieval Using Textmining)

  • 고광수;정원교;신영근;박상성;장동식
    • 한국산학기술학회논문지
    • /
    • 제12권8호
    • /
    • pp.3677-3688
    • /
    • 2011
  • 특허정보검색의 목적은 다양한 목적성을 지니고 있다. 일반적으로 특허정보검색은 제한된 키워드들에 의한 검색으로 이루어지며, 선행 특허권과 유사특허를 파악하기 위하여 반복적인 검색과 검토의 노력이 필요하다. 본 논문에서는 특허문서의 전체 텍스트를 분석하여 특징치를 찾아내는 내용기반 검색방법을 제안하고 검색결과를 질의문서와 유사한 문서 순으로 우선 배치하여 검색에 효율을 높일 수 있는 방법을 제안한다. 즉, 제안된 알고리즘은 텍스트 분석과정을 통해 각 문서별로 특징치가 부여되고 문서 간 특징치 비교를 통해 유사문서를 찾고 문서를 랭킹하여 유사정보를 제공한다. 텍스트 분석과정은 Stop-word과정, 핵심단어 추출과정, 핵심단어 가중치 산출 과정으로 이루어진다. 실험결과에서는 정확도 측정을 실시하여 일반검색엔진과 본 논문에서 제안한 알고리즘의 검색 정확도를 비교하였다. 본 논문은 검색결과를 질의한 문서와 유사한 문서 순으로 랭킹하기 때문에 검색이용자가 검색결과 검토과정에서 유사한 문서를 먼저 검토할 수 있도록 하여 검토시간을 줄이고 검색의 효율을 높일 수 있다. 또한 특허문서 전체 텍스트를 입력받아 사용하기 때문에 특허검색에 익숙하지 않는 이용자도 검색을 쉽고 빠르게 이용할 수 있다. 그리고 내용 기반 검색이 이루어지기 때문에 키워드 및 검색 식을 이용하는 방법보다 검색범위를 넓힐 수 있어서 검색에 누락되는 데이터를 줄일 수 있는 효과를 가진다.

사용자 리뷰를 이용한 상품 특징 추출 및 평점 분배 (Product Feature Extraction and Rating Distribution Using User Reviews)

  • 손수빈;전종훈
    • 한국전자거래학회지
    • /
    • 제22권1호
    • /
    • pp.65-87
    • /
    • 2017
  • 온라인 쇼핑몰에서 상품에 대한 사용자 리뷰와 평점을 분석하여 상품의 특징을 자동으로 추출하고 평점이 어떤 특징에 의해 부여된 것인지 판단하여 각 특징에 분배하여 점수화함으로써 상품의 특징을 파악할 수 있는 방법을 제안한다. 기존 방식은 상품 구매 여부를 결정하기 위해서 많은 리뷰와 평점을 읽는데 시간을 허비하거나, 상품의 장단점을 파악하기 어려울 뿐더러 상품에 부여된 평점이 어떠한 특징에 의해서 부여되었는지 알 수 없는 구조로 되어있다. 따라서 본 논문에서는 이러한 문제를 해소하기 위하여 사용자 리뷰에서 상품의 특징을 자동으로 추출하고 각 특징별 평점을 전체 평점에서 자동으로 분배 계산하여 보여주는 방법을 제안한다. 제안하는 방법은 상품별 리뷰와 평점을 수집하여 형태소 분석을 수행하고 이를 통해 상품의 특징과 이에 대한 감성어를 추출한다. 또한, 상품의 특징을 파악할 수 있도록 각 특징에 대한 가중치를 특징이 출현한 문장의 극성을 판단하여 부여하는 방법을 기술한다. 실험을 통하여 얻은 결과와 기존 방법을 비교하는 설문조사를 통하여 제안하는 방법의 유용성을 입증하였고, 상품 리뷰 전문가의 분석과 실험의 결과를 비교함으로써 타당성을 입증하였다.

이동 시퀀스의 빈발도를 이용한 최적 이동 패턴 탐사 기법 (A Method for Optimal Moving Pattern Mining using Frequency of Moving Sequence)

  • 이연식;고현
    • 정보처리학회논문지D
    • /
    • 제16D권1호
    • /
    • pp.113-122
    • /
    • 2009
  • 기존의 패턴 탐사 기법들은 제한된 시간 및 공간영역에서 발생하는 다양한 이동 패턴들 중 단순히 사용자 요구에 적합할 것으로 추정되는 불특정한 빈발 이동 패턴만을 탐사하기 때문에 특정지점들 간의 최적 이동 경로나 정해진 시간 내의 스케줄링 경로 탐색과 같은 복합적인 시간 및 공간 제약 조건을 갖는 최적 이동 패턴을 탐사하는 문제에는 적용하기 어렵다. 이에 본 논문에서는 방대한 이동 객체의 이력 데이터 집합으로부터 복합적인 시간 및 공간 제약을 갖는 최적 이동 패턴을 탐사하는 문제를 보이고, 적용 가능한 위치 기반 서비스로서 최적 이동 경로에 해당하는 패턴을 탐색하기 위한 새로운 패턴 탐사 기법인 STOMP-F를 제안한다. 제안된 기법은 특정한 지점들 사이를 이동한 객체의 패턴들 중 객체가 가장 빈번하게 이동한 경로를 탐색하여 최적 경로로 결정하는 패턴 빈발도를 이용한 탐색 방법으로, 최적 이동 패턴 탐사 과정의 이동 시퀀스 생성 단계에서 객체의 위치 값과 공간영역 간의 위상 관계를 고려하여 이동 객체의 위치 속성에 대한 최하위 수준에서의 공간 일반화를 통해 보다 효율적으로 패턴 탐사를 수행할 수 있다. 제안 방법을 Dijkstra 알고리즘과 $A^*$ 알고리즘을 대상으로 실험 평가한 결과 $A^*$ 알고리즘의 휴리스틱 가중치에 따라 차이는 있으나 연산 처리 시간을 기준으로 타 알고리즘들 보다 효과적임을 알 수 있다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.