• 제목/요약/키워드: Semantic retrieval

검색결과 397건 처리시간 0.025초

모바일 장치기반의 바이오 객체 이미지 매칭 시스템 설계 및 구현 (The design and implementation of Object-based bioimage matching on a Mobile Device)

  • 박찬일;문승진
    • 인터넷정보학회논문지
    • /
    • 제20권6호
    • /
    • pp.1-10
    • /
    • 2019
  • 객체기반 이미지 매칭 알고리즘 기술은 이미지 프로세싱 및 컴퓨터 비전 분야에서 광범위하게 사용되어 왔다. 이러한 이미지 매칭 알고리즘 기반의 수 많은 응용 프로그램은 객체인식, 3D 모델링, 비디오 추적 및 바이오 정보학 분야에서 개발되어 왔다. 이미지 매칭 알고리즘의 좋은 예는 Scale invariant Feature Transform(SIFT) 이다. 하지만 SIFT 알고리즘 기술을 이용한 많은 응용 프로그램은 클라이언트-서버 구조가 아닌 하나의 시스템으로 운영되어 왔다. 본 논문은 모바일 플랫폼 기반에서 SIFT 알고리즘 기술을 이용하여 클라이언트-서버 구조로 이미지 매칭 시스템을 구현하였다. 제안된 시스템은 바이오 이미지 객체를 매칭하고 식별하여 사용자에게 유용한 정보를 제공한다. 또한 본 논문의 주요 방법론적 기여는 모바일 장치에 유비쿼터스 인터넷 연결을 활용하여 편리한 사용자 인터페이스와 객체간의 상호작용적인 묘사, 분할, 표현, 매칭 및 바이오 이미지를 검색한다. 본 논문은 이러한 기술과 함께 바이오 정보학에 대한 의미론적 이미지 검색을 수행하며 응용 프로그램에서 객체 이미지의 다른 점을 추출하여 신뢰할 수 있는 이미지 매칭을 수행하는 예를 제시해주었다.

과학 기술 문헌 분석을 위한 기계학습 기반 범용 전문용어 인식 시스템 (Terminology Recognition System based on Machine Learning for Scientific Document Analysis)

  • 최윤수;송사광;전홍우;정창후;최성필
    • 정보처리학회논문지D
    • /
    • 제18D권5호
    • /
    • pp.329-338
    • /
    • 2011
  • 문헌에서의 전문용어 인식 연구는 정보검색, 정보추출, 시맨틱 웹, 질의응답 분야 등의 연구를 위한 선행 연구로서, 지금까지 대부분 특정 분야, 특히 생의학 분야에서 집중되어 연구되어 왔다. 그러나 기존 연구들이 특정 도메인 또는 문헌 내부 통계 정보를 활용함으로써 범용적인 전문용어 인식에 한계점을 보여 왔기 때문에, 본 연구에서는 웹 검색 결과와 사전, 후보용어의 문형 특징 등을 활용하는 기계 학습 기반 범용 전문용어 인식 방법을 제안하였다. 제안한 방법을 문헌의 지역 통계 정보를 사용하는 방법(C-value)과 비교 실험하여 80.8%의 F-값으로 6.5%의 성능향상을 보였다. 다양한 응집도 자질들을 접목한 두 번째 실험에서는 Normalized Google Distance 방법과 접목한 방식이 F-값 81.8%의 성능으로 최고의 성능을 나타냈다. 기계 학습 방법으로는 로지스틱 회귀분석, C4.5, SVMs 등을 적용하였는데, 일반적으로 이진 분류에 좋은 성능을 보이는 SVMs과 로지스틱 회귀분석 방법보다 결정 트리 방식의 C4.5가 전반적으로 좋은 성능을 보였다.

WordNet기반의 형식개념분석기법을 이용한 사용자태그 분류체계의 구축 (Construction of Hierarchical Classification of User Tags using WordNet-based Formal Concept Analysis)

  • 황석형
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.149-161
    • /
    • 2013
  • 본 논문에서는, 어휘정보를 체계화한 워드넷(WordNet)을 토대로 형식개념분석기법(Formal Concept Analysis)을 사용하여 폭소노미 사용자들의 태그데이터를 분석하여 사용자태그의 분류체계를 구축하기 위한 기법을 제안하였다. 또한, 제안된 기법을 지원하기 위한 도구(TagLighter)의 개발에 대하여 설명하고, 그 유용성을 확인하기 위하여 Bibsonomy.org의 사용자 태그데이터를 대상으로 실시한 실험결과를 기술하였다. TagLighter에 의해 구축된 사용자태그 분류계층구조는 사용자태그에 대한 보다 상세한 이해를 제공하기 때문에, 폭소노미기반 시스템에서의 정보검색과 데이터 분석에 유용하다. 본 논문의 연구결과는, 폭소노미기반의 웹서비스와 소셀네트워크시스템, 시맨틱웹 어플리케이션 등을 대상으로 하는 웹데이터 마이닝분야에 응용할 수 있다.

정보검색 기법을 이용한 효율적인 자동 키워드 태깅 (An Efficient Method of IR-based Automated Keyword Tagging)

  • 김진숙;최호섭;류범종
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2008년도 춘계 종합학술대회 논문집
    • /
    • pp.24-27
    • /
    • 2008
  • 위키피디아의 백과사전에서 보여주는 바와 같이 주요한 용어에 대한 링크를 통한 태깅은 문서의 가독성을 크게 향상시킨다. 웹 2.0에서도 사회적 태깅(Social Tagging)의 중요성이 부각되고 있으며 시멘틱웹의 태그클라우드(Tag Cloud) 형태로 발전하고 있다. 본 논문에서는 대용량 통제어 사전에 등재된 주요 용어를 대상문서에 태깅하는 방법에 대해 연구결과를 제시한다. 기본적으로 사전에 있는 모든 용어(항목수 N)를 주어진 문서(길이 m)에서의 출현 여부를 문자열탐색을 통해 비교하여 태깅하는 방식은 O(mN)의 계산복잡도를 가진다. 그러나 본 논문에서 제시하는 바와 같이 정보검색을 이용할 경우에는 계산복잡도를 O(mlogN)으로 줄일 수 있었다. 정보검색을 활용하면 단순문자열 탐색에 비해서 평균 17.8배, 빠른 문자열탐색 알고리즘에 비해서도 평균 5.6배 이상 태깅 속도가 향상되었다.

  • PDF

3차원 그래픽 이미지를 위한 XML 데이타베이스 시스템 (An XML Database System for 3-Dimensional Graphic Images)

  • 황종하;황수찬
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권2호
    • /
    • pp.110-118
    • /
    • 2002
  • 본 논문에서는 3차원 이미지의 내용기반 검색을 지원하는 XML 기반의 3차원 그래픽 데이터 베이스 시스템에 대해 기술한다. 현재 대부분의 그래픽 응용들은 2차원 이미지를 대상으로 하고 있으며 3차원 그래픽스 분야에서는 3차원 이미지의 표현에 대해서만 중점적으로 연구가 되고 있을 뿐 이미지가 포함하고 있는 의미 단위로서의 객체 모델링이나 이들 간의 공간 관계에 대한 처리는 아직 미흡한 실정이다. 본 논문의 모델에서 3차원 이미지는 공간관계를 가지고 있는 3차원 그래픽 객체의 조합으로 표현된다. 복잡한 3차원 객체는 기존의 그래픽 시스템에서 사용하는 선과 면 대신에 기본적인 객체들을 이용하여 모델링된다. 이렇게 구성된 3차원 그래픽 이미지들은 객체 모양이나 객체간의 공간관계를 이용한 내용기반 검색의 대상이 된다. 3차원 그래픽 이미지들은 XML 문서 형태로 표현되며, 이를 위한 3DGML DTD를 정의하였다. 끝으로 웹 기반으로 구현된 프로토타입 시스템에서의 질의 예를 보인다.

Question Similarity Measurement of Chinese Crop Diseases and Insect Pests Based on Mixed Information Extraction

  • Zhou, Han;Guo, Xuchao;Liu, Chengqi;Tang, Zhan;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권11호
    • /
    • pp.3991-4010
    • /
    • 2021
  • The Question Similarity Measurement of Chinese Crop Diseases and Insect Pests (QSM-CCD&IP) aims to judge the user's tendency to ask questions regarding input problems. The measurement is the basis of the Agricultural Knowledge Question and Answering (Q & A) system, information retrieval, and other tasks. However, the corpus and measurement methods available in this field have some deficiencies. In addition, error propagation may occur when the word boundary features and local context information are ignored when the general method embeds sentences. Hence, these factors make the task challenging. To solve the above problems and tackle the Question Similarity Measurement task in this work, a corpus on Chinese crop diseases and insect pests(CCDIP), which contains 13 categories, was established. Then, taking the CCDIP as the research object, this study proposes a Chinese agricultural text similarity matching model, namely, the AgrCQS. This model is based on mixed information extraction. Specifically, the hybrid embedding layer can enrich character information and improve the recognition ability of the model on the word boundary. The multi-scale local information can be extracted by multi-core convolutional neural network based on multi-weight (MM-CNN). The self-attention mechanism can enhance the fusion ability of the model on global information. In this research, the performance of the AgrCQS on the CCDIP is verified, and three benchmark datasets, namely, AFQMC, LCQMC, and BQ, are used. The accuracy rates are 93.92%, 74.42%, 86.35%, and 83.05%, respectively, which are higher than that of baseline systems without using any external knowledge. Additionally, the proposed method module can be extracted separately and applied to other models, thus providing reference for related research.

Patent Technology Trends of Oral Health: Application of Text Mining

  • Hee-Kyeong Bak;Yong-Hwan Kim;Han-Na Kim
    • 치위생과학회지
    • /
    • 제24권1호
    • /
    • pp.9-21
    • /
    • 2024
  • Background: The purpose of this study was to utilize text network analysis and topic modeling to identify interconnected relationships among keywords present in patent information related to oral health, and subsequently extract latent topics and visualize them. By examining key keywords and specific subjects, this study sought to comprehend the technological trends in oral health-related innovations. Furthermore, it aims to serve as foundational material, suggesting directions for technological advancement in dentistry and dental hygiene. Methods: The data utilized in this study consisted of information registered over a 20-year period until July 31st, 2023, obtained from the patent information retrieval service, KIPRIS. A total of 6,865 patent titles related to keywords, such as "dentistry," "teeth," and "oral health," were collected through the searches. The research tools included a custom-designed program coded specifically for the research objectives based on Python 3.10. This program was used for keyword frequency analysis, semantic network analysis, and implementation of Latent Dirichlet Allocation for topic modeling. Results: Upon analyzing the centrality of connections among the top 50 frequently occurring words, "method," "tooth," and "manufacturing" displayed the highest centrality, while "active ingredient" had the lowest. Regarding topic modeling outcomes, the "implant" topic constituted the largest share at 22.0%, while topics concerning "devices and materials for oral health" and "toothbrushes and oral care" exhibited the lowest proportions at 5.5% each. Conclusion: Technologies concerning methods and implants are continually being researched in patents related to oral health, while there is comparatively less technological development in devices and materials for oral health. This study is expected to be a valuable resource for uncovering potential themes from a large volume of patent titles and suggesting research directions.

시각적 특징을 기반한 샷 클러스터링을 통한 비디오 씬 탐지 기법 (Video Scene Detection using Shot Clustering based on Visual Features)

  • 신동욱;김태환;최중민
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.47-60
    • /
    • 2012
  • 비디오 데이터는 구조화되지 않은 복합 데이터의 형태를 지닌다. 이러한 비디오 데이터의 효율적인 관리 및 검색을 위한 비디오 데이터 구조화의 중요성이 대두되면서 콘텐츠 내 시각적 특징을 기반으로 비디오 씬(scene)을 탐지하고자 하는 연구가 활발히 진행되었다. 기존의 연구들은 주로 색상 정보만을 이용하여 샷(shot) 간의 유사도 평가를 기반한 클러스터링(clustering)을 통해 비디오 씬을 탐지하고자 하였다. 하지만 비디오 데이터의 색상 정보는 노이즈(noise)를 포함하고, 특정 사물의 개입 등으로 인해 급격하게 변화하기 때문에 색상만을 특징으로 고려할 경우, 비디오 샷 혹은 씬에 대한 올바른 식별과 디졸브(dissolve), 페이드(fade), 와이프(wipe)와 같은 화면의 점진적인 전환(gradual transitions) 탐지는 어렵다. 이러한 문제점을 해결하기 위해, 본 논문에서는 프레임(frame)의 컬러 히스토그램과 코너 에지, 그리고 객체 컬러 히스토그램에 해당하는 시각적 특징을 기반으로 동일한 이벤트를 구성하는 의미적으로 유사한 샷의 클러스터링을 통해 비디오 씬을 탐지하는 방법(Scene Detector by using Color histogram, corner Edge and Object color histogram, SDCEO)을 제안한다. SDCEO는 샷 바운더리 식별을 위해 컬러 히스토그램 분석 단계에서 각 프레임의 컬러 히스토그램 정보를 이용하여 1차적으로 연관성 있는 연속된 프레임을 샷 바운더리로 병합한 후, 코너 에지 분석 단계에서 병합된 샷 내 처음과 마지막 프레임의 코너 에지 특징 비교를 통하여 샷 바운더리를 정제하여 최종 샷을 식별한다. 키프레임 추출 단계에서는 샷 내 프레임간 유사도 비교를 통해 모든 프레임과 가장 유사한 프레임을 각 샷을 대표하는 키프레임으로 추출한다. 그 후, 비디오 씬 탐지를 위해, 컬러 히스토그램과 객체 컬러 히스토 그램에 해당하는 프레임의 시각적 특징을 기반으로 상향식 계층 클러스터링 방법을 이용하여 의미적인 연관성을 지니는 샷의 군집화를 통해 비디오 씬을 탐지하는 방법이다. 본 논문에서는 SDCEO의 프로토 타입을 구축하고 3개의 비디오 데이터를 이용한 실험을 통하여 SDCEO의 효율성을 평가하였고 샷 바운더리 식별의 성능의 정확도는 평균 93.3%, 비디오 씬 탐지 성능의 정확도는 평균 83.3%로 만족할만한 성능을 보였다.

빅데이터 분석을 활용한 워터파크 현황 및 인식 분석 (Analysis of Waterpark Status and Recognition Using Big Data Analysis)

  • 김재환;이재문
    • 디지털융복합연구
    • /
    • 제15권10호
    • /
    • pp.525-535
    • /
    • 2017
  • 본 연구는 최근 워터파크와 관련된 키워드를 통해 소비자 인식, 워터파크 현황을 살펴보고자 한다. 본 연구는 네이버와 다음을 수집채널로 선정하였으며, 키워드는 '워터파크'를 사용하였다. 자료 분석기간은 2015년 1월 1일부터 2016년 12월 31일까지 총 2년간을 연구기간으로 한정하였다. 분석결과 첫째, 빈도수를 살펴본 결과, 2015년 몰래카메라, 롯데워터파크, 검거, 용의자, 김해 2016년 롯데워터파크, 물놀이, 여름, 개장, 입장권 순으로 나타났다. 둘째, 연결정도 중심성 분석결과, 2015년 몰래카메라, 검거, 용의자, 여성, 샤워실 2016년 물놀이, 롯데워터파크, 여름, 원마운트, 입장권 순으로 나타났다. 셋째, N-GRAM 네트워크 그래프를 실시한 결과, 2015년 워터파크/몰래카메라, 몰래카메라/몰래카메라, 용의자/검거, 김해/롯데워터파크, 워터파크/용의자, 2016년 원마운트/워터파크, 김해/롯데워터파크, 워터파크/입장권, 워터파크/워터파크, 워터파크/개장 순으로 나타났다. 넷째, CONCOR분석을 실시한 결과, 2015년 3개의 그룹과 2016년 2개의 그룹이 형성되었다.

하이퍼미디어.멀티미디어.하이퍼텍스트: 정의(定義)와 개관(槪觀) (Hypermedia, Multimedia and Hypertext: Definitions and Overview)

  • 김지희
    • 정보관리연구
    • /
    • 제25권1호
    • /
    • pp.24-46
    • /
    • 1994
  • 본 논문은 하이퍼미디어, 멀티미디어, 하이퍼텍스트의 정의(定義)와 개관(槪觀)에 관한 것이다. 하이퍼텍스트에서는 관련 정보가 노드의 형태로 분류되며, 각 노드는 링크로 서로 연결된다. 하이퍼텍스트의 경우, 노드는 텍스트 혹은 그래픽 정보를 소장하고 있다. 멀티미디어에서는 여러 유형의 미디어(음성, 애니메이션, 텍스트, 그래픽, 비디오)가 결합된다. 하이퍼미디어는 하이퍼텍스트와 멀티미디어의 확장으로 볼 수 있다. 하이퍼미디어에서는 시스템에서 정보를 조직(組織)함에 있어서 노드와 링크를 사용하는 하이퍼텍스트의 개념(槪念)에 기초하고 있으며, 이런 경우 노드는 위의 멀티미디어 정의에서 언급된 여러 데이터 유형(類型)으로 구성된다. '노드와 링크' 개념은 하이퍼미디어 시스템에서 정보(情報)를 조직(組織)하는데 사용된다. 하이퍼미디어 시스템 계발의 새로운 접근방법은 지식기반(知識基盤) 접근(接近)이다. Joel Peing-Ling Loo는 지식기반 접근이 이러한 종류의 기술을 다루는 데 가장 효과적(效果的)이라고 제안하였다. 의미기반(意味基盤) 하이퍼미디어 모형(模型)이 정보책임, 유지와 검색을 표현하는데 있어서의 제한점(制限點)에 대한 해결책으로서 개발되었다. 정보의 지식기반(知識基盤) 표현은 전통적인 데이터 구조의 사용을 포함한다. 이러한 데이터 구조는 전문가(專門家) 시스템에서 사용되는 프레임(객체(客體)), 슬롯, 계승이론을 사용한다. 이러한 객체들이 데이터베이스에 포함되기 때문에 관계가 여러 객체 사이에서 개발되었으며, 또한 관계는 프레임이 속하는 어트리뷰트에 의하여 프레임 사이에서 존재(存在)할 수 있다.

  • PDF