• 제목/요약/키워드: Text Matching

검색결과 148건 처리시간 0.027초

스마트 기기의 멀티 모달 로그 데이터를 이용한 사용자 성별 예측 기법 연구 (A Study on Method for User Gender Prediction Using Multi-Modal Smart Device Log Data)

  • 김윤정;최예림;김소이;박규연;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.147-163
    • /
    • 2016
  • 스마트 기기 사용자의 성별 정보는 성공적인 개인화 서비스를 위해 중요하며, 스마트 기기로부터 수집된 멀티 모달 로그 데이터는 사용자의 성별 예측에 중요한 근거가 된다. 하지만 각 멀티 모달 데이터의 특성에 따라 다른 방식으로 성별 예측을 수행해야 한다. 따라서 본 연구에서는 스마트 기기로부터 발생한 로그 데이터 중 텍스트, 어플리케이션, 가속도 데이터에 기반한 각기 다른 분류기의 예측 결과를 다수결 방식으로 앙상블하여 최종 성별을 예측하는 기법을 제안한다. 텍스트 데이터를 이용한 분류기는 데이터 유출에 의한 사생활 침해 문제를 최소화하기 위해 웹 문서로부터 각 성별의 특징적 단어 집합을 도출하고 이를 기기로 전송하여 사용자의 기기 내에서 성별 분류를 수행한다. 어플리케이션 데이터에 기반한 분류기는 사용자가 실행한 어플리케이션들에 성별을 부여하고 높은 비율을 차지하는 성별로 사용자의 성별을 예측한다. 가속도 기반 분류기는 성별에 따른 사용자의 가속도 데이터 인스턴스를 학습한 SVM 모델을 사용하여 주어진 성별을 분류한다. 자체 제작한 안드로이드 어플리케이션을 통해 수집된 실제 스마트 기기 로그 데이터를 사용하여 제안하는 기법을 평가하였으며 그 결과 높은 예측 성능을 보였다.

내용기반 음악검색 시스템의 비교 분석 (A Comparative Analysis of Content-based Music Retrieval Systems)

  • 노정순
    • 정보관리학회지
    • /
    • 제30권3호
    • /
    • pp.23-48
    • /
    • 2013
  • 본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

스캔된 문서에서의 도장 검출 (Seal Detection in Scanned Documents)

  • 유견아;김경혜
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권12호
    • /
    • pp.65-73
    • /
    • 2013
  • 디지털 시대의 도래에 따라 문서들이 기록 보관되기 위해서 혹은 네트워크를 통해 전송되기 위해서 스캔되는 경우가 많아졌다. 스캔된 문서에서 가장 큰 비중을 차지하는 것은 텍스트이며 텍스트 이외에는 문서 작성자를 나타내는데 사용되는 도장이 가장 많이 포함되어 있다. 스캔된 문서의 중요성이 부각되면서 스캔된 문서로부터 텍스트를 인식하는 연구는 많이 진행되어 상용화된 제품도 개발된 것에 비해 문서가 포함하고 있는 도장에 대한 정보는 버려지고 있는 실정이다. 본 논문에서는 도장이 포함된 컬러 혹은 흑백 문서 영상에서 도장 영역을 검출하여 도장 이미지를 저장하는 방법을 연구한다. 스캔된 문서에서 도장의 외곽선 후보만을 남기고 다른 기타 구성 요소를 제거하는 전처리 과정과 도장의 특징을 이용하여 남은 요소 중에 최종 관심 영역을 선정하는 방법을 제안한다. 또한 검출된 관심 영역의 도장 정보가 텍스트와 겹친 이미지인 경우에는 템플릿 매칭을 통해 데이터베이스로부터 가장 유사한 도장을 찾아 대신 저장할 수 있게 한다. 구현된 시스템은 학교에서 일반적으로 생성되는 여러 유형의 문서들을 대상으로 검증하고 그 결과를 분석한다.

Intelligent Character Recognition System for Account Payable by using SVM and RBF Kernel

  • Farooq, Muhammad Umer;Kazi, Abdul Karim;Latif, Mustafa;Alauddin, Shoaib;Kisa-e-Zehra, Kisa-e-Zehra;Baig, Mirza Adnan
    • International Journal of Computer Science & Network Security
    • /
    • 제22권11호
    • /
    • pp.213-221
    • /
    • 2022
  • Intelligent Character Recognition System for Account Payable (ICRS AP) Automation represents the process of capturing text from scanned invoices and extracting the key fields from invoices and storing the captured fields into properly structured document format. ICRS plays a very critical role in invoice data streamlining, we are interested in data like Vendor Name, Purchase Order Number, Due Date, Total Amount, Payee Name, etc. As companies attempt to cut costs and upgrade their processes, accounts payable (A/P) is an example of a paper-intensive procedure. Invoice processing is a possible candidate for digitization. Most of the companies dealing with an enormous number of invoices, these manual invoice matching procedures start to show their limitations. Receiving a paper invoice and matching it to a purchase order (PO) and general ledger (GL) code can be difficult for businesses. Lack of automation leads to more serious company issues such as accruals for financial close, excessive labor costs, and a lack of insight into corporate expenditures. The proposed system offers tighter control on their invoice processing to make a better and more appropriate decision. AP automation solutions provide tighter controls, quicker clearances, smart payments, and real-time access to transactional data, allowing financial managers to make better and wiser decisions for the bottom line of their organizations. An Intelligent Character Recognition System for AP Automation is a process of extricating fields like Vendor Name, Purchase Order Number, Due Date, Total Amount, Payee Name, etc. based on their x-axis and y-axis position coordinates.

광고 캠페인의 소셜 네트워크 확산 구조에 대한 연구 (How do advertisements spread on social networks?)

  • 김유나;한상필
    • 디지털융복합연구
    • /
    • 제16권8호
    • /
    • pp.161-167
    • /
    • 2018
  • 본 연구의 목적은 광고 캠페인이 소셜 네트워크에서 어떻게 확산되고 있으며, 광고의 핵심 요인인 광고모델이 확산에 어떤 역할을 하는지 그 패턴과 양상을 살펴보기 위한 것이다. 본 연구 목적을 달성하기 위해 국내 맥주 브랜드인 '클라우드(Kloud)'를 수집 키워드로 하여 텍스트마이닝과 소셜 네트워크 분석을 실시하였다. 구체적으로 '클라우드' 광고의 영향이 어떻게 SNS에 나타나는지 살펴보기 위해, '설현'이 광고모델로 처음 등장한 'Good Body' 광고 집행 이후 2달 간 네이버 블로그와 카페의 소셜 데이터를 수집하여 분석하였다, 그 결과, 광고 이후 클라우드에 대해 '?고 트렌디한 스타일', '맥주 브랜드', '맥주와 어울리는 음식', '럭셔리한 맥주 음용 장소', '여가 트렌드', 'SNS 활동' 등으로 인식하는 것으로 나타났다. 또한 클라우드 광고 모델 '설현' 역시 모델 이미지를 브랜드에 전이시키는 동시에 광고의 USP 및 브랜드명을 잘 전달하고 있는 것으로 나타나, 광고 모델이 소셜 미디어 상에서 광고와 브랜드의 확산에 영향을 주는 주요 요인임을 확인할 수 있었다. 본 연구는 소셜 네트워크 분석을 이용하여 광고 캠페인의 SNS 상의 확산 구조와 패턴을 밝혀냄으로써 광고 캠페인의 효율적인 운영 관리에 실무적인 기여를 했다는 의의를 갖는다.

패턴 기반 기법을 사용한 용어 간 관계 추출 방법 (A Method for Extracting Relationships Between Terms Using Pattern-Based Technique)

  • 김영태;김치수
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권8호
    • /
    • pp.281-286
    • /
    • 2018
  • 최근 정보의 복잡성과 다양성 및 방대한 양의 가용 정보가 증가함에 따라 대규모 데이터로부터 의미 있는 검색 결과를 추출하는 방법으로서 온톨로지에 대한 관심과 필요성이 증가하고 있다. 주어진 자연어 텍스트로부터 온톨로지를 추출하는 많은 방법이 제안되었지만, 현재 대부분의 방법은 온톨로지의 구조에 일치되도록 추출하지 못하는 실정이다. 본 논문에서는 온톨로지를 구축하기 위해 필요한 용어를 특정 도메인에서 주어진 텍스트와 구별하고 패턴 기반 방법을 기반으로 용어 사이의 다양한 관계를 추출하는 방법을 제안한다. 용어들 간의 관계를 추출하기 위해 일치 패턴 집합을 고려하고 조인 집합 개념과 패턴의 정렬을 연결하여 검색 공간의 크기를 줄이는 방법을 제안한다. 그 결과 이 방법이 검색 공간으로부터 유용한 어떤 패턴도 제거하지 않고 50-95% 정도로 검색 공간의 크기를 줄이는 결과를 보였다.

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

참고문헌 자동파싱 및 참조링킹을 위한 Citation Matcher 연구 및 개발 (Research and Development of Citation Matcher for Reference Parsing and Cross-Reference Linking)

  • 이상기;김선태;이용식;이태석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.426-429
    • /
    • 2007
  • CrossRef에서는 DOI 식별자를 기반으로 출판사 간 참고문헌을 링크하기 위한 참조링킹 인프라를 제공하고 있으며, CrossRef과 연계한 참고문헌의 전자원문 링크 서비스인 참조링킹 체제를 구축하는 기관이 점차 늘고 있다. 본 연구에서는 참조링킹 체제를 효율적으로 구축하기 위해 Citation Matcher를 개발하였다. Citation Matcher는 과거 수작업에 의존하던 참고문헌 DB구축 및 식별자 매칭 프로세스를 자동화하고 패턴화한 것으로, 참고문헌을 원형 그대로 Copy & Paste하면, 참고문헌의 패턴을 분석하여 참고문헌으로부터 저널명, 저자, 권/호 등 Citation 정보를 일목요연하게 파싱하고, 파싱한 정보를 표준화된 방식으로 CrossRef, Pubmed, yesKISTI 등의 메타데이터와 매칭하여 식별자를 획득하여 링크하는 솔루션이다. Citation Matcher는 과거 사람이 수행하던 국내 학술논문의 참고문헌 구축 및 매칭 프로세스를 완전 자동화함으로써 업무 프로세스를 혁신하고, 정보자원 간 연계성 제고 및 논문 간 Seamless한 접근을 통해 이용 편리성을 제고하기 위한 것이다.

  • PDF

트리 구조를 이용한 수식 인식 연구 (A Study on Equation Recognition Using Tree Structure)

  • 박병준;김현식;김완태
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.340-345
    • /
    • 2018
  • 수식은 일반 문장에 비해 복잡한 구조와 다양한 문자와 기호가 사용되어 단순한 키보드 입력만으로는 모든 문자 집합을 입력할 수 없어 한글이나 워드 같은 문서편집기 내에서도 자체적으로 구현된 수식 편집기를 사용하고 있다. 수식을 올바르게 표현하기 위해 구문을 해석할 수 있는 의미가 될 수 있는 사전 학습 정보가 필요하다. 문자가 입력되더라도 크기와 위치 서로간의 관계에 따라 다른 수식으로 표현될 수 있기 때문이다. 즉 표현될 위치와 크기 등 문자와 기호들 간의 상호관계를 고려하여 수식의 형태를 트리 모델로 표현한다. 문자인식 응용의 한 분야로 문자나 기호(부호)를 인식하는 기술을 이미 널리 알려졌지만, 수식을 입력과 해석하는 방법은 일반적인 텍스트에 비해 복잡한 분석 과정이 필요하다. 본 논문에서는 수식의 문자를 인식하고 표현되는 위치와 크기의 결정을 빠르게 해석하는 수식 인식기를 구현하였다.

시·공간 정보를 이용한 동영상의 인공 캡션 검출 (Detection of Artificial Caption using Temporal and Spatial Information in Video)

  • 주성일;원선희;최형일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권2호
    • /
    • pp.115-126
    • /
    • 2012
  • 동영상에 포함되는 인공 캡션은 영상과 관계있는 의미정보를 포함한다. 이러한 영상을 표현하는 정보를 이용하기 위해 캡션을 추출하는 연구는 근래에 들어 활발히 진행되고 있다. 기존 방법들은 대부분 정지영상에서 캡션을 검출하였다. 하지만 동영상의 경우에는 유용한 시간정보가 있다. 따라서 본 연구는 이러한 시간정보를 사용한 캡션영역 검출방법을 제안한다. 먼저, 캡션후보영역 검출을 위해 문자출현맵을 생성하고, 후보영역 매칭 과정에서 지속후보영역을 검출한다. 검출된 지속후보영역의 소멸성 검사를 통해 캡션의 소멸 여부를 검출하고 소멸된 캡션 일 경우 시 공간정보에 의한 병합과정을 통해 캡션후보영역을 결정한다. 마지막으로 결정된 캡션후보영역을 검증하기 위하여 에지 방향 히스토그램을 이용한 신경망 인식기를 통하여 최종캡션영역을 검출한다. 실험을 위해 다양한 크기와 형태, 위치의 캡션을 포함하는 동영상에 대해 영역검출의 성능을 평가하고자 Recall과 Precision을 이용하여 제안하는 방법의 영역검출에 대한 효율성을 입증한다.