• Title/Summary/Keyword: 정보 수집 및 추출

Search Result 752, Processing Time 0.031 seconds

Methodology and Implementation of Detecting Tool for New Words Occurring in Korean Document (신조어 자동 추출 방법론과 신어 조사 도구의 개발)

  • Lee, Samuel Sangkon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.271-276
    • /
    • 2009
  • 신조어 조사용 프로그램은 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스트를 추출하고, 간단한 어휘 분석을 통하여 국어사전에 등록된 표제어와 이미 연구자가 발견한 기존의 신조어를 제외하고, 현대의 사회상을 잘 표현하는 새로 생성된 신조어를 추출하는 작업을 하는 도구이다. 인터넷의 언론 사이트에서 규칙적인 URL 패턴을 발견하고 뉴스 기사를 수집한다. HTML 소스 분석을 통하여 언론 기사만을 추출하여 국어 전공자가 신어를 찾아내는 작업을 도와주는 조사 도구를 설계하고 구현하였다.

  • PDF

차량 정보 분석을 통한 차량 및 운전자 관리 시스템

  • Choe, Jong-U;Yun, Dae-Seop;Kim, Hyeon-Suk;Park, Jong-Hyeon
    • Information and Communications Magazine
    • /
    • v.25 no.7
    • /
    • pp.3-9
    • /
    • 2008
  • 오늘날 자동차의 보급과 IT기술의 급작스러운 발전은 텔레매틱스라는 새로운 기술 분야를 창출시켰다. 텔레매틱스 서비스는 자동차 안의 차량 단말기를 통하여 자동차와 운전자에 필요한 다양한 형태의 정보 서비스를 제공해 준다. 본고에서는 텔레매틱스 기술을 활용한 차량 및 운전자 정보관리 시스템인 VDMS (Vehicle and Driver Management Systems)에 대해 기술하고자 한다. VDMS 시스템은 차량 내 센서들을 통해서 차량의 위치, 차량의 상태, 차량의 운행, 차량의 진단 정보를 추출하여 저장하는 차량정보 추출 및 저장 시스템과 수집된 운행정보를 분석하여 운행 패턴정보와 통계정보를 제공해주는 VDMS 정보관리 및 Visualization으로 구성된다.

Analysis of Judicial Precedent Information related to Debt Recovery based on Deep-Learning (심층 학습 기반의 채권 회수 판례 분석)

  • Kim, Seon-wu;Ji, Sun-young;Choi, Sung-pil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.373-377
    • /
    • 2018
  • 판례는 재판에 대한 선례로, 법적 결정에 대한 근거가 되는 핵심 단서 중 하나이다. 본 연구에서는 채권회수를 예측하는 서비스 구축을 위한 단서를 추출하기 위해 채권 회수 판례를 수집하여 이를 분석한다. 먼저 채권 회수 판례에 대한 기초 분석을 위하여, 채권 회수 사례와 비회수 사례를 각 20건씩 수집하여 분석하였으며, 이후 대법원 및 법률 지식베이스의 채권 관련 판례 12,457건을 수집하고 채권 회수 여부에 따라 가공하였다. 채권 회수 사례와 비회수 사례를 분류하기 위한 판례 내의 패턴을 분석하여 레이블링하고, 이를 자동 분류할 수 있는 Bidirectional LSTM 기반 심층학습 모델을 구성하여 학습하였다. 채권 관련 판례 가공 기준에 따라 네 가지의 데이터 셋을 구성하였으며, 각 데이터셋을 8:2의 비율로 나누어 실험한 결과, 검증 데이터에 대하여 F1 점수 89.82%의 우수한 성능을 보였다.

  • PDF

System Design for Effective Data Collection and Analysis (효율적인 정보 추출을 위한 자료 집계 및 분석 시스템의 설계 및 구현 방안)

  • Cho, Kwang-Hyun;Park, Hee-Chang
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 2006.04a
    • /
    • pp.307-315
    • /
    • 2006
  • Distributing information on the internet is common in our daily life. In the past, e-mail has been the primary choice of exchanging information. But instant messengers are gaining popularity abroad and domestically because of their immediate responses. Instant messaging has become the fastest growing communication technology in recent years. Instant messaging is effectively a chat room of two people. Users that have accounts with the same provider are able to send messages via computer in real time. Instant messaging has exploded into the business world as companies utilize the technology for everything from interoffice communication to client/customer communication. In this paper, we propose a system design for effective data collection and statistical analysis.

  • PDF

Automatic Background Keyword of Movie Extraction Method from Media Reviews (미디어 리뷰를 이용한 영화 배경 키워드 자동 추출 기법)

  • Kim, Hyung W.;Cho, Joonmyun;Yoo, Jeongju
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1149-1151
    • /
    • 2013
  • 본 연구는 영화 콘텐츠의 배경(공간적/시간적)에 해당하는 키워드를 자동으로 추출하는 기법을 제안한다. 제안된 기법은 영화 콘텐츠들의 리뷰 텍스트 데이터를 웹 상으로부터 수집하는 과정, 수집된 텍스트 리뷰 데이터의 전처리 과정에 해당하는 형태소 분석 및 개체명인식 과정, 마지막으로 통계적 기법을 이용하여 최종적으로 배경에 해당하는 단어를 선택하는 과정으로 이루어진다. 자동으로 추출된 배경 정보는 사용자 평가를 통하여 정확도를 측정하였으며, 자동 생성된 배경 정보를 이용하여 영화 콘텐츠의 검색 및 추천 등에 다양하게 사용될 수 있을 것으로 예상된다.

COVID-19 Korean Fake News Detection using Named Entity and User Reproliferation Information (개체명 및 사용자 재확산 정보를 이용한 한국어 COVID-19 가짜 뉴스 검출)

  • Park, Chaewon;Kang, Jiwon;Lee, Daeun;Lee, Munyoung;Han, Jinyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.85-90
    • /
    • 2021
  • 코로나바이러스감염증-19로 인한 팬데믹 상황이 지속되면서 감염증 정보의 불확실성으로 인해 코로나 관련 루머가 온라인상에서 빠르게 전파되고 있다. 이러한 코로나 관련 가짜 뉴스를 사전에 탐지하기 위해, 본 연구에서는 한국어 코로나 가짜 뉴스 데이터셋을 구축하고, 개체명과 사용자 재확산 정보를 이용한 한국어 가짜 뉴스 탐지 모델을 제안한다. 가짜 뉴스 팩트체킹 언론인 서울대팩트체크센터에서 코로나 관련 루머 및 가짜 뉴스에 대한 검증 기사를 수집한 후, 기사로부터 개체명 추출 모델을 통해 주제 키워드를 추출하고, 이를 이용해 유튜브 상의 사용자 재확산 정보를 수집하여 데이터셋을 구성하였다. BERT 기반의 제안 모델을 다양한 비교군과 비교하였고, 특성 조합에 따른 실험을 통해 각 특성 정보(기사 텍스트, 개체명 데이터, 유튜브 데이터)가 가짜 뉴스 탐지 성능에 미치는 영향을 알아보았다.

  • PDF

A Development Method of Framework for Collecting, Extracting, and Classifying Social Contents

  • Cho, Eun-Sook
    • Journal of the Korea Society of Computer and Information
    • /
    • v.26 no.1
    • /
    • pp.163-170
    • /
    • 2021
  • As a big data is being used in various industries, big data market is expanding from hardware to infrastructure software to service software. Especially it is expanding into a huge platform market that provides applications for holistic and intuitive visualizations such as big data meaning interpretation understandability, and analysis results. Demand for big data extraction and analysis using social media such as SNS is very active not only for companies but also for individuals. However despite such high demand for the collection and analysis of social media data for user trend analysis and marketing, there is a lack of research to address the difficulty of dynamic interlocking and the complexity of building and operating software platforms due to the heterogeneity of various social media service interfaces. In this paper, we propose a method for developing a framework to operate the process from collection to extraction and classification of social media data. The proposed framework solves the problem of heterogeneous social media data collection channels through adapter patterns, and improves the accuracy of social topic extraction and classification through semantic association-based extraction techniques and topic association-based classification techniques.

Implementation of Digital Evidence Collection through Live Forensics (라이브 포렌식을 통한 디지털 증거 수집 구현)

  • Won-hui Lee;Ji-hoon Lee;Chae-hyeok Ahn;Su-min Woo;Sang Uk Shin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.188-189
    • /
    • 2023
  • 본 연구는 사용자가 USB에 내장된 스크립트를 실행하여 실시간으로 활성 및 비활성 데이터를 수집하는 라이브 포렌식 도구의 개발에 관한 것이다. 이 도구는 컴퓨터에 USB를 삽입하고 특정 스크립트를 실행하여 중요한 디지털 증거물을 추출하고 분석하는 기능을 제공한다. 도구는 Linux와 Windows 운영 체제용 32비트 및 64비트 버전으로 제작되었으며, 대량의 데이터 처리 시간과 저장 공간 문제를 해결하여 필요한 특정 데이터만 신속하게 추출할 수 있는 효율적인 방법을 제공한다. 이 도구는 활성 데이터와 비활성 데이터를 수집하며, 활성 데이터에는 레지스터, 네트워크 정보, 프로세스 정보, 사용자 정보 등이 포함되며, 비활성 데이터에는 메타데이터, 시스템 설정 정보, 로그 파일 등이 포함된다. 이 연구에서는 라이브 포렌식 도구의 사용 방법과 수집된 결과, 데이터 분석 방법, 그로 인한 보안 이점에 대해 다루고 있다.

Improving Relation Extraction Performance using Relevance Verification (적합성 검증을 통한 관계 추출 성능 향상)

  • Won, Yousung;Kim, Jiseong;Nam, Sangha;Hahm, YoungGyun;Choi, Key-sun
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.90-95
    • /
    • 2015
  • 기계적 학습을 위해서는 일반적으로 많은 양의 수동 주석데이터(Manually Labeled Data)가 요구된다. 원격지도(Distant Supervision)는 현실적으로 부족한 주석데이터(Labeled Data)를 대신해 자동적으로 주석데이터를 수집하여 학습하는 접근 방식으로 관계 추출(Relation Extracion) 문제에 널리 활용되고 있다. 이때 필연적으로 많은 노이즈(Noise)가 발생되는데, 적합성 검증(Relevance Verification)을 통해 수집된 학습데이터를 정제함으로써 노이즈로 인한 변동성을 줄이고 결과적으로 향상된 성능을 보여주는 관계 추출 방법을 제시한다.

  • PDF

A Mobile Agent System for Meaningful Information Filtering for XML Documents (비정형 XML 문서에서의 의미정보 검색을 위한 이동에이전트 시스템)

  • Kong, Yong-Hae;Choi, In-Seok;Lee, Kyeung-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1021-1024
    • /
    • 2002
  • 본 연구에서는 인터넷에 존재하는 다양한 XML 문서에서 의미정보를 검색하기 위한 의미정보수집 이동에이전트 시스템을 개발하였다. 이동에이전트는 실행 프로그램이 이기종 분산 환경의 네트웍에서 자율적으로 이동 및 반응하며 실제로 데이터가 존재하고 있는 장소로 이동하여 목적을 수행한다. 의미 정보수집 이동에이전트 시스템의 연구를 위하여, 정보를 개념화하고 포괄적 DTD를 자동으로 생성할 수 있는 DTD생성기를 개발하였으며 의미정보를 추론할 수 있는 추론알고리즘을 연구하였다. 개발된 의미정보수집 이동에이전트 시스템은 정보가 존재하는 원격지 사이트에 파견되어 비정형 XML 문서를 대상으로 포괄적 DTD와 추론엔진을 이용하여, 의미정보를 추출하고 전송하는 임무를 수행한다. 따라서, 의미정보수집 이동에이전트 시스템을 이용한 정보수집은 정보의 질을 향상시키고 네트워크의 부하를 감소시킨다.

  • PDF