• 제목/요약/키워드: 뉴스기사

검색결과 505건 처리시간 0.027초

국내 언론사 보건의료 뉴스의 Linked Open Data 구축 (Linked Open Data Construction for Korean Healthcare News)

  • 장종선;조완섭;이경희
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.79-89
    • /
    • 2016
  • 언론사들은 링크드 데이터(Linked Data) 기술을 활용하여 누적된 지적자산으로부터 새로운 가치를 찾는 노력을 하고 있다. 최근 들어 세계적인 언론 매체인 BBC에서는 링크드 데이터 모형을 이용해 자사의 뉴스 기사 가치를 지속해서 향상시키고 있다. 국내 인터넷 신문사들도 누적된 기사를 재활용하고, 이들로부터 새로운 가치를 찾아 뉴스 기사의 가치를 지속해서 향상시킬 필요성이 있다. 본 논문에서는 보건의료 관련 뉴스를 대상으로 링크드 데이터를 구축하는 연구를 소개한다. 기사문에서 보건의료와 관련된 개체명을 인식하여 데이터베이스화하고, 이를 공개된 다른 정보들과 연결하며, 구조화하여 링크드 데이터 서비스를 제공한다. 연구의 결과는 무분별하게 쌓여있는 뉴스데이터를 체계적으로 정리하고, 공개된 다른 정보들과 연결함으로써 기존에 발견하지 못했던 새로운 인사이트를 찾는 기회를 제공하고, 뉴스 데이터가 재활용될 수 있는데 기여할 수 있다. 마지막으로 SPARQL 질의 언어를 이용하여 뉴스 데이터를 대화식으로 탐색할 수 있는데 기여할 수 있다.

  • PDF

실제 사례 기반 비정형 데이터를 활용한 기업의 부실징후 예측에 관한 효용성 연구 (Unstructured Data based a Study of Effectiveness about Prediction of Corporate Bankruptcy with a Real Case)

  • 진훈;홍정표;이강호;주동원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.487-492
    • /
    • 2018
  • 4차산업 혁명의 여파로 국내에서는 다양한 분야에 인공지능과 빅데이터 기술을 활용하여 이전에 시행 중인 다양한 서비스 분야에 기술적 접목과 보완을 시도하고 있다. 특히 금융권에서 자금을 빌린 기업들을 대상으로 여신 안정성을 확보하고 선제적인 대응을 위해 온라인 뉴스기사들과 SNS 데이터 등을 이용하여 부실가능성을 예측하고 실제 업무에 도입하려는 시도들이 국내 주요 은행들을 중심으로 활발히 진행 중이다. 우리는 국내의 국책은행에서 수행한 비정형 데이터 기반의 기업의 부실징후 예측 시스템 개발 과정에서 시도된 다양한 분석 방법과 결과 그리고 과정 중에 발생한 문제점들에 관해 기술하고 관련 이슈들에 관하여 다룬다. 결과적으로 본 논문은 레이블이 없는 대량의 기사들에 레이블을 달기 위한 자동 태거(tagger) 개발과 뉴스 기사 예측 결과로부터 부실 가능성을 예측하기 위한 모델 및 성능 면에서 기사 예측 정확도 92%(AUC 0.96) 및 부실 가능성 기업 예측에서도 정형 데이터 분석결과에 견줄만한 성과를 이루었고 이에 관해 보고한다.

  • PDF

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

뉴스 웹 페이지에서 기사 본문 추출에 관한 연구 (A Study on Extracting News Contents from News Web Pages)

  • 이용구
    • 정보관리학회지
    • /
    • 제26권1호
    • /
    • pp.305-320
    • /
    • 2009
  • 웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.

온라인 뉴스 웹사이트의 로그를 이용한 연관규칙 발견에 관한 연구 (Mining Association Rules from the Web Access Log of an Online News website)

  • 황현석;유기동
    • 한국산업정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.47-57
    • /
    • 2013
  • 인터넷의 활용으로 기업활동의 많은 영역이 온라인을 통해 이루어지고 있다. 온라인 쇼핑몰에서는 고객이 웹사이트 방문 후에 어떤 활동을 하는지를 파악하고 이를 경영활동의 성과로 연계하기 위해 웹 로그를 분석하고 있다. 온라인 뉴스 사이트에서도 방문자의 활동을 파악하고 어떤 기사에 관심이 많은지, 어떤 분야의 기사를 많이 보는지 등을 파악하여 독자에게 서비스하는 것이 필요하다. 그러나 언론사의 웹사이트 로그를 분석하는 연구는 충분히 이루어지지 않고 있다. 본 연구에서는 온라인 뉴스 웹사이트에서 수집된 로그를 이용하여 방문자의 웹사이트 내에서의 활동을 파악하고 뉴스 기사간 연관규칙을 도출한다. 연구는 크게 방문자의 세션(session)을 파악하는 첫 번째 단계와 방문자가 읽은 뉴스 기사간의 연관규칙을 살펴보는 두 번째 단계로 이루어져 있으며 두 차례에 걸쳐 수집된 웹사이트 로그를 이용하여 분석하였다. 최종적으로 도출된 규칙의 의미와 온라인 뉴스 사이트에서 고려해야 하는 함의를 제시하였다.

특허 및 뉴스 기사 텍스트 마이닝을 활용한 정책의제 제안 (Policy agenda proposals from text mining analysis of patents and news articles)

  • 이새미;홍순구
    • 디지털융복합연구
    • /
    • 제18권3호
    • /
    • pp.1-12
    • /
    • 2020
  • 본 연구의 목적은 텍스트 마이닝을 활용하여 특허와 뉴스 기사 분석을 통해 블록체인 기술 동향을 탐색하고 사회적 관심을 파악하여 블록체인 정책의제를 제안하는 것이다. 이를 위해 국내 블록체인 특허 요약문 327건과 온라인 뉴스기사 전문 5,941건을 수집하고 전처리 과정을 거쳐 LDA 토픽모델링 방법을 사용하여 특허 토픽 12개와 뉴스 토픽 19개를 추출하였다. 특허 분석을 통해 인증과 거래 관련 토픽이 높은 비중을 차지하였다. 뉴스 기사 분석 결과, 사회적 관심은 암호화폐에 치중되어 있는 것으로 나타났다. 이러한 분석 결과와 의제설정이론에 근거하여 블록체인 관련 정책의제를 도출하였다. 본 연구는 대용량 텍스트 문서 분석의 자동화된 기법을 활용하여 분석을 효율적·객관적으로 수행하였으며, 블록체인 기술 동향과 사회적 관심도를 파악한 실증된 기초 분석 자료를 기반으로 정책의제를 제안하였다. 본 연구에서 제시된 정책의제는 향후 정책 결정과정에의 기초자료로 활용될 수 있을 것이다.

사용자의 결합된 행동을 이용한 적응형 정보여과 에이전트 (An Adaptive Information Filtering Agent based on User′s Combined Behaviors)

  • 송용수;홍언주;오경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.268-270
    • /
    • 2002
  • 본 논문에서는 온라인 뉴스 기사를 여과하여 사용자에게 관련있는 뉴스기사만을 선별적으로 여과하여 보여주는 정보여과 에이전트를 설계 및 구현하였다. 정보여과의 핵심이라고 할 수 있는 정확한 사용자 프로파일 구축과 정보에 대한 사용자의 적합성 반응인 명시적 피드백과 암시적 피드백을 모두 결합한 피드백을 사용하여 사용자 프로파일을 좀 더 정교하게 구축하는 방법을 기술하였다. 실험을 통하여 사용자의 결합된 적합성 피드백 행동에 기반한 정보여과 에이전트의 성능이 단일의 피드백만을 사용했을 때보다 더 좋은 정확성과 적응성을 지니고 있음을 보여 주었다.

  • PDF

카이제곱 통계량을 이용한 이슈 단어 추출 (Issue Word Extraction Using Chi-square Statistics)

  • 신준수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-227
    • /
    • 2014
  • 최근 온라인 뉴스는 대중의 관심사 및 트렌드에 따라서 다양한 종류의 기사들이 작성된다. 이러한 관심사 및 트렌드는 시간의 흐름에 따라 계속 변한다. 본 논문에서는 온라인 뉴스의 기사 제목을 이용하여 시간에 따라 변하는 관심사 및 트렌드와 관련된 단어를 추출하는 방법을 제안한다. 특정 기간 별 출현하는 뉴스들을 하나의 카테고리로 가정하고 자질 선택 방법에서 널리 사용되는 카이제곱 통계량을 이용하여 각 카테고리의 주요 단어를 추출한다. 실험 결과 특정 기간 별 관심사 및 트렌드와 관련된 단어들이 출현하는 것을 확인하였다.

  • PDF