• 제목/요약/키워드: Web contents mining

검색결과 72건 처리시간 0.029초

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.

시맨틱 웹에서 개인화 프로파일을 이용한 콘텐츠 추천 검색 시스템 (Contents Recommendation Search System using Personalized Profile on Semantic Web)

  • 송창우;김종훈;정경용;류중경;이정현
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.318-327
    • /
    • 2008
  • 정보기술의 발전과 인터넷 사용의 증가로 이용가능한 정보들의 양이 폭발적으로 증가한다. 콘텐츠 추천 시스템은 사용자가 원하지 않는 정보를 필터링하고 유용한 정보를 추천하는 서비스를 제공한다. 기존의 추천 시스템은 데이터마이닝 기법으로 웹 접속 기록 및 유형과 사용자가 요구하는 정보를 서비스 제공자 측면에서 분석하여 콘텐츠를 제공한다. 사용자의 선호도와 생활패턴 등의 사용자 측면에서의 정보들의 표현이 어려웠기 때문에 제한된 서비스를 제공할 수 밖에 없었다. 시맨틱 웹 기술은 이미지, 문서 등의 모든 객체를 대상으로 목적에 맞는 정보를 수집, 가공, 응용할 수 있도록 데이터 간에 잘 정의된 의미 있는 관계를 만들 수 있다. 본 논문에서는 시맨틱 웹 환경에서 개인화 프로파일을 동적으로 갱신하여 반영할 수 있는 콘텐츠 추천 검색 시스템을 제안한다. 개인화 프로파일은 프로파일의 특징을 담고 있는 컬렉터, 다양한 컬렉터들로부터 프로파일을 수집하는 수집기, 프로파일 특성에 기반한 고유의 프로파일 컬렉터를 해석하는 해석기로 구성된다. 개인화 모듈은 콘텐츠 추천 서버에서 개인화 프로파일과 주기적으로 동기화할 수 있도록 도와준다. 추천 콘텐츠로 음악을 선택하여 서비스 시나리오에 따라 개인화 프로파일이 콘텐츠 추천 서버에 전달되어 사용자의 선호도와 생활패턴이 반영된 추천리스트를 제공하는지 실험한다.

Semi Automatic Ontology Generation about XML Documents

  • Gu Mi Sug;Hwang Jeong Hee;Ryu Keun Ho;Jung Doo Yeong;Lee Keum Woo
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2004년도 Proceedings of ISRS 2004
    • /
    • pp.730-733
    • /
    • 2004
  • Recently XML (eXtensible Markup Language) is becoming the standard for exchanging the documents on the web. And as the amount of information is increasing because of the development of the technique in the Internet, semantic web is becoming to appear for more exact result of information retrieval than the existing one on the web. Ontology which is the basis of the semantic web provides the basic knowledge system to express a particular knowledge. So it can show the exact result of the information retrieval. Ontology defines the particular concepts and the relationships between the concepts about specific domain and it has the hierarchy similar to the taxonomy. In this paper, we propose the generation of semi-automatic ontology based on XML documents that are interesting to many researchers as the means of knowledge expression. To construct the ontology in a particular domain, we suggest the algorithm to determine the domain. So we determined that the domain of ontology is to extract the information of movie on the web. And we used the generalized association rules, one of data mining methods, to generate the ontology, using the tag and contents of XML documents. And XTM (XML Topic Maps), ISO Standard, is used to construct the ontology as an ontology language. The advantage of this method is that because we construct the ontology based on the terms frequently used documents related in the domain, it is useful to query and retrieve the related domain.

  • PDF

진료의 편의성과 병원 접근성 증진을 위한 스마트 어플리케이션 콘텐츠의 질적 분석 (Quality Analysis of Smart Application Contents for the Convenience of Care and Hospital Access)

  • 이재빈;김지혜;복정희;우혜경
    • 한국병원경영학회지
    • /
    • 제25권1호
    • /
    • pp.1-12
    • /
    • 2020
  • Purposes: The aim of this study is to evaluate whether the contents of hospital reservation and reception applications(apps) are qualitatively useful in meeting the needs of medical consumers and improving hospital accessibility and convenience. Methodology: (1) identify consumer needs through social data web mining, (2) describe the status of key contents of mobile apps to improve accessibility and convenience of care, and (3) verify the quality of apps through validated tools Finding: The contents of 'mobile reservation function' and 'waiting time information provision' that can contribute to reduction of delay time of care and efficiency of desk work were supported, but the level of utilization was insufficient. The quality level of the app, including the level of consumers' needs, has shown a wide gap between the apps. Implications: The recent development of mobile apps for hospital accessibility and consumer needs has shown a wide gap in the quality of apps, including information and aesthetic. Therefore, it is necessary to develop apps based on user interface(UI), user experience(UX) based designs that can promote the usefulness and convenience of apps while monitoring needs of consumers continuously.

오피니언 마이닝을 활용한 블로그의 극성 분류 기법 (The Blog Polarity Classification Technique using Opinion Mining)

  • 이종혁;김원상;박제원;최재현
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.559-568
    • /
    • 2014
  • 기존의 감정분석을 통한 극성 분류는 주로 평점을 기반으로 하는 상품평을 기준으로 문장규칙을 이용하여 분석해왔다. 이러한 분석방법은 평점이 없는 블로그 같은 경우 적용되기 어려움 점이 있고 댓글 아르바이트나 관리자에 의해 상품평이 조작될 가능성이 있어서 상품평 만으로는 상품, 매장에 대한 의견을 파악하기에는 어려움이 있다. 이러한 문제점을 고려할 때 개인들의 솔직한 의견이 담겨 있는 블로그를 분석하여 극성을 분류하면 상품, 매장에 대한 올바른 이해가 가능하다. 본 논문은 도메인별로 블로그 글에 대한 고빈도 단어를 추출하여 주제어를 선정하고, 선정된 주제어를 기준으로 제안하는 감정분석 기법을 적용하여 블로그 글에 대한 극성을 분류한다. 감정분석 기법의 성능을 평가하기 위하여 정보 검색 분야에서 사용되는 측정지표 Precision, Recall, F-score를 사용하여 본 연구의 극성 분류기법의 유용성을 검증한다. 평가 결과 기존의 상품평을 문장규칙을 이용하여 분석하여 극성 분류를 하는 기법들에 비해서 제안한 감정분석 기법을 적용할 경우에 우수한 성능으로 극성 분류를 하는 것으로 나타났다.

웹 애플리케이션 기반의 텍스트 데이터 분석 모델 (Text Data Analysis Model Based on Web Application)

  • 진고환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.785-792
    • /
    • 2021
  • 4차 산업혁명 이후 인공지능, 빅 데이터와 같은 기술들의 발전으로 사회 전반에 다양한 변화가 일어나고 있으며, 핵심적인 기술 적용 과정에서 수집할 수 있는 데이터의 양도 급속하게 증가하고 있는 추세이다. 특히 학계에서는 연구 동향을 파악하기 위하여 기존에 생성된 문헌 데이터에 대한 분석이 이루어지고 있으며, 이러한 문헌 분석은 연구의 흐름을 정리하고, 어떤 연구 방법론이나 주제, 또는 현재 학계에서 화두가 되고 있는 대상에 대한 파악을 통하여 향후 연구 방향 설정에 많은 기여를 하고 있는 상황이다. 그러나 문서 데이터의 분석을 위하여 데이터 수집이 필요하나, 일반적으로 프로그램에 대한 전문 지식이 없는 경우 접근하기 어렵다. 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 제안 모델을 통하여 데이터 분석 기법에 대한 전문적인 지식이 부족하더라도, 연구 논문의 수집, 저장, 텍스트 분석과 같은 다양한 작업을 진행할 수 있으며, 연구자들이 선행 연구 분석과 연구 동향을 파악하기 위하여 데이터 분석에 투입되는 시간 및 노력을 단축시킬 수 있을 것으로 기대된다.

뉴스와 주가 : 빅데이터 감성분석을 통한 지능형 투자의사결정모형 (Stock-Index Invest Model Using News Big Data Opinion Mining)

  • 김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.143-156
    • /
    • 2012
  • 누구나 뉴스와 주가 사이에는 밀접한 관계를 있을 것이라 생각한다. 그래서 뉴스를 통해 투자기회를 찾고, 투자이익을 얻을 수 있을 것으로 기대한다. 그렇지만 너무나 많은 뉴스들이 실시간으로 생성 전파되며, 정작 어떤 뉴스가 중요한지, 뉴스가 주가에 미치는 영향은 얼마나 되는지를 알아내기는 쉽지 않다. 본 연구는 이러한 뉴스들을 수집 분석하여 주가와 어떠한 관련이 있는지 분석하였다. 뉴스는 그 속성상 특정한 양식을 갖지 않는 비정형 텍스트로 구성되어있다. 이러한 뉴스 컨텐츠를 분석하기 위해 오피니언 마이닝이라는 빅데이터 감성분석 기법을 적용하였고, 이를 통해 주가지수의 등락을 예측하는 지능형 투자의사결정 모형을 제시하였다. 그리고, 모형의 유효성을 검증하기 위하여 마이닝 결과와 주가지수 등락 간의 관계를 통계 분석하였다. 그 결과 뉴스 컨텐츠의 감성분석 결과값과 주가지수 등락과는 유의한 관계를 가지고 있었으며, 좀 더 세부적으로는 주식시장 개장 전 뉴스들과 주가지수의 등락과의 관계 또한 통계적으로 유의하여, 뉴스의 감성분석 결과를 이용해 주가지수의 변동성 예측이 가능할 것으로 판단되었다. 이렇게 도출된 투자의사결정 모형은 여러 유형의 뉴스 중에서 시황 전망 해외 뉴스가 주가지수 변동을 가장 잘 예측하는 것으로 나타났고 로지스틱 회귀분석결과 분류정확도는 주가하락 시 70.0%, 주가상승 시 78.8%이며 전체평균은 74.6%로 나타났다.

XML 문서의 구조와 내용을 고려한 유사도 측정 (Similarity Measure based on XML Document's Structure and Contents)

  • 김우생
    • 한국멀티미디어학회논문지
    • /
    • 제11권8호
    • /
    • pp.1043-1050
    • /
    • 2008
  • XML(Extensible Markup Language)은 인터넷 상에서 데이터 표현과 교환을 위한 표준으로 자리 잡고 있다. 웹의 발전과 함께 XML문서들이 정보 검색, 문서 관리, 데이터 마이닝 등의 응용에서 폭 넓게 사용되면서 구조적으로 정보가 풍부한 이러한 문서들을 자동으로 처리하고 검색하는 기술들이 요구되고 있다. 본 연구에서는 XML 문서 의 구조와 내용을 고려하여 유사한 문서들을 검색하는 새로운 방법을 제안한다. XML 문서의 구조적 유사성은 간단한 스트링 매칭 기법으로 찾고, 문서 내용의 유사성은 문서 요소(element)들의 이름과 경로를 고려한 가중치를 통해 찾는 방법으로 전체의 시간 복잡도는 비교되는 두 문서의 크기에 선형적으로 비례한다.

  • PDF

SNS의 해시태그를 이용한 감정 단어 수집 시스템 개발 (Development of Emotional Word Collection System using Hash Tag of SNS)

  • 이종화;이윤재;이현규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권2호
    • /
    • pp.77-94
    • /
    • 2018
  • Purpose As the amount of data became enormous, it became a time when more efforts were needed to find the necessary information. Curation is a new term similarly to the museum curator, which is a service that helps people to collect, share, and value the contents of the Internet. In SNS, hash tag is used for emotional vocabulary to be transmitted between users by using (#) tag. Design/methodology/approach As the amount of data became enormous, it became a time when more efforts were needed to find the necessary information. Curation is a new term similarly to the museum curator, which is a service that helps people to collect, share, and value the contents of the Internet. In SNS, hash tag is used for emotional vocabulary to be transmitted between users by using (#) tag. Findings This study base on seven emotional sets such as 'Happy', 'Angry', 'Sad', 'Bad', 'Fearful', 'Surprised', 'Disgusted' to construct 327 emotional seeds and utilize the autofill function of web browser to collect 1.5 million emotional words from emotional seeds. The emotional dictionary of this study is considered to be meaningful as a tool to make emotional judgment from unstructured data.

데이터 마이닝을 활용한 가짜뉴스의 선제적 대응을 위한 연구 : M 온라인 커뮤니티 게시물을 중심으로 (A Study on the Preemptive Measure for Fake News Eradication Using Data Mining Algorithms : Focused on the M Online Community Postings)

  • 임문영;박승범
    • 한국IT서비스학회지
    • /
    • 제18권1호
    • /
    • pp.219-234
    • /
    • 2019
  • Fake news threaten democratic elections and causes social conflicts, resulting in major damage. However, the concept of fake news is hard to define, as there is a saying, "News is not fake, fake is not news." Fake news, however, has irreversible characteristics that can not be recovered or reversed completely through post-punishment of economic and political benefits. It is also rapidly spreading in the early days. Therefore, it is very important to preemptively detect these types of articles and prevent their blind proliferation. The existing countermeasures are focused on reporting fake news, raising the level of punishment, and the media & academia to determine the authenticity of the news. Researchers are also trying to determine the authenticity by analyzing its contents. Apart from the contents of fake news, determining the behavioral characteristics of the promoters and its qualities can help identify the possibility of having fake news in advance. The online community has a fake news interception and response tradition through its long-standing community-based activities. As a result, I attempted to model the fake news by analyzing the affirmation-denial analysis and posting behavior by securing the web board crawl of the 'M community' bulletin board during the 2017 Korean presidential election period. Random forest algorithm deemed significant. The results of this research will help counteract fake news and focus on preemptive blocking through behavioral analysis rather than post-judgment after semantic analysis.