• 제목/요약/키워드: Web Text Analysis

검색결과 279건 처리시간 0.028초

사용자 태그와 중심성 지수를 이용한 블로그 검색 성능 향상에 관한 연구 (Enhancing the Performance of Blog Retrieval by User Tagging and Social Network Analysis)

  • 김은희;정영미
    • 정보관리학회지
    • /
    • 제27권1호
    • /
    • pp.61-77
    • /
    • 2010
  • 최근 다양한 주제 분야의 블로그가 이용자의 정보요구를 충족시켜주는 웹 정보원 중 하나로 활용되고 있다. 본 연구에서는 블로그 페이지의 검색 성능을 향상시키기 위하여 이용자가 부여한 태그 및 트랙백을 이용하여 블로그 페이지의 검색 실험을 수행하였다. 실험을 위해 4,908개의 블로그 페이지와 각 페이지에 트랙백으로 연결된 다른 블로그 페이지의 URL을 수집하였다. 검색 자질로 본문의 용어에 이용자 태그를 추가하였을 경우와 네트워크 중심성 값을 반영하였을 경우 모두 검색 성능이 향상되었고, 본문 용어와 이용자 태그를 검색 자질로 함께 사용하고 여기에 중심성 값을 반영하였을 경우 가장 좋은 성능을 보였다.

Trend Analysis of the Agricultural Industry Based on Text Analytics

  • Choi, Solsaem;Kim, Junhwan;Nam, Seungju
    • Agribusiness and Information Management
    • /
    • 제11권1호
    • /
    • pp.1-9
    • /
    • 2019
  • This research intends to propose the methodology for analyzing the current trends of agriculture, which directly connects to the survival of the nation, and through this methodology, identify the agricultural trend of Korea. Based on the relationship between three types of data - policy reports, academic articles, and news articles - the research deducts the major issues stored by each data through LDA, the representative topic modeling method. By comparing and analyzing the LDA results deducted from each data source, this study intends to identify the implications regarding the current agricultural trends of Korea. This methodology can be utilized in analyzing industrial trends other than agricultural ones. To go on further, it can also be used as a basic resource for contemplation on potential areas in the future through insight on the current situation. database of the profitability of a total of 180 crop types by analyzing Rural Development Administration's survey of agricultural products income of 115 crop types, small land profitability index survey of 53 crop types, and Statistics Korea's survey of production costs of 12 crop types. Furthermore, this research presents the result and developmental process of a web-based crop introduction decision support system that provides overseas cases of new crop introduction support programs, as well as databases of outstanding business success cases of each crop type researched by agricultural institutions.

텍스트 마이닝을 이용한 한국정보통신학회 논문지의 주제 분석 (Topic Analysis of Papers of JKIICE Using Text Mining)

  • 우영운;조경원;이광의
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.74-75
    • /
    • 2017
  • 이 논문에서는 2007년부터 2016년까지 한국정보통신학회 논문지(JKIICE)에 게재된 3,668편의 논문들의 연구 주제 분야를 파악하기 위해 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 자료수집을 위하여 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 연구 결과, 2016년까지 JKIICE의 투고 분야는 19개였으나 실제 최근 10년 동안 게재된 전체 논문들의 연구 주제는 크게 9가지로 대표됨을 알 수 있었다.

  • PDF

Jsoup를 이용한 조선왕조실록의 빅 데이터 분석 (Big Data Analysis of the Annals of the Joseon Dynasty Using Jsoup)

  • 변영일;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.131-133
    • /
    • 2021
  • 조선왕조실록은 UNESCO에 등재된 중요한 기록물이다. 본 논문은 한글로 번역된 조선왕조 실록에서 단어의 빈도수를 조사하여 빅데이터를 분석하는 방법을 제안한다. 조선왕조 실록을 인터넷 사이트에서 액세스하여 단어의 빈도수를 조사하려 할 때, 그 페이지에 포함된 소스를 직접 액세스하면 HTML 문법에 필요한 키워드가 포함되어 있어 필요한 본문에서 단어 빈도수에 의한 빅데이터 분석을 하는 것이 어렵다. 본 논문에서는 Java의 Jsoup를 활용한 크롤링 기능을 사용하여 조선왕조 실록의 본문을 분석하는 방법을 제안한다. 실험에서는 조선왕조실록의 태조부분만을 추출하여 본 방법의 유효성을 검증하였다.

  • PDF

NDSL 웹사이트 분석 및 서비스 품질평가 (Analysis and Service Quality Evaluation on NDSL Website)

  • 이주현;이응봉;김환민
    • 정보관리연구
    • /
    • 제37권4호
    • /
    • pp.69-91
    • /
    • 2006
  • 본 연구는 NDSL 웹사이트 전반에 대한 이용자 입장에서의 전문가 서비스 품질평가와 측정도구를 이용한 웹사이트 품질평가를 통해 문제점을 분석하고 개선방안을 제시함으로써 웹서비스의 효율성과 품질향상을 도모하고자 한다. 웹사이트 분석의 경우 NDSL 웹사이트의 완성도 분석과 사용자가 직관적으로 판단할 수 있는 이용상의 문제점을 파악하였고, 웹기반 서비스 품질평가는 데이터베이스 품질평가 항목 중 서비스 품질을 중심으로 검색성 및 사용성 평가를 진행하였다. 분석결과 전반적으로 이용에 큰 문제가 없는 것으로 나타났으나 검색 후 로딩 속도, 웹사이트 완성도, 사용자 체감, 개인정보보호, 메타데이터의 완성도, 웹사이트 접근성 등에서 여러 가지 문제점들이 발견되었다. 또한 웹사이트 서비스 품질평가 결과, 검색성 및 사용성 부분에서 검색방법과 검색결과 출력기능, 마크 리스트, Full-text 관련 항목에서 모두 만족하는 결과를 보이고 있지는 않지만 타 정보제공 기관과 비교하여 비슷한 수준의 품질을 보이고 있다.

소형 화면 단말기를 위한 웹 문서 변환 기법 (Web Document Transcoding Technique for Small Display Devices)

  • 신희숙;마평수;조수선;이동우
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1145-1156
    • /
    • 2002
  • 본 논문에서는 기존의 일반 PC 화면에 적합하도록 작성된 웹 문서를 무선 환경의 핸드헬드 계열의 소형 단말기 화면에서도 효율적으로 표현되어지도록 변환하는 기법을 제시한다. 이는 선행 연구에서 나타나는 단순한 텍스트 위주의 추출 및 요약 형식의 변환과는 달리, 시각적인 분리에 근거한 내용 블록 단위를 설정하고 이를 기본으로 변환을 수행함으로써 보다 정확한 변환 결과를 얻으며, 내용 블록 단위들의 재배치와 새로운 인덱스 형식의 재표현을 통하여 편리한 인터페이스로 좌우스크롤 없는 웹 문서를 제공한다 이를 위하여 본 논문에서는 Layout-Forming Tag Analysis Algorithm과 Component Grouping Algorithm을 사용하여 시각적 표현을 주도하는 태그 정보에 대한 구조적인 분석 및 내용 블록 단위의 추출을 시도하고, 분리된 블록들의 분류와 재구성 및 인덱스 생성 과정을 통하여 소형 단말에 적합한 웹 문서를 생성한다. 웹문서 변환 시스템은 프락시 서버에서 동작하도록 설계되었고, 프로토타입의 구현을 통하여 제시하는 변환 기법을 평가하였다. 실제 웹 문서에 대한 검증 과정을 거쳤고, 복잡한 구조의 웹 문서에 대해 적합한 변환 결과를 보였다.

감성평가를 이용한 웹 디자인 요소의 활용방안 (Application of the Web Design Elements using the Aesthetic Evaluation)

  • 김미영;정홍인
    • 디자인학연구
    • /
    • 제17권3호
    • /
    • pp.413-420
    • /
    • 2004
  • 웹사이트의 특성에 따라 요구되는 감성을 파악하고 이를 디자인에 반영할 수 있는 새로운 디자인 방법론이 요구되고 있다. 기존의 사용성 위주의 웹 디자인 방법과는 차별화 되는 이와 같은 감성 연구를 통한 디자인 방법은 웹 디자이너들에게 또 다른 유용한 지침을 제공할 것이다. 하지만 이제까지 이에 관한 연구가 충분히 이루어지지 않아 특정 감성을 유발하는 웹 디자인을 위해 디자이너들은 자신의 직감과 경험에 의존할 수밖에 없었다. 이와 같이 특정 감성을 유발하는 디자인 방법론의 개발을 위해 본 연구에서는 감성공학에서 사용되는 감성 어휘를 이용한 감성공학 1류(Nagamachi, 2002, 박경수, 2000) 방법을 웹 디자인에 적용하여 특정 감성을 사용자에게 전달하는 방법을 알아보았다. 연구를 위해서 감성을 잘 전달할 수 있는 136개의 웹사이트를 전문 웹 디자이너들의 추천을 통해 우선적으로 선정하고 실험에 사용한 감성어휘(최재호, 2001)들을 잘 나타낼 수 있다고 판단되는 22개의 웹사이트를 최종적으로 선정하여 설문조사를 통해 감성 평가를 실시하였다. 표본 웹사이트들은 디자인 요소의 활용 정도, 균형, 전체 비중, 균일성 등을 고려하여 정량적으로 다시 평가하였다. 정량적 평가와 감성평가 결과 사이의 인과관계는 회귀분석을 통해 살펴보았고 그 결과를 바탕으로 특정 감성을 유발하는 웹 디자인 방법론을 제시하였다. 본 연구에서 사용된 방법과 절차는 감성유발과 관련된 디자인방법론 개발을 위해 다른 연구에서도 적용될 수 있을 것이며 회귀분석을 통한 디자인 방법론은 실제로 웹 디자인에 활용될 수 있을 것이다.논하였다. 본 연구는 웹에서의 사용자 경험에 대한 관점을 정황적 요소로까지 확장하고 이를 체계적으로 매핑하는 실증적인 사례를 제시함으로써 웹에서의 혁신적이며 크로스 사이트, 크로스 장르적인 컨텐츠 플래닝의 가능성을 시사하는데 의의가 있다고 하겠다.y used to some of interactive storytelling through hyper text in CD-ROM and web sites. More complicated and different structured models were born through games that offered graphics, virtual spaces and interactivity. When drawn onto a structural graph, few attributes and similarities seem to occur. This paper will try to outline and discuss structural graphs of interactive storytelling methods and suggest some ways for better storytelling design.eal sales volume, but the case study could verified that this method is effective to the evaluation of marketability in case of completely new product got on the typical category and the product category could

  • PDF

지방자치단체 교육훈련기관의 웹 접근성 평가 (Evaluation of Web Accessibility for the Education and Training Organization of Local Governments)

  • 송승훈;김의정;강신천;김창석;정종인
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.323-326
    • /
    • 2018
  • 본 연구는 전국 16개 지방자치단체 교육훈련기관의 웹 접근성 평가를 통해 웹 접근성 향상 방향을 제안하기 위한 목적이 있다. 이를 위해 일부 웹사이트를 제외한 14개 교육훈련기관의 웹사이트를 대상으로 평가를 실시하였다. 평가는 Open-WAX를 통한 자동평가와 전문가 3명에 의한 수동평가를 통해 진행하였다. 분석결과 웹 접근성 준수율이 향상되기는 하였으나 아직도 대체 텍스트, 건너뛰기 링크, 마크업 오류 방지 등의 문제점이 발견되었다. 본 연구를 통해 지방자치단체의 웹 접근성 준수와 향후 연구방향에 대하여 제언하고자 한다.

  • PDF

머신러닝 및 딥러닝 연구동향 분석: 토픽모델링을 중심으로 (Research Trends Analysis of Machine Learning and Deep Learning: Focused on the Topic Modeling)

  • 김창식;김남규;곽기영
    • 디지털산업정보학회논문지
    • /
    • 제15권2호
    • /
    • pp.19-28
    • /
    • 2019
  • The purpose of this study is to examine the trends on machine learning and deep learning research in the published journals from the Web of Science Database. To achieve the study purpose, we used the abstracts of 20,664 articles published between 1990 and 2017, which include the word 'machine learning', 'deep learning', and 'artificial neural network' in their titles. Twenty major research topics were identified from topic modeling analysis and they were inclusive of classification accuracy, machine learning, optimization problem, time series model, temperature flow, engine variable, neuron layer, spectrum sample, image feature, strength property, extreme machine learning, control system, energy power, cancer patient, descriptor compound, fault diagnosis, soil map, concentration removal, protein gene, and job problem. The analysis of the time-series linear regression showed that all identified topics in machine learning research were 'hot' ones.

An Efficient Damage Information Extraction from Government Disaster Reports

  • Shin, Sungho;Hong, Seungkyun;Song, Sa-Kwang
    • 인터넷정보학회논문지
    • /
    • 제18권6호
    • /
    • pp.55-63
    • /
    • 2017
  • One of the purposes of Information Technology (IT) is to support human response to natural and social problems such as natural disasters and spread of disease, and to improve the quality of human life. Recent climate change has happened worldwide, natural disasters threaten the quality of life, and human safety is no longer guaranteed. IT must be able to support tasks related to disaster response, and more importantly, it should be used to predict and minimize future damage. In South Korea, the data related to the damage is checked out by each local government and then federal government aggregates it. This data is included in disaster reports that the federal government discloses by disaster case, but it is difficult to obtain raw data of the damage even for research purposes. In order to obtain data, information extraction may be applied to disaster reports. In the field of information extraction, most of the extraction targets are web documents, commercial reports, SNS text, and so on. There is little research on information extraction for government disaster reports. They are mostly text, but the structure of each sentence is very different from that of news articles and commercial reports. The features of the government disaster report should be carefully considered. In this paper, information extraction method for South Korea government reports in the word format is presented. This method is based on patterns and dictionaries and provides some additional ideas for tokenizing the damage representation of the text. The experiment result is F1 score of 80.2 on the test set. This is close to cutting-edge information extraction performance before applying the recent deep learning algorithms.