• 제목/요약/키워드: Web Text Analysis

검색결과 279건 처리시간 0.028초

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.

한국어 미등록어 인식을 위한 단계별 접근방법 (Step-by-step Approach for Effective Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.369-372
    • /
    • 2009
  • 최근 웹 문서 뿐만 아니라 신문기사에서도 미드(미국드라마)나 안습(안구에 습기차다)와 같은 신조어를 사용하고 있다. 그러나, 사전에 등록되지 않은 이러한 단어는 한국어 분석기의 성능을 떨어뜨리는 주요인이 된다. 이러한 미등록어를 자동으로 인식하기 위해서, 본 논문에서는 전문분석 기반 미등록 명사 인식 단계, 웹 출현빈도 기반 미등록 용언 인식 단계, 웹 출현빈도 기반 미등록 명사 인식단계로 구성된 단계별 접근방법을 제안한다. 제안하는 방법은 문서에서 여러 번 나타난 미등록어를 정확하게 인식할 수 있도록 전문분석 기반 단계를 포함한다. 한편, 문서에 한번 나타난 미등록어도 광범위하게 인식할 수 있도록 웹 출현 빈도 기반 단계도 포함한다. 그리고, 다양한 한국어 미등록어를 인식하기 위해서 미등록 명사 인식 단계와 미등록 용언 인식 단계를 구분한다. 실험결과 기존 접근방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현율 8.50%를 개선하였다.

  • PDF

Hierarchical Attention Network를 활용한 주제에 따른 온라인 고객 리뷰 분석 모델 (Analysis of the Online Review Based on the Theme Using the Hierarchical Attention Network)

  • 장인호;박기연;이준기
    • 한국IT서비스학회지
    • /
    • 제17권2호
    • /
    • pp.165-177
    • /
    • 2018
  • Recently, online commerces are becoming more common due to factors such as mobile technology development and smart device dissemination, and online review has a big influence on potential buyer's purchase decision. This study presents a set of analytical methodologies for understanding the meaning of customer reviews of products in online transaction. Using techniques currently developed in deep learning are implemented Hierarchical Attention Network for analyze meaning in online reviews. By using these techniques, we could solve time consuming pre-data analysis time problem and multiple topic problems. To this end, this study analyzes customer reviews of laptops sold in domestic online shopping malls. Our result successfully demonstrates over 90% classification accuracy. Therefore, this study classified the unstructured text data in the semantic analysis and confirmed the practical application possibility of the review analysis process.

교육용 전력조류계산 프로그램의 웹 서비스를 위한 시스템 구성 및 데이터 재가공 방법론 개발 (Development of System Architecture and Method to Reprocess Data for Web Service of Educational Power Flow Program)

  • 양광민;이기송;박종배;신중린
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제53권6호
    • /
    • pp.324-333
    • /
    • 2004
  • This paper discusses the development of an educational web-based power flow program for undergraduate students. The interaction between lectures and users can be much enhanced via the web-based programs which result in the student's learning effectiveness on the power flow problem. However the difficulties for developing web-based application programs are that there can be the numerous unspecified users to access the application programs. To overcome the aforementioned multi-users problem and to develope the educational web-based power flow program, we have revised the system architecture, the modeling of application programs, and database which efficiently and effectively manages the complex data sets related to the power flow analysis program. The developed application program is composed of the physical three tiers where the middle tier is logically divided into two kinds of application programs. The divided application programs are interconnected by using the Web-service based on XML (Extended Markup Technology) and HTTP (Hyper Text Transfer Protocol) which make it possible the distributed computing technology Also, this paper describes the method of database modeling to handle effectively when the numerous users change the parameters of the power system to compare the results of the base case.

트랜잭션 로그 분석을 통한 웹기반 온라인목록의 검색행태 추이 분석 (Trends of Web-based OPAC Search Behavior via Transaction Log Analysis)

  • 이성숙
    • 한국비블리아학회지
    • /
    • 제23권2호
    • /
    • pp.209-233
    • /
    • 2012
  • 이 연구에서는 웹기반 온라인목록 이용자들의 전반적인 검색행태를 알아보기 위해, 7년 동안의 트랜잭션 로그를 분석하였다. 웹기반 온라인목록의 검색형태는 검색전략과 검색실패의 관점에서 조사하였다. 검색전략에서는 검색유형, 접근점, 연산자, 검색문의 길이, 단어 사용횟수, 웹기반 온라인목록 이용횟수, 시간대별 및 요일별 이용횟수를 분석하였다. 또한 검색실패는 검색실패율과 접근점별 검색실패율, 연산자별 검색실패율을 분석하였다. 이 연구결과는 향후 웹기반 온라인목록 시스템과 서비스 개선에 활용될 수 있을 것으로 기대된다.

텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안 (Detecting Spam Data for Securing the Reliability of Text Analysis)

  • 현윤진;김남규
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.493-504
    • /
    • 2017
  • 최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.

토픽 분석을 활용한 웹 카테고리별 방문자 관심 이슈 식별 방안 (Identifying the Interests of Web Category Visitors Using Topic Analysis)

  • 최성이;김남규
    • Journal of Information Technology Applications and Management
    • /
    • 제21권4_spc호
    • /
    • pp.415-429
    • /
    • 2014
  • With the advent of smart devices, users are able to connect to each other through the Internet without the constraints of time and space. Because the Internet has become increasingly important to users in their everyday lives, reliance on it has grown. As a result, the number of web sites constantly increases and the competition between these sites becomes more intense. Even those sites that operate successfully struggle to establish new strategies for customer retention and customer development in order to survive. Many companies use various customer information in order to establish marketing strategies based on customer group segmentation A method commonly used to determine the customer groups of individual sites is to infer customer characteristics based on the customers' demographic information. However, such information cannot sufficiently represent the real characteristics of customers. For example, users who have similar demographic characteristics could nonetheless have different interests and, therefore, different buying needs. Hence, in this study, customers' interests are first identified through an analysis of their Internet news inquiry records. This information is then integrated in order to identify each web category. The study then analyzes the possibilities for the practical use of the proposed methodology through its application to actual Internet news inquiry records and web site browsing histories.

효과적인 데이터 수집을 위한 웹 크롤러 개선 및 동적 프로세스 설계 및 구현 (Web crawler Improvement and Dynamic process Design and Implementation for Effective Data Collection)

  • 왕태수;송재백;손다연;김민영;최동규;장종욱
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1729-1740
    • /
    • 2022
  • 근래 정보의 다양성과 활용에 따라 많은 데이터가 생성되었고, 데이터를 수집, 저장, 가공 및 예측 하는 빅데이터 분석의 중요성이 확대되었으며, 필요한 정보만을 수집할 수 있는 능력이 요구되고 있다. 웹 공간은 절반 이상이 텍스트로 이루어져 있고, 유저들의 유기적인 상호작용을 통해 수많은 데이터가 발생한다. 대표적인 텍스트 데이터 수집 방법으로 크롤링 기법이 있으나 데이터를 가져올 수 있는 방법에 치중되어 웹 서버나 관리자를 배려하지 못하는 크롤러가 많이 개발되고 있다. 본 논문에서는 크롤링 과정에서 발생할 수 있는 문제점 및 고려해야 할 주의사항에 대해 살펴보고 효율적으로 데이터를 가져올 수 있는 개선된 동적 웹 크롤러를 설계 및 구현한다. 기존 크롤러의 문제점들을 개선한 크롤러는 멀티프로세스로 설계되어 작업소요 시간이 평균적으로 4배정도 감소하였다.

반응형 웹 사이트의 접근성 평가 및 분석 (Evaluation and Analysis of Web Accessibility for the Responsive Web Sites)

  • 박성제;홍순구;김종원
    • 한국산업정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.47-55
    • /
    • 2016
  • 최근 다양한 디바이스에서의 접근 및 활용을 위한 반응형 웹 기술에 대한 연구와 활용이 급증하고 있다. 그러나 반응형 웹에서의 접근성 준수 및 분석을 수행한 연구는 미흡한 실정이다. 이에 본 연구에서는 웹 구현에서의 중요한 요소인 접근성과 반응형 웹을 접목하여, 국내의 대표적인 반응형 웹 사이트에 대한 접근성을 평가하고 그 결과를 분석하였다. 그 결과 이미지 콘텐츠의 대체텍스트 제공, 키보드 접근과 사용, 포커스의 논리적 이동 및 적절한 제목 제공 등 접근성 오류가 있는 것으로 나타났다. 이는 웹 접근성을 준수하지 않은 오류로서의 문제와 다양한 디바이스에서 접근 및 사용하는 반응형 웹으로서의 목적 및 기능에도 부합하지 않는 것으로 해석되어 그 보완 및 수정의 필요성이 높은 것으로 분석되었다.

직무 리뷰 분석을 통한 산업군별 직무만족/존속 요인 및 직무불만족/이직 요인에 관한 연구 (A Study on Job Satisfaction/Retention Factors and Job Unsatisfaction/Turnover Factors by Industries using Job Reviews)

  • 이종서;김성근;강주영
    • 한국IT서비스학회지
    • /
    • 제16권1호
    • /
    • pp.1-26
    • /
    • 2017
  • Keeping good, talented people is one of the most significant factors in a company's success. HR analytics is an important area for applying big data analysis techniques to human resources. It provides organizational insight that enables effective management of employees, allowing management to reach their business goals quickly and efficiently. Job satisfaction and employee turnover analysis are the keys to HR analytics. Job review web services have been becoming popular. Because people exchange information about job satisfaction and turnover through these web services, useful information about HR Analytics is accumulated on the job review web sites. In this paper, we identified factors of employee retention by analyzing a Job Satisfaction/Retention group, and the factors of employee turnover by analyzing a Job Unsatisfaction/Turnover group. In order to do this, we first classified employees according to whether their self-reported job satisfaction or turnover was true. We collected and analyzed data from Jobplanet, a popular job review site. Through dominance analysis and LDA topic modeling, we found major factors, topics, and keywords of the classified groups by IT, service, and manufacturing domains. Our approach is a novel model to apply the analysis of reviews and text mining to the HR domain, and it will be practically helpful for setting new strategies that improve job satisfaction.