• 제목/요약/키워드: Public Data Analysis

검색결과 5,647건 처리시간 0.034초

공문서의 기계가독형(Machine Readable) 전환 방법 제언 (Suggestions on how to convert official documents to Machine Readable)

  • 임진희
    • 기록학연구
    • /
    • 제67호
    • /
    • pp.99-138
    • /
    • 2021
  • 빅데이터 시대에 정형데이터 뿐만 아니라 비정형데이터를 분석하는 것이 중요한 과제로 대두되고 있다. 정부기관이 생산하는 공문서도 텍스트 기반의 대형 비정형데이터로 빅데이터 분석의 대상이 된다. 기관 내부의 업무효율, 지식관리, 기록관리 등의 관점에서 공문서 빅데이터를 분석하여 유용한 시사점을 도출해 나가야 할 것이다. 그러나, 현재 공공기관이 보유 중인 공문서의 상당수가 개방포맷이 아니어서 빅데이터 분석을 하려면 비트스트림에서 텍스트를 추출하는 전처리 과정이 요구된다. 또한, 문서파일 내에 맥락 메타데이터가 충분히 저장되어 있지 못하여 품질 높은 분석을 하려면 별도의 메타데이터 확보 노력이 필요하다. 결론적으로 현재의 공문서는 기계가독(machine readable) 수준이 낮아 빅데이터 분석에 비용이 많이 들게 된다. 이 연구에서는 향후 공문서가 기계가독 수준을 높이기 위해서는 공문서의 개방포맷화, 기안문 서식의 표준태그화, 자기 기술(self-descriptive) 메타데이터 확보, 문서 텍스트 태깅 등이 선행될 필요가 있다는 점을 제안한다. 첫째, 문서가 스스로를 설명하기 위해 추가되어야 하는 메타데이터 항목들을 제시하고 이 메타데이터들이 기계가독형이 되도록 문서파일에 저장하는 방법을 제안한다. 둘째, 문서 내용 분석 시 자연어 처리에만 의존하지 않고 행정 맥락에 따라 중요한 키워드를 미리 국제표준 태그로 마킹하여 기계가독형이 되도록 하는 방안을 제안한다.

Sentiment analysis of nuclear energy-related articles and their comments on a portal site in Rep. of Korea in 2010-2019

  • Jeong, So Yun;Kim, Jae Wook;Kim, Young Seo;Joo, Han Young;Moon, Joo Hyun
    • Nuclear Engineering and Technology
    • /
    • 제53권3호
    • /
    • pp.1013-1019
    • /
    • 2021
  • This paper reviewed the temporal changes in the public opinions on nuclear energy in Korea with a big data analysis of nuclear energy-related articles and their comments posted on the portal site NAVER. All articles that included at least one of "nuclear energy," "nuclear power plant (NPP)," "nuclear power phase-out," or "anti-nuclear" in their titles or main text were extracted from those posted on NAVER in January 2010-December 2019. First, we performed annual word frequency analysis to identify what words had appeared most frequently in the articles. For that period, the most frequent words were "NPP," "nuclear energy," and "energy." In addition, "safety" has remained in the upper ranks since the Fukushima NPP accident. Then, we performed sentiment analysis of the pre-processed articles. The sentiment analysis showed that positive-tone articles have been reported more frequently than negativetone over the entire analysis period. Last, we performed sentiment analysis of the comments on the articles to examine the public's intention regarding nuclear issues. The analysis showed that the number of negative comments to articles each month-irrespective of positive or negative tone-was always larger than that of positive comments over the entire analysis period.

Tableau Public을 이용한 인포그래픽 제작 사례연구 (A Case Study of Producing Infographics Using Tableau Public)

  • 김동환
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.21-29
    • /
    • 2015
  • 최근 디지털 데이터가 폭발적으로 증가함에 따라 빅데이터, 데이터시각화, 정보시각화, 인포그래픽 등에 각종 언론매체 및 기관에서 관심을 기울이고 있다. 국내에서는 조선닷컴, 한겨레 신문 온라인판 등에서 데이터 시각화 및 인포그래픽을 선도적으로 다루고 있으며, 국외에서는 영국의 가디언, 월스트리트저널, 뉴욕타임즈 등에서 데이터 시각화 분야에서 두각을 나타내고 있다. 우리나라의 경우 데이터시각화 분야는 아직까지 디자인적인 측면에 중점을 두고 있다. 그러나 최근 주목받고 있는 데이터시각화 프로그램 중 Tableau Public 프로그램을 이용하면 좀 더 효율적인 인포그래픽을 제작할 수 있다. 본 연구에서는 Tableau Public을 통해 데이터 분석 및 인포그래픽을 제작하였다. 인포그래픽 제작을 위해 세계은행 데이터가 사용되었으며, 전세계자동차보유율을 분석하여 두 가지 결과가 도출되었다. 첫째, 고소득국가 그룹에서는 1인당 국민총소득이 증가할수록 기울기는 감소추세를 보였고, 중위소득국가에서는 증가추세를 보였다. 둘째, 기준기간에 비해 금융위기 기간에는 1인당 국민총소득 증가율에 따른 전년대비 자동차보유율 증가율이 1.7배 높게 나타났다. 본 논문에서는 Tableau Public을 이용한 데이터 시각화 사례연구를 통해, 기존 디자인 중심의 인포그래픽 제작환경에서, 향후 데이터 중심의 인포그래픽 제작 설계를 활성화시키고자 하였다. 그리고 더 나아가 데이터 중심의 인포그래픽은 과학적 연구, 그리고 정책결정을 위한 도구로써 널리 이용되어야 할 것이다.

창업지원을 위한 공공기관 빅데이터 통합 (Big-Data Integration in Public Institutions for Supporting Start-up Businesses)

  • 신성윤;김도관
    • 한국정보통신학회논문지
    • /
    • 제19권6호
    • /
    • pp.1341-1346
    • /
    • 2015
  • 현재의 국내의 많은 자영업자들이 창업의 실패를 경험하고 있다. 이러한 점에서 무분별한 창업을 줄이고, 창업의 성공률을 높이기 위해 창업 준비과정에서 명확하고 통합된 정보의 제공이 요구된다. 본 연구는 다양한 공공기관들이 분산되어 보유하고 있는 다양한 데이터를 통합한 빅데이터를 제언하고자 한다. 이를 위해 창업에서 요구되는 데이터의 유형을 분류하고 통합적 창업지원 정보시스템 구축을 위한 데이터 통합, 분석 기술, 창업자를 위한 웹 또는 스마트 서비스의 유형을 제시하고자 한다.

창업지원을 위한 공공기관 빅데이터 통합 제언 (Suggestions of Big-Data Integration in Public Institutions for Supporting Start-up Businesses)

  • 김도관;진찬용;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.204-206
    • /
    • 2015
  • 현재의 국내의 많은 자영업자들이 창업의 실패를 경험하고 있다. 이러한 점에서 무분별한 창업을 줄이고, 창업의 성공률을 높이기 위해 창업 준비과정에서 명확고 통합된 정보의 제공이 요구된다. 본 연구는 다양한 공공기관들이 분산되어 보유하고 있는 다양한 데이터를 통합한 빅데이터를 제언하고자 한다. 이를 위해 창업에서 요구되는 데이터의 유형을 분류하고 통합적 창업지원 정보시스템 구축을 위한 분석 모형을 제시하고자 한다.

  • PDF

DEA를 이용한 지방의료원 경영효율성 분석 (An Analysis on Management Efficiency of The Regional Public Hospitals Using D.E.A)

  • 김영종;김광환
    • 한국산학기술학회논문지
    • /
    • 제21권8호
    • /
    • pp.512-520
    • /
    • 2020
  • 본 연구의 목적은 지방의료원의 상대적 운영효율성과 영향요인을 측정하고 비효율적인 지방의료원에 대해 효율성 제고를 위한 벤치마킹 포인트를 제시하는데 있다. 조사대상은 2014년부터 2018년까지 최근 5년간 국내 34개 지방의료원을 대상으로 내부자원과 경영실적 자료를 수집 활용하였다. 조사대상 기간 중간인 2015년에 개원한 진안군의료원은 제외하고 최종 33개 지방의료원을 조사하였다. 분석방법으로 일반적 특성과 투입·산출 변수는 빈도분석과 기술통계량 분석을, 운영효율성 지수 측정 및 상대비교를 위해 자료포락분석을 실시하였다. 연구결과, 효율병원은 11개소로 33.3%, 비효율병원은 22개소로 66.7%를 보였다. 비효율병원 22개소 중에서 규모의 확대가 필요한 IRS(규모수익체증)는 13개 소, 규모의 축소 또는 재조정이 필요한 DRS(규모수익체감)는 9개소로 나타났다. 본 연구의 의의는 상대적 효율성과 영향요인 분석을 통해 지방의료원의 성장과 지속가능 경영 및 공공성 확대를 위해 효율성 제고에 도움을 줄 수 있는 구체적인 대안이나 방향성을 제시하였다는 점이다.

텍스트 마이닝을 적용한 사회서비스원 언론보도기사 분석 (An Analysis on Media Trends in Public Agency for Social Service Applying Text Mining)

  • 박해긍;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.41-48
    • /
    • 2022
  • 본 연구는 사회서비스원과 관련한 국내 언론보도기사를 주요 원자료로 삼고, 기사에 내재된 주요 키워드 및 토픽을 분석하여 사회서비스원과 관련한 이슈, 즉 사회적 인식이 어떻게 형성되었는지를 실증적으로 탐색하고자 하였다. 본 연구는 사회서비스원에 관한 사회 전반적인 인식 및 동향을 여론을 통해 파악한다는 점에서 의의가 있다. 언론동향의 데이터를 추출하기 위해 검색은 빅테이터 분석 시스템인 텍스톰을 사용하여 대표적 포털인 네이버 뉴스와 다음 뉴스에서 자료를 수집하였다. 수집된 기사는 2020년도 1,299개, 2021년도 총 1,410로, 총 2,709개였다. 분석결과로 첫째, 텍스트 출현빈도와 관련해서 가장 많이 도출된 단어는 '사회서비스원', '설립', '운영' 등으로 주로 사회서비스원의 설립과 관련한 내용이 주를 이루고 있었다. 둘째, N-gram분석결과 사회서비스원과 직접 관련된 단어의 쌍(pairs)은 '사회서비스원과 공공', '사회서비스원과 개원', '사회서비스원과 출범', '사회서비스원과 원장', '사회서비스원과 직원', '사회서비스원과 돌봄종사자' 등으로 나타났다. 셋째, TF-IDF 분석결과 및 단어 네트워크 분석결과에서는 단어출현빈도와 N-gram의 결과와 유사하게 '설립', '운영', '공공', '출범', '제공', '개원', '개최', '돌봄' 등의 결과가 도출되었다. 상기분석결과를 통해 긴급돌봄지원단의 강화, 구체적인 사업화, 일자리의 안정화 등을 제언하였다.

직무분석을 통한 유치원 설립유형별 영양(교)사의 과업량 및 적정인력 추정 (Evaluation of Workload and Full-Time Equivalents in Kindergarten Dietitians through Job Analysis by Kindergarten Establishment Type)

  • 신유리;경민숙;함선옥
    • 대한영양사협회학술지
    • /
    • 제28권1호
    • /
    • pp.1-18
    • /
    • 2022
  • This study was conducted to estimate the appropriate workforce of dietitians by type of kindergarten through the recognition survey and job analysis of the kindergarten. Nutritionists' duties were classified into 6 duties, 28 tasks and 94 task elements. The statistical data analysis was completed using Statistical Package for the Social Sciences (SPSS) (ver. 25.0). The time spent on 6 duties, including 'Nutrition management' (public attached 666.24 hours/year, public independent 843.04 hours/year), 'Foodservice management Practices' (public attached 1,472.52 hours/year, public independent 1,298.11 hours/year), 'Hygiene management of kindergarten foodservice' (public attached 611.78 hours/year, public independent 607.18 hours/year), 'Nutrition-diet education and counseling' (public attached 340.53 hours/year, public independent 253.42 hours/year), 'Managing snack during semesters and lunch/snacks during breaks' (public independent 309.04 hours/year) and 'Professionalism enhancement' (public attached 88.86 hours/year; public independent 65.17 hours/year). Total working hours for dietitians were 3,179.94 hours/year (public attached) and 3,375.97 hours/year (public independent). The time/day ×5 days/week ×52 weeks/year calculation method using derived total working hours/year was applied to derive appropriate full-time equivalents (FTEs). The analysis showed that the public attached kindergarten's FTEs were 1.53. The public independent's FTEs were 1.62, and the total FTEs were 1.55. This is the first study to analyze the workload of kindergarten dietitians and appropriate manpower by kindergarten establishment type. It is expected to be a valuable policy basis for efficient operation measures related to the kindergarten dietitians.

댓글 분석을 통한 19대 한국 대선 후보 이슈 파악 및 득표율 예측 (Issue tracking and voting rate prediction for 19th Korean president election candidates)

  • 서대호;김지호;김창기
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.199-219
    • /
    • 2018
  • 인터넷의 일상화와 각종 스마트 기기의 보급으로 이용자들로 하여금 실시간 의사소통이 가능하게 하여 기존의 커뮤니케이션 양식이 새롭게 변화되었다. 인터넷을 통한 정보주체의 변화로 인해 데이터는 더욱 방대해져서 빅데이터라 불리는 정보의 초대형화를 야기하였다. 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회로 여겨지고 있다. 특히 텍스트 마이닝은 비정형 텍스트 데이터를 이용해 패턴을 탐구하여 의미있는 정보를 찾아낸다. 텍스트 데이터는 신문, 도서, 웹, SNS 등 다양한 곳에 존재하기 때문에 데이터의 양이 매우 다양하고 방대하여 사회적 실제를 이해하기 위한 데이터로 적합하다. 본 연구는 한국 최대 인터넷 포털사이트 뉴스의 댓글을 수집하여 2017년 19대 한국 대선을 대상으로 연구를 수행하였다. 대선 선거일 직전 여론조사 공표 금지기간이 포함된 2017년 4월 29일부터 2017년 5월 7일까지 226,447건의 댓글을 수집하여 빈도분석, 연관감성어 분석, 토픽 감성 분석, 후보자 득표율 예측을 수행하였다. 이를 통해 각 후보자들에 대한 이슈를 분석 및 해석하고 득표율을 예측하였다. 분석 결과 뉴스 댓글이 대선 후보들에 대한 이슈를 추적하고 득표율을 예측하기에 효과적인 도구임을 보여주었다. 대선 후보자들은 사회적 여론을 객관적으로 판단하여 선거유세 전략에 반영할 수 있고 유권자들은 각 후보자들에 대한 이슈를 파악하여 투표시 참조할 수 있다. 또한 후보자들이 빅데이터 분석을 참조하여 선거캠페인을 벌인다면 국민들은 자신들이 원하는 바가 후보자들에게 피력, 반영된다는 것을 인지하고 웹상에서 더욱 적극적인 활동을 할 것이다. 이는 국민의 정치 참여 행위로써 사회적 의의가 있다.

서울시 매입임대주택 거주자 특성 및 정책효과 실증분석 (The Effect of Housing Policy on Purchased Public Housing in Seoul)

  • 성진욱;송기욱
    • 토지주택연구
    • /
    • 제11권1호
    • /
    • pp.1-10
    • /
    • 2020
  • The purpose of this study is to identify the characteristics of residents for purchased public housing in Seoul, using empirical panel data. The scope of the study will be targeted at the Seoul, as of 2017. The research method includes literature review, statistical analysis, and spatial analysis using QGIS software program. The data used in the research is the Panel Survey of Public Housing in Seoul(2017). The main results of the research are briefly summarized as follows; Firstly, Living in a housing with an increased area compared to the previous housing. Secondly, they can live for a long time with low rent. The burden on housing costs is 71.8% in the case of the deposit. Thirdly, there is little concern about social stigma. Purchased public housing was found to be good in terms of stigmatization due to low-income clusters. Lastly, the accessibility in the city center was good condition. In particular, commuting time was 34.79 minutes on a one-way basis, saving about 4 minutes compared to other types of public housing.