• 제목/요약/키워드: Table Data

검색결과 2,174건 처리시간 0.029초

표 기계독해 언어 모형의 의미 검증을 위한 테스트 데이터셋 (Test Dataset for validating the meaning of Table Machine Reading Language Model)

  • 유재민;조상현;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.164-167
    • /
    • 2022
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어 모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 F1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 F1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

Korean TableQA: Structured data question answering based on span prediction style with S3-NET

  • Park, Cheoneum;Kim, Myungji;Park, Soyoon;Lim, Seungyoung;Lee, Jooyoul;Lee, Changki
    • ETRI Journal
    • /
    • 제42권6호
    • /
    • pp.899-911
    • /
    • 2020
  • The data in tables are accurate and rich in information, which facilitates the performance of information extraction and question answering (QA) tasks. TableQA, which is based on tables, solves problems by understanding the table structure and searching for answers to questions. In this paper, we introduce both novice and intermediate Korean TableQA tasks that involve deducing the answer to a question from structured tabular data and using it to build a question answering pair. To solve Korean TableQA tasks, we use S3-NET, which has shown a good performance in machine reading comprehension (MRC), and propose a method of converting structured tabular data into a record format suitable for MRC. Our experimental results show that the proposed method outperforms a baseline in both the novice task (exact match (EM) 96.48% and F1 97.06%) and intermediate task (EM 99.30% and F1 99.55%).

A Table Integration Technique Using Query Similarity Analysis

  • Choi, Go-Bong;Woo, Yong-Tae
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권3호
    • /
    • pp.105-112
    • /
    • 2019
  • In this paper, we propose a technique to analyze similarity between SQL queries and to assist integrating similar tables. First, the table information was extracted from the SQL queries through the query structure analyzer, and the similarity between the tables was measured using the Jacquard index technique. Then, similar table clusters are generated through hierarchical cluster analysis method and the co-occurence probability of the table used in the query is calculated. The possibility of integrating similar tables is classified by using the possibility of co-occurence of similarity table and table, and classifying them into an integrable cluster, a cluster requiring expert review, and a cluster with low integration possibility. This technique analyzes the SQL query in practice and analyse the possibility of table integration independent of the existing business, so that the existing schema can be effectively reconstructed without interruption of work or additional cost.

신성장 동력, 소프트웨어산업의 경제적 파급효과 분석 (New Growth Power, Economic Effect Analysis of Software Industry)

  • 최진호;류재홍
    • Journal of Information Technology Applications and Management
    • /
    • 제21권4_spc호
    • /
    • pp.381-401
    • /
    • 2014
  • This study proposes the accurate economic effect (employment inducement coefficient, hiring inducement coefficient, index of the sensitivity of dispersion, index of the power of dispersion, and ratio of value added) of Korea software industry by analyzing the inter-industry relation using the modified inter-industry table. Some previous studies related to the inter-industry analysis were reviewed and the key problems were identified. First, in the current inter-industry table publishedby the Bank of Korea, the output of software industry includes not only the output of pure software industry (package software and IT services) but also the output of non-software industry due to the misclassification of the industry. This causes the output to become bigger than the actual output of the software industry. Second, during rewriting the inter-industry table, the output is changing. The inter-industry table is the table in the form of rows and columns, which records the transactions of goods and services among industries which are required to continue the activities of each industry. Accordingly, if only an output of a specific industry is changed, the reliability of the table would be degraded because the table is prepared based on the relations with other industries. This possibly causes the economic effect coefficient to degrade reliability, over or under estimated. This study tries to correct these problems to get the more accurate economic effect of the software industry. First, to get the output of the pure software section only, the data from the Korea Electronics Association(KEA) was used in the inter-industry table. Second, to prevent the difference in the outputs during rewriting the inter-industry table, the difference between the output in the current inter-industry table and the output from KEA data was identified and then it was defined as the non-software section output for the analysis. The following results were obtained: The pure software section's economic effect coefficient was lower than the coefficient of non-software section. It comes from differenceof data to Bank of Korea and KEA. This study hasa signification from accurate economic effect of Korea software industry.

XML과 관계 데이터베이스 자료 간의 매핑 설계 (Mapping Design between XML and Table in Relation Database)

  • 김길준
    • 디지털콘텐츠학회 논문지
    • /
    • 제5권3호
    • /
    • pp.180-186
    • /
    • 2004
  • XML 전자상거래 분야 뿐만 아니라. 모든 학술분야와 산업분야에서 사용하고 있는 만큼, 표준화된 문서를 다루는 필수적인 기능을 가지고 있다. 또한 XML 자료를 관계형 데이터베이스 자료로 만들어 SQL 언어를 사용하여 자료 검색도 필요하다. XML과 관계 데이터베이스 간의 변환을 위해선 두 자료간의 매핑 관계가 필요하다. 그래서 본 논문에서는 문서 자체에서 항상 통일된 형식으로 문서를 작성하게 하고 문서를 읽을 때마다 이런 통일성을 자동적으로 검사하게 하는 DTD(Document Type Definition)를 사용해서 XML과 데이터베이스 간의 매핑 관계를 연구하고, 그 결과 XML Data를 Realation Database table로 매핑하는 매핑 설계도를 연구하였다.

  • PDF

Bayesian pooling for contingency tables from small areas

  • Jo, Aejung;Kim, Dal Ho
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권6호
    • /
    • pp.1621-1629
    • /
    • 2016
  • This paper studies Bayesian pooling for analysis of categorical data from small areas. Many surveys consist of categorical data collected on a contingency table in each area. Statistical inference for small areas requires considerable care because the subpopulation sample sizes are usually very small. Typically we use the hierarchical Bayesian model for pooling subpopulation data. However, the customary hierarchical Bayesian models may specify more exchangeability than warranted. We, therefore, investigate the effects of pooling in hierarchical Bayesian modeling for the contingency table from small areas. In specific, this paper focuses on the methods of direct or indirect pooling of categorical data collected on a contingency table in each area through Dirichlet priors. We compare the pooling effects of hierarchical Bayesian models by fitting the simulated data. The analysis is carried out using Markov chain Monte Carlo methods.

자기부상열차 RAM DATA 관리방안 (Review on RAM Data Management to Urban Maglev Transit)

  • 이창덕;강찬용
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2007년도 추계학술대회 논문집
    • /
    • pp.191-196
    • /
    • 2007
  • This paper is reviewed RAM(Reliability, Availability and Maintainability) data table utilized for RAM data management to Urban Maglev Transit. As railway systems become more complex, the RAM requirements are reinforced to ensure that a design meets Reliability, Availability, Maintainability criteria. Therefore, it needs the efficient management for RAM data of railway system to meet RAM target. At this study, RAM data management format is suggested to ensure reliability and maintainability based on acquired experience for overseas rolling stock. This RAM data table and FMECA(Failure Mode Effect Criticality Analysis) table are useful to the calculation of MTBF(Mean Time Between Failure), MTBSF(Mean Time Between Service Failure) and Maintainability. Also, this RAM management table will be efficient to improve the RAM evaluation to Urban Maglev Transit.

  • PDF

공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법 (Data Cube Generation Method Using Hash Table in Spatial Data Warehouse)

  • 이연;김형선;유병섭;이재동;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제9권11호
    • /
    • pp.1381-1394
    • /
    • 2006
  • 축적된 데이터를 기반으로 의사결정을 지원하는 데이터 웨어하우스에서 빠른 응답을 제공하기 위하여 데이터큐브 생성기법에 대한 많은 연구가 진행되었다. 대표적으로 다차원 배열을 사용한 기법과 hyper-tree를 기반으로 하는 H-cubing 기법이 연구되었다. 하지만 전자는 다차원 집계 연산에 필요한 모든 데이터를 배열로 저장하여 데이터의 양이 많아질수록 메모리 사용이 증가하였으며 후자는 hyper-tree를 기반으로 모든 튜플을 트리로 구축하여 트리 구축비용이 증가하였다. 본 논문에서는 데이터 웨어하우스에서 해쉬 테이블을 이용한 효율적인 데이터큐브 생성 기법을 제안한다. 제안 기법은 데이터큐브 생성 시 가중치 맵핑 테이블과 레코드 해쉬 테이블을 사용하여 다차원 데이터의 저장될 레코드 순서를 빠르게 찾아 저장한다. 따라서 데이터큐브의 생성속도가 향상되며 해쉬 테이블 만을 유지하여 메모리 사용량이 감소한다. 이는 성능평가를 통해 기존 기법보다 데이터의 빠른 검색과 데이터큐브 생성 요청에 빠른 응답을 보였다.

  • PDF

SDN 플로우 테이블 제한에 따른 리소스 어택 (Resource Attack Based On Flow Table Limitation in SDN)

  • 뉴엔 트리 투안 힙;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.215-217
    • /
    • 2014
  • In Software Defined Network (SDN), data plane and control plane are decoupled. Dummy switches on the data plane simply forward packet based on the flow entries that are stored in its flow table. The flow entries are generated by a centralized controller that acts as a brain of the network. However, the size of flow table is limited and it can conduct a security issue related to Distributed Denial of Service (DDoS). Especially, it related to resource attack that consumes all flow table resource and consumes controller resources. In this paper, we will analyze the impact of flow table limitation to the controller. Then we propose an approach that is called Flow Table Management to handle flow table limitation.

감마 카메라의 Flood Table에 대한 이해와 적절한 이용 (Comprehension and Appropriate Use of a Flood Table on a Gamma Camera)

  • 김재일;임정진;김진의;김현주
    • 핵의학기술
    • /
    • 제15권1호
    • /
    • pp.29-33
    • /
    • 2011
  • 감마 카메라 안에는 검출기의 감도를 균일하게 해주는 flood table이 내장되어있어 있는데, 우수한 균일성을 유지하기 위해서는 적합한 flood table을 사용하여야 한다. 왜냐면 flood table은 입사된 방사선의 종류와 에너지, 용량에 따라 차이가 나기 때문이다. 그래서 본 논문에서는 적절치 못한 flood table을 사용하였을 때, 영상의 균일성이 어떻게 변화하는지를 알아보겠다. 입사 방사선으로 $^{57}Co$, $^{99m}Tc$, $^{201}Tl$ 370 MBq를 사용하였다. Philips 사의 SkyLight, GE 사의 Infinia 감마 카메라를 사용하여. 각 선원 별로 각각 $^{57}Co$로 교정된 flood table, $^{99m}Tc$으로 교정된 flood table로 보정한 영상을 얻고, 균일성을 보정하지 않은 영상과 비교하였다. 추가적으로 콜리메이터를 장착한 상태에서 데이터를 얻고 내인성 flood table과 외인성 flood table로 보정 해보았다. 이렇게 나온 결과 영상을 가지고 균일도를 평가하였고, 그 값들을 서로 비교하였다. $^{57}Co$를 사용한 경우 보정을 하지 않았을 때 균일도는 9.34% 이고, $^{99m}Tc$ flood table로 보정하였을 때는 5.91%, $^{57}Co$ flood table일 경우 4.9%가 나왔다. $^{201}Tl$을 사용한 경우, 보정하지 않으면 9.81%, $^{99m}Tc$ flood table은 7.03%, $^{57}Co$ flood table은 7.49% 나왔다. $^{99m}Tc$을 사용한 경우, 무보정 시 9.67%, $^{99m}Tc$ flood table은 3.96%, $^{57}Co$ flood table은 5.69% 나왔다. 그리고 내인성 flood table로 보정을 한 경우 6.28% 나왔다. flood table이 입사된 방사선의 종류와 맞지 않는다면 균일도는 변화되는걸 알 수 있었고, 입사된 방사선과 flood table을 교정한 방사선원의 종류가 일치할 때, 감마 카메라의 균일도는 가장 좋음을 알 수 있다. 더불어 내인성, 외인성 시스템처럼 콜리메이터의 유무에 따라 다르게 교정한 flood table에 따라서도 균일도는 변화됨을 알 수 있다. 따라서 감마선을 받아 들이는 상황과 방사선원에 따라 일치한 flood table를 지정하여야 하고, 정기적으로 flood table을 개선시켜 주어야 높은 균일성을 유지 시킬 수 있을 것이다.

  • PDF