• Title/Summary/Keyword: 비언어적 정보

Search Result 649, Processing Time 0.028 seconds

Prompt Tuning for Enhancing Security of Code in Code Generation Language Models (코드 생성 언어 모델의 코드 보안성 향상을 위한 프롬프트 튜닝)

  • Miseon Yu;Woorim Han;Yungi Cho;Yunheung Peak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.623-626
    • /
    • 2024
  • 최근 거대 언어 모델의 발전으로 프로그램 합성 분야에서 활용되고 있는 코드 생성 언어 모델의 보안적 측면에 대한 중요성이 부각되고 있다. 그러나, 이를 위해 모델 전체를 재학습하기에는 많은 자원과 시간이 소모된다. 따라서, 본 연구에서는 효율적인 미세조정 방식 중 하나인 프롬프트 튜닝으로 코드 생성 언어 모델이 안전한 코드를 생성할 확률을 높이는 방법을 탐구한다. 또한 이에 따른 기능적 정확성 간의 상충 관계를 분석한다. 실험 결과를 통해 프롬프트 튜닝이 기존 방법에 비해 추가 파라미터를 크게 줄이면서도 보안률을 향상시킬 수 있음을 알 수 있었다. 미래 연구 방향으로는 새로운 조정 손실함수와 하이퍼파라미터 값을 조정하여 성능을 더욱 향상시킬 수 있는지 조사할 것이다. 이러한 연구는 보다 안전하고 신뢰할 수 있는 코드 생성을 위한 중요한 발전을 이끌 수 있을 것으로 기대된다.

XPOS: XPath-based OWL Storage Model for Effective Query Processing (XPOS: 효율적인 질의 처리를 위한 XPath 기반의 OWL 저장 모델)

  • Kim, Jin-Hyung;Jeong, Dong-Won;Baik, Doo-Kwon
    • Journal of KIISE:Databases
    • /
    • v.35 no.3
    • /
    • pp.243-256
    • /
    • 2008
  • With rapid growth of Internet, the amount of information in the Web is increasing exponentially. However, information on the current Web is understandable only for human, and thus it makes the exact information retrieval difficult. For solving this problem, the Semantic Web is suggested and we must use ontology languages that can endow data to semantics for implementing it. One of the representative ontology languages is OWL(Web Ontology Language) adopted as a recommendation by the World-Wide Web Consortium. OWL has richer expression power and formal semantics than other ontology languages such as RDF and RDF-S. In addition, OWL includes hierarchical structure information between classes or properties. Therefore, an efficient OWL storage model considering hierarchical structure for effective information retrieval on the Semantic Web is required. In this paper, we suggest the XPOS(XPath-based OWL Storage) model including hierarchy information between classes or properties as XPath form and enabling intuitive and effective information retrieval. Also, we show the comparative evaluation results on the performance of XPOS model, Sesame, and the XML storage-based storage model regarding query processing.

A Study on the Effects of Search Language on Web Searching Behavior: Focused on the Differences of Web Searching Pattern (검색 언어가 웹 정보검색행위에 미치는 영향에 관한 연구 - 웹 정보검색행위의 양상 차이를 중심으로 -)

  • Byun, Jeayeon
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.52 no.3
    • /
    • pp.289-334
    • /
    • 2018
  • Even though information in many languages other than English is quickly increasing, English is still playing the role of the lingua franca and being accounted for the largest proportion on the web. Therefore, it is necessary to investigate the key features and differences between "information searching behavior using mother tongue as a search language" and "information searching behavior using English as a search language" of users who are non-mother tongue speakers of English to acquire more diverse and abundant information. This study conducted the experiment on the web searching which is applied in concurrent think-aloud method to examine the information searching behavior and the cognitive process in Korean search and English search through the twenty-four undergraduate students at a private university in South Korea. Based on the qualitative data, this study applied the frequency analysis to web search pattern under search language. As a result, it is active, aggressive and independent information searching behavior in Korean search, while information searching behavior in English search is passive, submissive and dependent. In Korean search, the main features are the query formulation by extract and combine the terms from various sources such as users, tasks and system, the search range adjustment in diverse level, the smooth filtering of the item selection in search engine results pages, the exploration and comparison of many items and the browsing of the overall contents of web pages. Whereas, in English search, the main features are the query formulation by the terms principally extracted from task, the search range adjustment in limitative level, the item selection by rely on the relevance between the items such as categories or links, the repetitive exploring on same item, the browsing of partial contents of web pages and the frequent use of language support tools like dictionaries or translators.

Nonlinear Shape Normalization Algorithms for Gray-Scale Handwritten Hangul Images (명도 한글 글씨 영상에서의 비선형 형태 정규화 알고리즘)

  • Kim, Sang-Yup;Kim, Dae-In;Lee, Seong-Whan
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.98-104
    • /
    • 1996
  • 일반적으로 비선형 형태 정규화 과정은 필기체 문자에서 발생하는 형태 변형을 보상하기 위하여 사용되며, 현재까지 이진 영상에 대한 비선형 형태 정규화 방법들이 제안되었다. 그러나 현존하는 대부분의 문자 인식 시스템은 스캐너를 통하여 입력된 명도 문자영상을 이진화하여 사용하고 있기 때문에 이진화로 인해 야기되는 물자 영상에 대한 정보 유실 및 잡영 첨가 현상이 비선형 형태 정규화 과정에 누적되어 결과적으로 좋은 특징 추출 결과를 기대하기 어려운 실정이다. 본 연구에서는 이진화에 의한 정보의 손실을 최소화시키고, 필기체 문자에서 발생하는 다양한 형태 변형을 효과적으로 보상할 수 있는 명도 영상에서의 비선형 형태 정규화 방법을 제안한다. 제안된 명도 영상에서의 비선형 형태 정규화 방법들의 성능을 객관적으로 검증하기 위하여 처리 시간 및 복잡도 등을 기준으로 평가하였으며, 다양한 명도 한글 글씨 데이터에 대한 실험을 통하여 이진 영상에서의 비선형 형태 정규화 방법에 비해 제안된 방법이 변형이 심한 한글 글씨 데이타의 품질을 개선하는데 있어서 매우 효율적임을 확인할 수 있었다.

  • PDF

Methods of Korean Text Data Quality Assessment (한국어 텍스트 데이터의 품질 평가 요소 및 방법)

  • Kim, Jung-Wook;Hong, Cho-hee;Lee, Saebyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.619-622
    • /
    • 2018
  • 최근 데이터의 형태는 점점 다양화되고 증가하고 있기 때문에 데이터의 체계적 분류 및 관리의 필요성이 증대되고 있다. 이러한 목적을 위하여 데이터에 대한 품질 평가는 중요한 요소가 된다. 최근 데이터는 기존의 정형화된 데이터보다 비정형 데이터가 대부분을 차지하고 있다. 그러나 기존의 데이터 품질 평가는 정형 데이터에 편중되어 왔다. 따라서 다양한 형태와 의미를 가지고 있는 비정형 데이터는 기존의 평가 기술로는 품질을 측정하기 어렵다. 이와 같은 문제로 본 논문은 텍스트기반의 비정형 데이터에 적용 가능한 영역별 평가 지표를 구축하고, 신문기사와 커뮤니티(질의응답)데이터를 사용하여 각 요소별 품질을 측정하여 그 결과에 대해서 고찰하였다.

  • PDF

Bilingual Teaching-Learning Plan for Migrant Youths Based on the Waldorf Program (발도르프 프로그램을 준용한 중도입국 청소년의 이중언어 교수-학습 방안)

  • Moon, Kyung-im
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.161-164
    • /
    • 2019
  • 한국 사회는 빠르게 다문화 사회로 진입되고 있어 인구 구성과 집단이 다양해 질것으로 전망하고 있다. 다양한 형태의 가족 중 중도입국 청소년들의 비율이 점점 증가하고 있다. 대부분의 중도입국 청소년들은 준비가 전혀 이루어진 않은 상태에서 우리나라에 입국하는 실정이므로 언어장벽에서 진로장벽에 이르기 까지 매우 취약한 여건과 불안정한 환경에 처해 있는 것이다. 이를 해결하는 방안으로 국가나 지방자치단체는 물론 각급 교육기관에서 다양한 프로그램으로 서비스가 지원되고 있으나 사업 간의 중복성과 일부 비효율적인 전달체계와 운영, 예산과 인력 낭비로 인하여 효과성을 낮추는 경향이 있다. 본 논문에서는 중도입국 청소년들의 발달주기, 학령주기, 한국어 구사 능력에 따라 개인의 능력에 따른 맞춤형 언어교육으로 올바르게 성장하도록 도움을 주는 방안을 제시한다. 제시한 내용은 이중언어 교육방법과 발도르프 교육 프로그램을 준용한 교수-학습 방안이다.

  • PDF

Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus (신문 사설의 특징적 표현들에 대한 연구)

  • Kim, Hye-Young;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

대명사의 종류에 따른 참조해결과정

  • Lee, Jae-Ho;Lee, Man-Yeong
    • Annual Conference on Human and Language Technology
    • /
    • 1990.11a
    • /
    • pp.104-111
    • /
    • 1990
  • 대명사의 종류에 따른 대명사의 어휘적 특성이 대용어 참조해결에 미치는 효과를 살펴보기 위해서 두개의 실험을 수행하였다. 실험 1에서는 대명사 문장의 읽기시간과 선행어에 대한 어휘판단과제를 통해서 복수가 단수에 비해 읽기시간은 빠르지만, 어휘판단시간은 단수가 빠른 경향을 보였다. 그리고 단수는 애매성에 따라 반응시간의 차이를 보였다. 실험 2에서는 단수가 복수에 비해 어휘판단이 빠름을 반복하였다. 그리고 단수는 여전히 성별단서의 애매성에 대한 차이를 보였다. 이러한 결과는 대용어의 참조해결에 미치는 여러 요인 중에서 대명사의 어휘적 특성이 한 요인임을 증명하였다. 결론적으로 대명사의 종류에 따라 참조해결과정이 다르게 일어 날 가능성과 표상되는 글 모형도 달라질 수 있는 가능성을 제시하였다.

  • PDF

The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction (품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치)

  • Park, Young-C.;Kim, Nam-Il;Huh, Wook;Nam, Ki-Chun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

A Measure of Productivity in Derivational Morphology (파생어의 생산성 측정)

  • Cha, Joon-Kyung;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.282-289
    • /
    • 1995
  • 이 연구는 지금까지 국어 형태론에서 사용되지 않았던, 코퍼스를 이용한 계량적인 방법으로 파생어의 생산성 정도를 측정하고, 그 결과로 국어 파생 형태론에서의 생산성을 기술한 것이다. 각각의 접사들의 생산성 정도에 대한 수치를 제시함으로써 좀 더 정확하게 상대적인 생산성 비교를 할 수 있도록 하였다. 접사의 생산성 정도 측정방법은 Baayen(1989)에서 제시한 것으로, 특정접사를 가지고 코퍼스에 단 한번 출현하는 단어의 수($n_1$)와, 주어진 접사를 가지고 코퍼스에 나오는 단어의 총수(N)의 비율로 접사의 생산성 정도를 측정한다($P=n_1/N$). 200만 어절 및 1000만 어절 코퍼스를 기반으로 국어의 대표적인 파생접미사들 중 명사파생 접미사 '-이', '-음', '-기', 형용사파생 접미사 '-스럽-', '-롭-', '답-', 동사파생 접미사 '-거리-', '-대-', '-이-'의 생산성 정도를 측정하였다. 본 연구에서 채택한 코퍼스를 이용한 언어 연구 방법은 기존의 사전을 이용하여 파생어의 생산성을 측정하는 것에 비해 앞선 것이라 할 수 있다.

  • PDF