• 제목/요약/키워드: Natural languages

검색결과 130건 처리시간 0.019초

A Survey of Automatic Code Generation from Natural Language

  • Shin, Jiho;Nam, Jaechang
    • Journal of Information Processing Systems
    • /
    • 제17권3호
    • /
    • pp.537-555
    • /
    • 2021
  • Many researchers have carried out studies related to programming languages since the beginning of computer science. Besides programming with traditional programming languages (i.e., procedural, object-oriented, functional programming language, etc.), a new paradigm of programming is being carried out. It is programming with natural language. By programming with natural language, we expect that it will free our expressiveness in contrast to programming languages which have strong constraints in syntax. This paper surveys the approaches that generate source code automatically from a natural language description. We also categorize the approaches by their forms of input and output. Finally, we analyze the current trend of approaches and suggest the future direction of this research domain to improve automatic code generation with natural language. From the analysis, we state that researchers should work on customizing language models in the domain of source code and explore better representations of source code such as embedding techniques and pre-trained models which have been proved to work well on natural language processing tasks.

딥러닝을 이용한 언어별 단어 분류 기법 (Language-based Classification of Words using Deep Learning)

  • 듀크;다후다;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.411-414
    • /
    • 2021
  • One of the elements of technology that has become extremely critical within the field of education today is Deep learning. It has been especially used in the area of natural language processing, with some word-representation vectors playing a critical role. However, some of the low-resource languages, such as Swahili, which is spoken in East and Central Africa, do not fall into this category. Natural Language Processing is a field of artificial intelligence where systems and computational algorithms are built that can automatically understand, analyze, manipulate, and potentially generate human language. After coming to discover that some African languages fail to have a proper representation within language processing, even going so far as to describe them as lower resource languages because of inadequate data for NLP, we decided to study the Swahili language. As it stands currently, language modeling using neural networks requires adequate data to guarantee quality word representation, which is important for natural language processing (NLP) tasks. Most African languages have no data for such processing. The main aim of this project is to recognize and focus on the classification of words in English, Swahili, and Korean with a particular emphasis on the low-resource Swahili language. Finally, we are going to create our own dataset and reprocess the data using Python Script, formulate the syllabic alphabet, and finally develop an English, Swahili, and Korean word analogy dataset.

지식 기반형 fuzzy 질의 응답 시스템 (Knowledge Based Question Answering System Using Fuzzy Logic)

  • 이현주;오경환
    • 인지과학
    • /
    • 제2권2호
    • /
    • pp.309-339
    • /
    • 1990
  • 인간이 서로 통신하는 가장 일반적인 방법은 자연어로 말하거나 글로 나타내는 방법이다.그러나 현재 기술로는 컴퓨터를 사용하려면 인위적인 프로그램밍 언어를 별도로 습득하여만 한다.만약 컴퓨터가 사람들이 말하거나 또는 글로 나타낸 자연어들을 이해할 수 있다면 사람들은 월씬 더 쉽고 자연스럽게 컴퓨터를 사용하게 될 것이다. 그러나 여기서의 문제점은 인간이 사용하는 언어가 많은 경우에 애매 모호하다는 것이다.예를 들어 '키큰'혹은 '젊은'과 같은 주관적 느낌을 표현하는 단어를 기존의 컴퓨터 시스템에서는 처리할 수없어,오히려 '25세이상'과 같이 정확한 조건을 명시해야만 원하는 정보를 얻을수 있다.본 연구에서는 이와 같은 fuzzy 정보를 포함하는 문장을 처리할수 있는 지식 기반형 자연어 질의 응답 시스템 개발을 목표로 블랙보드 개념을 도입하고 있다.이러한 시스템을 개발하려는 목표는 임의의 데이타베이스 시스템 및 음성 이해 시스템을 연결사용이 가능한 portable질의 응답 시스템을 개발하려는데 있다.

Part-of-speech Tagging for Hindi Corpus in Poor Resource Scenario

  • Modi, Deepa;Nain, Neeta;Nehra, Maninder
    • Journal of Multimedia Information System
    • /
    • 제5권3호
    • /
    • pp.147-154
    • /
    • 2018
  • Natural language processing (NLP) is an emerging research area in which we study how machines can be used to perceive and alter the text written in natural languages. We can perform different tasks on natural languages by analyzing them through various annotational tasks like parsing, chunking, part-of-speech tagging and lexical analysis etc. These annotational tasks depend on morphological structure of a particular natural language. The focus of this work is part-of-speech tagging (POS tagging) on Hindi language. Part-of-speech tagging also known as grammatical tagging is a process of assigning different grammatical categories to each word of a given text. These grammatical categories can be noun, verb, time, date, number etc. Hindi is the most widely used and official language of India. It is also among the top five most spoken languages of the world. For English and other languages, a diverse range of POS taggers are available, but these POS taggers can not be applied on the Hindi language as Hindi is one of the most morphologically rich language. Furthermore there is a significant difference between the morphological structures of these languages. Thus in this work, a POS tagger system is presented for the Hindi language. For Hindi POS tagging a hybrid approach is presented in this paper which combines "Probability-based and Rule-based" approaches. For known word tagging a Unigram model of probability class is used, whereas for tagging unknown words various lexical and contextual features are used. Various finite state machine automata are constructed for demonstrating different rules and then regular expressions are used to implement these rules. A tagset is also prepared for this task, which contains 29 standard part-of-speech tags. The tagset also includes two unique tags, i.e., date tag and time tag. These date and time tags support all possible formats. Regular expressions are used to implement all pattern based tags like time, date, number and special symbols. The aim of the presented approach is to increase the correctness of an automatic Hindi POS tagging while bounding the requirement of a large human-made corpus. This hybrid approach uses a probability-based model to increase automatic tagging and a rule-based model to bound the requirement of an already trained corpus. This approach is based on very small labeled training set (around 9,000 words) and yields 96.54% of best precision and 95.08% of average precision. The approach also yields best accuracy of 91.39% and an average accuracy of 88.15%.

국내 문자정보 데이터베이스의 색인에 관한 연구 (Development of an Indexing Model for Korean Textual Databases)

  • 정영미
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.19-43
    • /
    • 1996
  • 본 연구에서는 국내 텍스트 데이터베이스의 색인언어 및 색인기법에 관한 현황을 분석하고, 3개의 텍스트 데이터베이스를 대상으로 하여 자연언어 색인과 통제언어 색인의 검색 성능을 평가하는 실험을 수행하였다. 조사결과 국내 텍스트 데이터베이스의 대부분이 자연언어 색인 방식을 사용하고 있었으며 검색 실험에서는 적절한 탐색전략을 사용하는 경우 자연언어가 통제언어보다 검색성능이 우수한 것으로 평가되었다. 색인현황에 관한 조사와 검색 성능의 실험 결과에 근거하여 국내 텍스트 데이터베이스를 위한 효율적인 색인 모형을 제시하였다.

  • PDF

동남아시아 언어의 모음체계 보편성 연구 - 타갈로그어, 말레이어, 타이어를 대상으로 - (A Study on the Vowel System Universals of Southeast Asian Languages: The Cases of Tagalog, Malay and Thai.)

  • 허용
    • 비교문화연구
    • /
    • 제48권
    • /
    • pp.391-417
    • /
    • 2017
  • 동남아시아 언어들은 모음체계가 매우 복잡한 것으로 알려져 있어 자연언어 모음체계의 보편성을 논의하는 데 매우 중요한 위치를 차지하고 있다. 본 연구는 이를 위한 기초연구로 7개의 동남아시아 국어 또는 공식어 중 우선적으로 그 체계가 비교적 단순한 타갈로그어, 말레이어, 타이어의 3개 언어를 대상으로 모음체계의 보편성에 대해 논의한 것이다. 모음의 보편성에 대해서는 여러 학자들의 견해가 있지만 본 연구에서는 209개 언어의 분절음을 구축한 SPAP(Stanford Phonology Archive Project)나 451개 언어의 분절음을 구축한 UPSID(UCLA Phonological Segment Inventory Database)와 같은 대규모 말뭉치를 이용하여 모음체계의 보편성을 논의한 선행연구들을 바탕으로, 그 연구들에 제시된 6가지의 보편성 분석 기준을 위 세 언어의 모음체계에 실험적으로 적용하여 분석을 시도하였다. 그 6가지 기준은 유형적 보편성에 속하는 (1) 모음 수(또는 모음 목록 크기)와 (2) 단계성에 따른 모음 구성의 두 가지, 그리고 음성적 보편성이라 할 수 있는 (3) 저설성 (4) 균형성과 대칭성 (5) 전설성 (6) 원순성의 네 가지이다. 그리고 위의 세 언어에 이 6가지 기준을 적용함에 있어 보편성을 판별하는 또 다른 기준인 기술적 보편성과 분석적 보편성의 두 가지 관점 모두에서 분석하였다. 논의의 결과 분석적 보편성의 관점에서는 세 언어 모두 6가지 기준에서 '높음' 단계의 보편성을 보이지만 기술적 보편성에서는 타갈로그 어는 모음 수와 단계성에 따른 모음 구성, 그리고 저설성에서 상대적으로 보편성이 낮으며, 타이어는 균형성은 다른 두 언어와 마찬가지로 높은 보편성을 보이지만 대칭성에 있어서는 '보통' 단계의 보편성을 보이고 있다. 한편, 말레이어는 모든 기준에서 '높음' 단계의 보편성을 보이는 매우 안정적인 모음체계를 가지고 있음을 확인하였다.

Building an Annotated English-Vietnamese Parallel Corpus for Training Vietnamese-related NLPs

  • Dien Dinh;Kiem Hoang
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 ICEIC The International Conference on Electronics Informations and Communications
    • /
    • pp.103-109
    • /
    • 2004
  • In NLP (Natural Language Processing) tasks, the highest difficulty which computers had to face with, is the built-in ambiguity of Natural Languages. To disambiguate it, formerly, they based on human-devised rules. Building such a complete rule-set is time-consuming and labor-intensive task whilst it doesn't cover all the cases. Besides, when the scale of system increases, it is very difficult to control that rule-set. So, recently, many NLP tasks have changed from rule-based approaches into corpus-based approaches with large annotated corpora. Corpus-based NLP tasks for such popular languages as English, French, etc. have been well studied with satisfactory achievements. In contrast, corpus-based NLP tasks for Vietnamese are at a deadlock due to absence of annotated training data. Furthermore, hand-annotation of even reasonably well-determined features such as part-of-speech (POS) tags has proved to be labor intensive and costly. In this paper, we present our building an annotated English-Vietnamese parallel aligned corpus named EVC to train for Vietnamese-related NLP tasks such as Word Segmentation, POS-tagger, Word Order transfer, Word Sense Disambiguation, English-to-Vietnamese Machine Translation, etc.

  • PDF

프로그램의 주관식 문제 자동 채점 시스템 설계 및 구현 (Design and Implementation of Automatic Marking System for a Subjectivity Problem of the Program)

  • 정은미;최미순;심재창
    • 한국멀티미디어학회논문지
    • /
    • 제12권5호
    • /
    • pp.767-776
    • /
    • 2009
  • 본 논문에서는 자연어 처리의 어려움을 해결하기 위해 키워드와 불리언 연산을 이용한 프로그래밍 언어 자동 채점 시스템을 설계하고 구현하여 실험한다. 프로그래밍 언어는 정확한 문법 체제와 키워드가 존재한다. 이러한 특징을 이용하여 본 논문은 키워드와 불리언 연산을 이용한 프로그래밍 언어 자동 채점 시스템을 설계하고 구현하여 실험한다 프로그래밍 언어를 정답 유형별로 7가지로 나누고 키워드 입력 시 접속사를 특수문자를 이용해 입력하게 하여 논리식을 바로 만들어 내어 쉽게 연산이 가능하게 한다. 제안된 자동 채점시스템의 주관식 채점이 객관적으로 잘 처리됨을 보이기 위해 컴퓨터공학 전공 학생 10명을 대상으로 같은 시험을 시험지와 웹에 동일하게 응시하게 한 후, 3명의 담당 교수에게 채점을 의뢰하고 개발한 시스템으로 채점하여 결과를 비교 분석한다. 주관식 채점에서 활용되는 방대한 자연어 처리를 배제할 수 있도록 키워드와 불리언 연산을 이용한 방식을 제안하므로 구현의 효율성을 높이고 채점을 웹으로 이관함으로써 채점자의 주관적 개입을 배제하고 결과를 빠르게 피드백 해주어 객관성과 신속성을 높이는데 목적이 있다.

  • PDF