• Title/Summary/Keyword: R 언어

Search Result 403, Processing Time 0.025 seconds

Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece (Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구)

  • Park, Jinwoo;Min, Jae-Ok;Sim, Woo-Chul;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

Real-Time Visual Grounding for Natural Language Instructions with Deep Neural Network (심층 신경망을 이용한 자연어 지시의 실시간 시각적 접지)

  • Hwang, Jisu;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.487-490
    • /
    • 2019
  • 시각과 언어 기반의 이동(VLN)은 3차원 실내 환경에서 실시간 입력 영상과 자연어 지시들을 이해함으로써, 에이전트 스스로 목적지까지 이동해야 하는 인공지능 문제이다. 이 문제는 에이전트의 영상 및 자연어 이해 능력뿐만 아니라, 상황 추론과 행동 계획 능력도 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각과 언어 기반의 이동(VLN) 작업을 위한 새로운 심층 신경망 모델을 제안한다. 제안모델에서는 입력 영상에서 합성곱 신경망을 통해 추출하는 시각적 특징과 자연어 지시에서 순환 신경망을 통해 추출하는 언어적 특징 외에, 자연어 지시에서 언급하는 장소와 랜드마크 물체들을 영상에서 별도로 탐지해내고 이들을 추가적으로 행동 선택을 위한 특징들로 이용한다. 다양한 3차원 실내 환경들을 제공하는 Matterport3D 시뮬레이터와 Room-to-Room(R2R) 벤치마크 데이터 집합을 이용한 실험들을 통해, 본 논문에서 제안하는 모델의 높은 성능과 효과를 확인할 수 있었다.

Lookahead Place Memory for Vision-Language Navigation Tasks (시각-언어 이동 작업을 위한 장소 미리보기 메모리)

  • Oh, Suntaek;Kim, Incheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.11a
    • /
    • pp.992-995
    • /
    • 2020
  • 시각-언어 이동 작업은 에이전트가 주어진 지시를 따라 특정 실내 공간 내에서 목적 위치로 이동하는 작업이다. 시각-언어 이동 작업의 특성상 자연어 지시 속에 등장하는 랜드마크인 장소 정보를 인지하는 것은 작업을 수행하는 데 큰 도움이 된다. 본 논문에서는 환경을 구성하는 주요 장소 정보를 저장하기 위한 장소 미리보기 메모리를 제안한다. 에이전트는 장소 미리보기 메모리에 저장된 장소 정보를 고려하여 작업을 수행하게 된다. 본 논문에서는 Matterport3D 시뮬레이션 환경에서의 실험을 통해 R2R 벤치마크 데이터 집합에서 가장 높은 성능을 보였다.

A Policy-driven RFID Data Management Event Definition Language (정책기반 RFID 데이터 관리 이벤트 정의 언어)

  • Song, Ji-Hye;Kim, Kwang-Hoon
    • Journal of Internet Computing and Services
    • /
    • v.12 no.1
    • /
    • pp.55-70
    • /
    • 2011
  • In this paper, we propose a policy-driven RFID data management event definition language, which is possibly applicable as a partial standard for SSI (Software System Infrastructure) Part 4 (Application Interface, 24791-4) defined by ISO/IEC JTC 1/SC 31/WG 4 (RFID for Item Management). The SSI's RFID application interface part is originally defined for providing a unified interface of the RFID middleware functionality―data management, device management, device interface and security functions. However, the current specifications are too circumstantial to be understood by the application developers who used to lack the professional and technological backgrounds of the RFID middleware functionality. As an impeccable solution, we use the concept of event-constraint policy that is not only representing semantic contents of RFID domains but also providing transparencies with higher level abstractions to RFID applications, and that is able to provide a means of specifying event-constraints for filtering a huge number of raw data caught from the associated RF readers. Conclusively, we try to embody the proposed concept by newly defining an XML-based RFID event policy definition language, which is abbreviated to rXPDL. Additionally, we expect that the specification of rXPDL proposed in the paper becomes a technological basis for the domestic as well as the international standards that are able to be extensively applied to RFID and ubiquitous sensor networks.

Distributed Processing of Big Data Analysis based on R using SparkR (SparkR을 이용한 R 기반 빅데이터 분석의 분산 처리)

  • Ryu, Woo-Seok
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.17 no.1
    • /
    • pp.161-166
    • /
    • 2022
  • In this paper, we analyze the problems that occur when performing the big data analysis using R as a data analysis tool, and present the usefulness of the data analysis with SparkR which connects R and Spark to support distributed processing of big data effectively. First, we study the memory allocation problem of R which occurs when loading large amounts of data and performing operations, and the characteristics and programming environment of SparkR. And then, we perform the comparison analysis of the execution performance when linear regression analysis is performed in each environment. As a result of the analysis, it was shown that R can be used for data analysis through SparkR without additional language learning, and the code written in R can be effectively processed distributedly according to the increase in the number of nodes in the cluster.

Two Generations in Texas Dialect

  • Park Jookyung
    • MALSORI
    • /
    • no.29_30
    • /
    • pp.1-18
    • /
    • 1995
  • 미국 남부 방언은 그 지역의 광대함과 아울러 그 지역에 속하는 언어사용자들의 언어 문화 및 역사적인 다양성에 의해 결코 한 가지 방언으로 취급할 수 없는 것임에도 불구하고 많은 경우에 그렇게 다루어져 왔다. 특히 소위 '남부 방언의 특징적 요소'로서 몇몇 자질들에 대한 연구가 많이 이루어져 왔다. 본 논문의 목적은 텍사스 지역방언에 이러한 남부 방언의 특징적 자질이 어느 정도 유지되고 있는가를 알아보고, 아울러 두 세대간에 언어적 차이가 있는지, 있다면 그 변화의 방향은 어느 쪽으로 전개되어가고 있는지를 밝히려는 데 있다. 이를 위하여 토박이 텍사스 인에 한하여 한 가정에서 두 세대(늙은 세대와 젊은 세대)를 대표하는 정보제공자 두 명씩을 각각 추출하여 네 가정 모두 여덟 명에게서 얻은 언어자료를 녹음하여 이를 분석, 정리하였다. 텍사스 지역방언에 대해 밝혀진 주요 내용은 다음과 같다. 1. /l/앞에 나오는 단순모음 /i/는 [$r{\partial}$] 또는 [$r{\partial}$]로 이중모음화된다. 2. 강세음절에서 비음 앞에 나오는 /e/와 /I/는 중화된다. 3. 늙은 세대에서는 /a/와 /${\supset}$/가 융합되어 쓰이나, 젊은 세대에서는 융합이 일어나지 않는다. 4. 이중모음 /ar/는 /a:/또는 /a/로 단순모음화하는 것으로 보인다. 5. 이중로음 /$a{\mho}$/ /$o{\mho}$/의 앞모음이 전설화한다. 6. [u], [ju] 와 [${\mho}$]는 모두 [${\mho}$]로 된다. 7. [w] 와 [M]는 일관성 없이 교대로 사용되나 [M]는 특히 늙은 세대에서 더 많이 사용된다.

  • PDF

WebER: Web Based Statistical Tool Interfacing R for Teaching Purposes (WebER: R을 이용한 웹 기반의 교육용 통계 분석 시스템 구현)

  • Ko, Young-Jun;Park, Yong-Min;Kim, Jin-Seog
    • Communications for Statistical Applications and Methods
    • /
    • v.19 no.2
    • /
    • pp.257-266
    • /
    • 2012
  • R is a free software for statistical analysis that provides simple interfaces to other application programs. Many people are trying to learn R, but it is difficult to learn R compared to commercial software such as SPSS or SAS, and it is cumbersome to provide an environment to teach R. Thus, it is essential to provide a new web-based R environment for novice users or for laboratory use. We developedWebER (a web-based R environment) using PHP on the Linux apache server. WebER can be easily used by any R user because we implemented the same functions as the basic Rgui such as editing R program, generating the text, image outputs, errors and warnings. It is also possible for multi-users to access WebER.

Analysis of Weather News using Big Data Analytics Tools R (빅데이터 분석도구 R을 활용한 기상뉴스 데이터분석)

  • Kim, YongSu;Ban, ChaeHoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.448-450
    • /
    • 2016
  • 정보기술과 디지털 경제의 확산으로 대규모의 데이터가 생산되는 정보화시대에서 빅 데이터의 중요성이 강조되고 있으며 다양한 분야에서 이를 응용하고 있다. 빅 데이터 분석도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 기상뉴스에 나타난 기상관련 빅 데이터를 분석한다. 다양한 뉴스에서 기상 관련 데이터를 수집하고 어떠한 텍스트가 분포되어 있는지 빈도 조사를 수행한다.

  • PDF

$F\"{u}r$ eine 'gerechte' Sprache -Zu den feministischen $Bem\"{u}chungen$ um eine Reform des Deutschen ('공평한' 언어를 위하여 -독일어 개혁의 페미니즘적 노력-)

  • Schmitter Peter
    • Koreanishche Zeitschrift fur Deutsche Sprachwissenschaft
    • /
    • v.3
    • /
    • pp.5-34
    • /
    • 2001
  • 최근 구직광고, 시청, 정치 정당, 행정부처나 특정 일간지와 시사잡지의 최근 정보 팜플렛을 1981년 이전에 나온 관련 출판물들과 비교해보면 지난 20년 동안 현대 독일어 체계에서 주목할 만한 변화가 일어났으며 어느 정도 성과가 있었음을 어렵지 않게 알 수 있을 것이다. 언어의 실천 분야에서 1981년에 처음 나타난 이런 변화(vgl. Guentherodt, Ingrid / Hellinger, Marlis/Pusch, Luise F./Tromel-Plotz, Senta: Richtliruen 2ur Vermeidung sexistischen Sprachgebrauchs. In: Linguistische Berichte H. 71, 1981, 1-7)는 특히 어휘와 대명사 체계뿐 아니라 관사체계와 명사곡용과 관련된 변화에 대해서도 관심을 보이고 있다. 이런 언어변화는 계몽적 논문 그리고 '신 여성운동'과 그 결과로 나타난 '페미니즘 언어학'의 부단한 요구가 결정적이었다. 여기서 말하는 요구란 전통적인 언어체계에 머물러 있던 '성차별'을 없애고 독일어를 개혁함으로써 어휘와 문법에서 여성의 대표성을 감지할 수 있을 정도로 남성적-가부장적 관점의 지배적인 면을 없애고 '공평한 언어'를 만들어내는 것이었다. 궁극적으로 사람들은 이런 언어개혁을 통하여 여성의 사회적인 권리평등의 길을 마련하고 싶었다. 이 논문의 목적은 이런 복잡한 문제를 좀 더 알기 쉽게 밝혀보려는 것이다. 이를 위하여 첫 번째로 사회 정치적인 맥락에서 언어 개혁을 위한 노력을 살피고 언어 이론적인 토대를 질문하였다. 두 번째로 독일 페미니즘 언어학의 구체적인 역사적 기원을 간단히 살펴보았다. 세 번째로 개혁안을 자세히 논의하면서 체계적으로 정리하였다. 마지막으로 네 번째로는 개혁안과 그의 언어학적 기초에 대한 비판의 핵심 쟁점을 살피고, 찬반주장이 또 다른 분야로, 즉 한편으로 언어정책(찬성 주장) 분야로 다른 한편으로 체계언어학(반대 주장) 분야로 확대되기 때문에 언어개혁에 대한 페미니즘적 노력의 지지자와 반대자간의 논쟁에서 해결할 수 없는 것으로 보이는 문제를 테제로 제시하였다.

  • PDF