• 제목/요약/키워드: 언어TEXT

검색결과 757건 처리시간 0.023초

SGML을 이용한 문헌의 구조화 및 텍스트 검색에 관한 연구 (Document Structuring and Text Retrieval Using SGML,)

  • 오민경;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1995년도 제2회 학술대회 논문집
    • /
    • pp.29-32
    • /
    • 1995
  • 본 논문에서는 SGML(Standard Generalized Markup Language)을 사용하여 텍스트 검색시스템을 구축하였다. SGML은 개괄적 마크업언어로서 문헌을 문헌요소라는 객체 단위로 이루어진 것으로 보고 이러한 문헌요소간의 관계를 표현하므로, 텍스트 검색시스템에서 SGML을 이용하면 문헌을 구조화할 수 있고 전문(full text)을 효율적으로 조직하고 검색하는 것이 가능하다.

  • PDF

언어 산출 과정의 몇 가지 특성: - 지식 유형, 텍스트 유형, 산출양식이 언어 산출에 미치는 효과 (Some Characteristics of Language Production Processes: The Effects of Knowledge Types, Text Types, and Production Modes)

  • 노영희;이정모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.241-247
    • /
    • 1993
  • 이 연구에서는 지식 유형, 텍스트 유형 및 언어 산출 양식이 언어 산출 과정에 미치는 효과를 알아보았다. 본 연구에서는 산출할 말글에 대한 1) 사전정보를 대형(거시적) 의미구조, 소형(미시적) 의미구조, 관련 단어들의 모음의 세 지식 유령에 의해 조작하고, 2) 산출할 말글 유형을 이야기 말글과 논술 말글의 두 유형으로 변화하고, 3) 언어 산출 양식을 말하기, 펜으로 쓰기, 컴퓨터로 쓰기의 세 양식으로 변화하였을 때에, 언어 산출 과정에 어떠한 처리 부담이 가하여지는가를 3개의 실험을 통하여 연구하였다.

  • PDF

프라이버시 보호를 위한 오프사이트 튜닝 기반 언어모델 미세 조정 방법론 (Privacy-Preserving Language Model Fine-Tuning Using Offsite Tuning)

  • 정진명;김남규
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.165-184
    • /
    • 2023
  • 최근 구글의 BERT, OpenAI의 GPT 등, 언어모델(Language Model)을 사용한 비정형 텍스트 데이터에 대한 딥러닝(Deep Learning) 분석이 다양한 응용에서 괄목할 성과를 나타내고 있다. 대부분의 언어모델은 사전학습 데이터로부터 범용적인 언어정보를 학습하고, 이후 미세 조정(Fine-Tuning) 과정을 통해 다운스트림 태스크(Downstream Task)에 맞추어 갱신되는 방식으로 사용되고 있다. 하지만 최근 이러한 언어모델을 사용하는 과정에서 프라이버시가 침해될 수 있다는 우려가 제기되고 있다. 즉 데이터 소유자가 언어모델의 미세 조정을 수행하기 위해 다량의 데이터를 모델 소유자에게 제공하는 과정에서 데이터의 프라이버시가 침해될 수 있으며, 반대로 모델 소유자가 모델 전체를 데이터 소유자에게 공개하면 모델의 구조 및 가중치가 공개되어 모델의 프라이버시가 침해될 수 있다는 것이다. 이러한 상황에서 프라이버시를 보호하며 언어모델의 미세 조정을 수행하기 위해 최근 오프사이트 튜닝(Offsite Tuning)의 개념이 제안되었으나, 해당 연구는 제안 방법론을 텍스트 분류 모델에 적용하는 구체적인 방안을 제시하지 못했다는 한계를 갖는다. 이에 본 연구에서는 한글 문서에 대한 다중 분류 미세 조정 수행 시, 모델과 데이터의 프라이버시를 보호하기 위해 분류기를 추가한 오프사이트 튜닝을 적용하는 구체적인 방법을 제시한다. 제안 방법론의 성능을 평가하기 위해 AIHub에서 제공하는 ICT, 전기, 전자, 기계, 그리고 의학 총 5개의 대분야로 구성된 약 20만건의 한글 데이터에 대해 실험을 수행한 결과, 제안하는 플러그인 모델이 제로 샷 모델 및 오프사이트 모델에 비해 분류 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

기능적 자기공명영상의 언어기능검사 시 image를 이용한 자극방법의 타당성 연구 (A feasibility study on new stimulation method in fMRI language examinations using custom designed images)

  • 최관우;손순룡;정미애;민정환
    • 한국산학기술학회논문지
    • /
    • 제12권11호
    • /
    • pp.5005-5011
    • /
    • 2011
  • 본 연구는 자기공명영상을 이용한 뇌 언어 인지기능의 영상화에 있어서 기존의 text를 이용한 자극방법의 단점을 개선하기 위하여 음절이나 단어에 부합하는 image를 자체 개발하여 적용함으로써 인지기능 영상화 구현의 타당성을 알아보고자 하였다. 연구대상은 2011년 3월부터 동년 5월까지 언어기능검사가 필요한 성인 5명을 대상으로 text를 이용한 자극방법과 text를 대체한 image를 이용한 자극방법으로 나누어 각각 3회 시행하였다. 실험 장비는 3.0T 초전도 자기공명영상장치와 Invivo사의 Eloquene를 이용하였고, EPI-BOLD 기법으로 기능적 자기공명영상을 획득하였다. 영상의 후처리는 SPM 99를 이용하여 각 자극별로 95%의 신뢰수준에서 활성화 신호를 결정하였고, 관심영역인 Broca's area의 활성화 cluster 수와 활성화도를 비교하였다. 연구결과, 5명 모두 관심 영역인 Broca's area에서 활성화를 보였으며, 활성화 cluster 수와 활성화도는 약간의 차이가 있었으나, 통계적 유의성은 없었다. 결론적으로 image를 이용한 자극방법은 언어장벽이 있더라도 image 자체가 쉽게 인지할 수 있는 공통된 인식표기 수단이고 단어나 음절보다 시각적 효과가 크므로 인지기능이 저하된 외국인이나 문맹자나 영유아, 장애자, 노약자 등의 검사시 text를 이용한 자극방법의 대체가 가능하리라 사료된다.

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델 (Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model)

  • 조정제;신동수;조경빈;한영섭;전병기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

도널드 트럼프와 글로리아 안살두아의 '언어' 게임 (Language Games between Donald Trump and Gloria Anzaldúa)

  • 박정원
    • 비교문화연구
    • /
    • 제46권
    • /
    • pp.85-112
    • /
    • 2017
  • 미국의 제45대 대통령으로 취임한 도널드 트럼프는 선거캠페인이 시작된 이래로 '영어유일주의'를 천명해 왔다. 이 단일언어 정책은 세계화가 본격화된 1990년대 이후 미국의 인구학적, 문화적 변화에 직면하여 이민자와 다문화주의를 거부하고 토착주의를 강조하는 흐름의 연장선상에 놓여있다. 특히, 미국의 히스패닉화와 스페인어의 성장에 대한 반작용으로 백인중심의 문화와 가치를 고수하려는 시도와 연결되어 있다. 본 논문은 이러한 트럼프의 단일언어주의를 대표적인 라티나 작가인 글로리아 안살두아가 제안하는 '경계의 언어'와 대비시키면서 코드스위칭의 효과와 이중언어 공동체의 가능성을 탐구한다. "경계지대/국경"(1987)에서 안살두아는 하위언어인 스페인어를 텍스트에 포함시키며 자신의 언어적 현실을 드러냄과 동시에, 영어와 스페인어의 교차사용을 통한 번역작업을 시도한다. 다른 한편으로는 번역의 불가능성을 드러내면서 이중언어 사용의 불가피함을 암시하는 한편, 단일언어 독자들에게 타자의 언어와 문화를 이해하고 소통해야할 필요성에 대해 역설한다. 안살두아가 구현하는 '경계의 언어'는 이질적인 민족, 계급, 세대의 언어가 충돌하고 교섭하는 게임의 과정을 통해 생성된다. 고정되기보다는 계속적으로 변화하는 언어적 형태를 통해 안살두아는 단일 언어주의를 넘어서는 새로운 시각과 더불어 다양한 언어들 사이에서 대안적 소통방식의 필요성을 제기한다.

한글 문헌 자동축약 시스템에 관한 연구 (The Study of Automatic Extracting System on Korean Full text)

  • 김세중;조성호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.27-38
    • /
    • 1992
  • 본 연구는 한글 문헌을 컴퓨터를 이용하여 축약하는 시스템 구축에 관한 연구로서, 기존의 '완전 자동축약'에 따른 축약문 생성의 편협성을 해결하기 위하여 '자동축약 + 후통제 처리'라는 절충형 시스템 관리 형태로 실제 실현 가능한 시스템을 설계한다는데 그 큰 목적이 있다. 대상 문헌에 대한 구체적 적응 문법은 언어학적 문법 이론인 '격문법 이론'과 '성분 이론'을 그 핵심으로 이용하여 문장을 '의미 있는 어절' 단위로 추출, 해당 문헌을 축약하는 방법을 택하였다.

  • PDF

UML과 LVOOP를 이용한 프로그래밍 교육의 적용 방안 (The Application to the Programming Education Using UML and LabVIEW OOP)

  • 정덕길;정민포;조혁규
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 추계학술대회
    • /
    • pp.375-378
    • /
    • 2011
  • 컴퓨터 언어를 배우는 학습자는 다양한 분야에 적합한 프로그래밍 언어를 배우고 텍스트 기반으로 된 프로그래밍을 하는 것이 매우 어렵다고 생각한다. 이러한 문제를 쉽게 풀기 위한 한 방법이 프로그램을 비주얼로 표현하는 것이다. 기존의 시각 프로그래밍인 Visual C++, Visual Basic, Delphi와 같은 비주얼 언어는 외부 인터페이스는 비주얼 컴포넌트로 표현되고 컴포넌트의 작동에 대해서는 텍스트 기반으로 표현한다. 이러한 프로그램을 배우는 학습자들은 컴포넌트 작동에 대한 텍스트 프로그래밍에 대해 어려워하고 있으며 프로그래밍을 싫어하는 한 요소가 되었다. 논문에서는 이러한 문제를 해결하기 위해 논리적 사고를 표현하면서 객체지향을 지원하기 위해 UML을 도입하고 텍스트 프로그래밍 요소를 비주얼 프로그래밍 요소로 대체하기 위해 객체지향을 지원하는 LabVIEW OOP를 사용하여 학습자들에게 프로그래밍 교육을 하는 방법을 제시하였다. 또한, 제시된 프로그래밍 교육 방법에 대해 설문조사를 실시하여 교육적인 효과를 분석하였다.

  • PDF