• 제목/요약/키워드: Newspaper Corpus

검색결과 22건 처리시간 0.022초

Corpus-based analysis of the usage of Korean markers -(n)un and -i/ka in editorial texts

  • Kim, Kyoung-Young
    • 한국언어정보학회지:언어와정보
    • /
    • 제19권2호
    • /
    • pp.19-36
    • /
    • 2015
  • The aim of this paper is to investigate the usage of Korean markers -(n)un and -i/ka in editorial texts focusing on information structure. Noun phrases ending with the markers -(n)un and -i/ka were annotated semi-automatically using a corpus obtained from an online newspaper. Two important factors to determine the choice of markers were examined with the annotated data: referential givenness/newness and position in a sentence. Referential givenness and newness were adopted as indicators of information structure, topic and focus respectively. In addition to quantitative analysis, qualitative analysis was conducted on the selected data. The results suggest that both the marker -(n)un and -i/ka could carry a topic and a focus reading. Sentence position also played a crucial role in determining the marker, and the marker -i/ka was used more frequently in a later position of a sentence than the marker -(n)un.

  • PDF

한국 신문의 영어 번역에 나타난 번역 보편소의 코퍼스 기반 분석 (A Corpus-based Study of Translation Universals in English Translations of Korean Newspaper Texts)

  • 고광윤;이영희
    • 비교문화연구
    • /
    • 제45권
    • /
    • pp.109-143
    • /
    • 2016
  • 본 연구는 번역된 텍스트들에 전형적으로 나타나는 언어적 특성들인 번역 보편소(translation universals)에 관한 코퍼스 기반 연구이다. 지금까지의 번역 보편소 연구는 언어계통상 서로 밀접한 관련이 있는 영어와 다른 유럽어 사이의 번역에 집중되어 왔으며, 다른 한편으로 주로 문학 장르의 분석에 치중되어 있다는 아쉬움을 지닌다. 본 연구에서는 관련 연구가 지닌 이러한 두 가지 주요 문제점을 보완하고자 하는 노력의 일환으로 한국어를 원문으로 하는 영어 번역 가운데 비문학 장르인 신문언어 텍스트를 분석대상으로 선택하였다. 먼저, 번역된 신문영어 텍스트와 비번역 신문영어 텍스트를 정해진 기준에 따라 수집하여 번역과 비번역 영어(translated and non-translated English)로 구성된 대응코퍼스(comparable corpora)를 구축하였다. 이렇게 구축된 대응 코퍼스를 바탕으로 기존 문헌에서 논의된 번역 보편소 가설 가운데 가장 대표적인 단순화(simplification), 명시화(explicitation), 규범화(normalization), 평준화(leveling-out) 현상이 한국어 신문의 영어 번역 텍스트에서 어떠한 양상을 보이는지 살펴봄으로써 각 가설들이 지니는 타당성을 검증해보고자 하였다. 본 연구의 분석결과를 종합해보면, 단순화와 규범화를 제외한 나머지 하위가설의 언어적 특성들은 모든 언어쌍과 모든 텍스트 장르에 걸쳐 일반화하기에 다소 한계가 있는 것으로 나타났다. 또한, 번역 보편소의 개념 규정이나 분석지표의 정교화, 그리고 결과의 일반화에는 신중한 접근이 필요할 것으로 보인다.

영어 말뭉치 구축을 위한 인터넷 영어 신문기사 추출 도구 (Internet English Newspaper Article Extraction Tool for English Corpus Construction)

  • 김성동;엄재영;송철민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.154-156
    • /
    • 2012
  • 영한 기계번역 시스템의 개발을 위해서는 여러 가지 사전이 필요하고, 다앙한 모호성 해소를 위한 연구를 위한 데이터가 필요하며, 번역 시스템의 테스트를 위해 많은 영어 문장이 필요하다. 따라서 영어 말뭉치를 구축하여 이로부터 사전에 필요한 정보, 모호성 해소 연구에 필요한 데이터, 번역 테스트를 위한 문장 등을 추출할 필요가 있다. 본 논문에서는 영어 말뭉치를 구축하기 위해 인터넷 영어 신문 사이트로부터 영어로 작성된 신문기사를 추출하는 도구를 개발하였다. 이를 통해 자동적으로 영어 신문기사를 추출하여 말뭉치를 구축할 수 있으며, 이를 통해 영한 기계번역 시스템의 성능 향상을 지원할 수 있다.

  • PDF

신문 사설의 특징적 표현들에 대한 연구 (Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus)

  • 김혜영;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

접속 부사의 사용에 따른 설득문과 보도문의 대응 분석 (Correspondence Analysis of Reports and Persuasives based on a Newspaper Corpus)

  • 김혜영;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-180
    • /
    • 2013
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2000~2011년 신문 사설과 보도문에서서 나타나는 접속부사의 사용에 대한 분석이다. 구체적으로, 텍스트 구조를 드러내는 표지의 기능을 하는 접속부사에 대해 논의하고자 한다. 12년 동안 출현한 고빈도 접속부사 '그러나, 하지만, 그런데, 그리고, 따라서, 그래서, 그렇지만, 그러면, 그러므로, 하물며'를 대상으로 보도문에서의 빈도 변화와 신문 사설에서의 빈도 변화를 대응 분석과 군집 분석을 통해 객관적, 통계적, 통시적으로 분석하였다. 연구 결과, 나열의 구조에서 보도문은 '그리고'를 선호하고 신문 사설은 '하물며'를 선호하여 사용하며, 대조의 표지로서 보도문은 '하지만'을 신문 사설은 '그러나, 그렇지만'을 선호하여 사용하였다. 화제 전환을 나타낼 때 보도문은 '그러면'을 사용하는 반면 신문 사설은 '그런데'를 사용하고, 문제에 대한 결과를 제시할 때 '보도문'은 '그러므로, 그래서'를 신문 사설은 '따라서'를 더 많이 사용하는 경향이 나타났다.

  • PDF

신문 기사의 코퍼스 언어학적 분석 (Corpus-Linguistical Analysis of Newspaper Articles)

  • 송경화;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-14
    • /
    • 2006
  • 본 연구에서는 신문 기사에 대한 실증적 언어 분석을 목적으로 하여, <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 다양한 각도로 계량화하여 분석한다. 신문 기사를 표제, 전문, 본문의 구성으로 나누고 각 구성의 특징에 따라 형태 분석 말뭉치, 형태의미 분석 말뭉치, 구문 분석 말뭉치를 이용하여 분석한다. 본 연구는 대량의 신문 기사 말뭉치를 이용한 계량적 방법이라는데 의의가 있다 이러한 연구 방법을 통하여 기존의 직관을 이용한 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있을 것이다.

  • PDF

사건명사의 네트워크 분석 (A Network Analysis of Event Nouns)

  • 김혜영;강범모;이도길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.94-99
    • /
    • 2010
  • This paper is to present how a network between words is formed. Not only have we looked at the distributivity, frequency and strength in connections between related words, but we have also presented some way to shed lights on what this network means to linguistic and social studies. The target source is morpho-analysis components of Trends 21 corpus which cover all newspaper articles from lour major newspapers, including Chosun, Joongang, Donga, and Hankyoreh, issued between 2000 and 2008. Based on nodes, links, and their connectivity indexes - density, degree, and centralizations, we have been able to retrieve and cluster related words forming the network with 20 event nouns. To reduce noise, we have considered the words whose t-score is above 1.64. By conducting both network and statistical analyses, we have presented the network of each event noun.

  • PDF

코퍼스를 활용한 한국 사회 10년 비건 패션, 뷰티 변화 분석 (Ten-Year Change in Vegan Fashion and Beauty Industries in Korean Society -A Corpus Analysis-)

  • 강소미;장하연;장주연
    • 한국의류학회지
    • /
    • 제47권4호
    • /
    • pp.625-645
    • /
    • 2023
  • This study examined newspaper articles from 2012 to the first quarter of 2021 to explore how interest in and response to veganism have evolved in the fashion and beauty industries over the past decade. By analyzing keywords and word correlations, we discovered a steady increase in veganism-related articles in both English- and Korean-language newspapers published in Korea, especially since 2019. Since 2012, consumer interest in vegan fashion materials has grown, with fashion and beauty emerging in 2018 as significant vegan-related keywords. As a result, brands have adopted vegan certification systems and introduced vegan product lines, and new vegan brands have emerged. Since 2020, companies have been promoting environmental, social, and governance (ESG) management practices and working toward eco-management that reflects vegan trends in all areas, such as cruelty-free product/packaging materials, brands, policies, and services. It is also notable that fashion/beauty consumers have been more actively starting to adopt eco-friendly lifestyles and participate in vegan-related movements since that time. Our findings offer important insights into the evolution of veganism in Korea and can help researchers and industry practitioners to develop future business strategies in the vegan fashion and beauty industries.

빈도 정보를 이용한 한국어 저자 판별 (Authorship Attribution in Korean Using Frequency Profiles)

  • 한나래
    • 인지과학
    • /
    • 제20권2호
    • /
    • pp.225-241
    • /
    • 2009
  • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

  • PDF

주가지수 방향성 예측을 위한 도메인 맞춤형 감성사전 구축방안 (A domain-specific sentiment lexicon construction method for stock index directionality)

  • 김재봉;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.585-592
    • /
    • 2017
  • 개인용 디바이스의 발달로 개인들이 손쉽게 인터넷에 접속할 수 있게 되었으며, 소셜미디어를 통한 정보의 공유와 습득이 일반화 되고 있다. 특히 분야별 전문 커뮤니티가 발달하며 사회적 영향력을 행사하고 있어 기업과 정부는 이들의 의견을 반영하여 전략을 수립하는 일에 관심을 기울이고 있다. 온라인상의 다양한 텍스트로부터 대중의 의견을 읽어내는 것을 오피니언마이닝이라고 한다. 그 중 하나인 감성사전은 방대한 비정형데이터를 빠르게 파악하는 도구로 여러 분야에서 활용되고 있다. 주식시장은 사회의 여러 요인을 반영하여 변동한다. 최근에는 버즈량 분석 등 빅데이터를 기반으로 오피니언마이닝을 활용한 주식시장 연구가 시도되고 있다. 대표적인 예로 뉴스와 같은 텍스트 데이터 분석을 활용한 연구들이 발표되고 있다. 본 논문에서는 뉴스의 정제된 형식과 한정된 어휘를 사용한 기존연구를 보완하고자 증권전문 사이트 'Paxnet'의 게시 글을 분석대상으로 삼아 주식시장 맞춤형 감성사전을 구축하여 투자자들의 감성을 분석하는 데 기여했다.