• 제목/요약/키워드: Cross-lingual

검색결과 74건 처리시간 0.018초

지식베이스에 기반한 다언어 문서 검색 (Cross-Lingual Text Retrieval Based on a Knowledge Base)

  • 최명복;조준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.21-32
    • /
    • 2010
  • 웹과 같은 일반 영역을 대상으로 문서를 검색할 때 사용자의 질의 구성은 정보검색 효과에 큰 영향을 준다. 본 논문에서는 일반 사용자들이 웹에서 다언어 문서 검색을 효과적으로 수행할 수 있도록 다언어 지식베이스 기반의 지능형 정보검색 방법을 제안한다. 지식베이스로부터 추론된 지식은 사용자의 연상 작용을 도와 질의를 용이하고 정확하게 구성하여 효과적인 다언어 정보검색을 수행할 수 있도록 한다. 본 논문에서는 이러한 지식베이스 기반의 질의 변경 알고리즘을 개발하고 이를 한국어와 영어 웹 문서를 대상으로 실험하였다. 실험 결과 제안된 질의 변경 알고리즘은 다언어 문서 검색에서 지식베이스를 사용하지 않은 경우에 비해 매우 효과적임을 알 수 있었다.

링크확률과 개체명 인식을 이용한 영-한 교차언어 링크 탐색 (English-Korean Cross-lingual Link Discovery Using Link Probability and Named Entity Recognition)

  • 강신재
    • 한국지능시스템학회논문지
    • /
    • 제23권3호
    • /
    • pp.191-195
    • /
    • 2013
  • 본 논문에서는 방대한 웹 자원의 연결성을 더욱 증가시키기 위해 영어 위키피디아 문서로부터 한국어 위키피디아 문서로의 교차언어 링크를 자동으로 탐색하는 방법을 제안한다. 어구의 링크확률을 대략 추정하여 사용하던 기존의 방법에 비해, 본 연구에서는 위키피디아 문서 집합으로부터 추출한 제목 목록과 링크 확률과 같은 다양한 정보들과 개체명 인식 결과를 함께 사용하여 링크가 걸릴 앵커 후보를 선택한다. 앵커 후보를 한국어 대역어로 번역한 후, 대역어에 가장 적합한 한국어 웹문서를 찾아 교차언어 링크로 설정하게 된다. 실험한 결과 MAP 수치로 0.375를 얻었다.

퍼지 지식베이스를 이용한 효과적인 다언어 문서 검색 (Effective Cross-Lingual Text Retrieval using a Fuzzy Knowledge Base)

  • 최명복
    • 한국인터넷방송통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.53-62
    • /
    • 2008
  • 다언어 문서검색(CLTR; Cross-Lingual Text Retrieval)은 하나의 언어로 질의가 주어질 때, 그 질의의 언어와는 다른 언어로 되어 있는 문서들을 검색하는 정보 검색을 말한다. 본 논문에서는 두 언어 사이의 용어들 간에 부분 매칭을 다룰 수 있도록 하기 위해 퍼지 다언어 시소러스 기반의 다언어 문서검색 시스템을 제안한다. 제안된 다언어 문서검색 시스템에서는 효과적인 추론을 위해 퍼지 용어 매트릭스를 정의하여 이용한다. 정의된 퍼지 용어 매트릭스에서 용어들 간의 모든 관련도가 전이폐쇄 알고리즘을 이용하여 추론함으로써 용어들 간의 묵시적인 링크가 모두 검색에 반영된다. 이에 따라 제안된 방법은 인간 전문가에 좀 더 가까운 정보검색을 수행하여 검색 효과를 높이게 된다.

  • PDF

지시문 및 번역 데이터셋을 활용한 Llama2 Cross-lingual 한국어 확장 (Llama2 Cross-lingual Korean with instruction and translation datasets)

  • 장규식;이현민;나승훈;임준호;김태형;류휘정;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.627-632
    • /
    • 2023
  • 대규모 언어 모델은 높은 연산 능력과 방대한 양의 데이터를 기반으로 탁월한 성능을 보이며 자연어처리 분야의 주목을 받고있다. 이러한 모델들은 다양한 언어와 도메인의 텍스트를 처리하는 능력을 갖추게 되었지만, 전체 학습 데이터 중에서 한국어 데이터의 비중은 여전히 미미하다. 결과적으로 이는 대규모 언어 모델이 영어와 같은 주요 언어들에 비해 한국어에 대한 이해와 처리 능력이 상대적으로 부족함을 의미한다. 본 논문은 이러한 문제점을 중심으로, 대규모 언어 모델의 한국어 처리 능력을 향상시키는 방법을 제안한다. 특히, Cross-lingual transfer learning 기법을 활용하여 모델이 다양한 언어에 대한 지식을 한국어로 전이시켜 성능을 향상시키는 방안을 탐구하였다. 이를 통해 모델은 기존의 다양한 언어에 대한 손실을 최소화 하면서도 한국어에 대한 처리 능력을 상당히 향상시켰다. 실험 결과, 해당 기법을 적용한 모델은 기존 모델 대비 nsmc데이터에서 2배 이상의 성능 향상을 보이며, 특히 복잡한 한국어 구조와 문맥 이해에서 큰 발전을 보였다. 이러한 연구는 대규모 언어 모델을 활용한 한국어 적용 향상에 기여할 것으로 기대 된다.

  • PDF

A Method of Chinese and Thai Cross-Lingual Query Expansion Based on Comparable Corpus

  • Tang, Peili;Zhao, Jing;Yu, Zhengtao;Wang, Zhuo;Xian, Yantuan
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.805-817
    • /
    • 2017
  • Cross-lingual query expansion is usually based on the relationship among monolingual words. Bilingual comparable corpus contains relationships among bilingual words. Therefore, this paper proposes a method based on these relationships to conduct query expansion. First, the word vectors which characterize the bilingual words are trained using Chinese and Thai bilingual comparable corpus. Then, the correlation between Chinese query words and Thai words are computed based on these word vectors, followed with selecting the Thai candidate expansion terms via the correlative value. Then, multi-group Thai query expansion sentences are built by the Thai candidate expansion words based on Chinese query sentence. Finally, we can get the optimal sentence using the Chinese and Thai query expansion method, and perform the Thai query expansion. Experiment results show that the cross-lingual query expansion method we proposed can effectively improve the accuracy of Chinese and Thai cross-language information retrieval.

Risk of lingual nerve injuries in removal of mandibular third molars: a retrospective case-control study

  • Tojyo, Itaru;Nakanishi, Takashi;Shintani, Yukari;Okamoto, Kenjiro;Hiraishi, Yukihiro;Fujita, Shigeyuki
    • Maxillofacial Plastic and Reconstructive Surgery
    • /
    • 제41권
    • /
    • pp.40.1-40.7
    • /
    • 2019
  • Background: Through the analysis of clinical data, we attempted to investigate the etiology and determine the risk of severe iatrogenic lingual nerve injuries in the removal of the mandibular third molar. Methods: A retrospective chart review was performed for patients who had undergone microsurgical repair of lingual nerve injuries. The following data were collected and analyzed: patient sex, age, nerve injury side, type of impaction (Winter's classification, Pell and Gregory's classification). Ratios for the respective lingual nerve injury group data were compared with the ratios of the respective data for the control group, which consisted of data collected from the literature. The data for the control group included previous patients that encountered various complications during the removal of the mandibular third molar. Results: The lingual nerve injury group consisted of 24 males and 58 females. The rate of female patients with iatrogenic lingual nerve injuries was significantly higher than the control groups. Ages ranged from 15 to 67 years, with a mean age of 36.5 years old. Lingual nerve injury was significantly higher in the patient versus the control groups in age. The lingual nerve injury was on the right side in 46 and on the left side in 36 patients. There was no significant difference for the injury side. The distoangular and horizontal ratios were the highest in our lingual nerve injury group. The distoangular impaction rate in our lingual nerve injury group was significantly higher than the rate for the control groups. Conclusion: Distoangular impaction of the mandibular third molar in female patients in their 30s, 40s, and 50s may be a higher risk factor of severe lingual nerve injury in the removal of mandibular third molars.

Contour of lingual surface in lower complete denture formed by polished surface impression

  • Heo, Yu-Ri;Kim, Hee-Jung;Son, Mee-Kyoung;Chung, Chae-Heon
    • The Journal of Advanced Prosthodontics
    • /
    • 제8권6호
    • /
    • pp.472-478
    • /
    • 2016
  • PURPOSE. The aim of this study was to analyze the shapes of lingual polished surfaces in lower complete dentures formed by polished surface impressions and to provide reference data for use when manufacturing edentulous trays and lower complete dentures. MATERIALS AND METHODS. Twenty-six patients with mandibular edentulism were studied. After lower wax dentures were fabricated, wax was removed from the lingual side of the wax denture and a lingual polished surface impression was obtained with tissue conditioner. The definitive denture was scanned with a three-dimensional scanner, and scanned images were obtained. At the cross-sections of the lingual frenum, lateral incisors, first premolars, first molars, and anterior border of the retromolar pads, three points were marked and eight measurements were taken. The Kruskal-Wallis test and a post hoc analysis with the Mann-Whitney test were performed. RESULTS. Each patient showed similar values for the same areas on the left and right sides without a statistically significant difference. The height of the contour of the lingual polished surface at the lingual frenum was halfway between the occlusal plane and lingual border, it moved gradually in a downward direction. The angle from the occlusal plane to the height of the contour of the lingual polished surface was increased as it progressed from the lingual frenum towards the retromolar pads. CONCLUSION. The shape of the mandibular lingual polished surface was convex at the lingual frenum, lateral incisors and gradually flattened towards the first molars and retromolar pads.

하악골 전산화단층사진촬영시 기준선에 관한 연구 (Reference line for computed tomogram of the mandible)

  • 유충현;김재덕
    • Imaging Science in Dentistry
    • /
    • 제32권3호
    • /
    • pp.153-157
    • /
    • 2002
  • Purpose : This study was performed to determine the proper reference line for taking axial computed tomograms from which the good cross-sectional views can be reformatted by multiplanar reconstruction. Methods : Three dry mandibles with implanted gutta percha cones in the extracted socket were scanned axially according to 6 reference lines of 2 mandibular positions with computed tomogram Hitachi W550. The accuracy of measurements of the lengths of implanted gutta perch a cones in the each cross-sectional view reformatted from axial computed tomogram by multiplanar reconstruction was evaluated. Results: The difference between the measurements and the real length of implant was smallest in the bucco-lingual views reformatted from the axial views scanned according to the reference line of group V-a. The smaller the angle difference between reference line and occlusal line was, the smaller the difference between the measurements in the bucco-lingual views reformatted from axial views and the real length of implant. The majority of measured widths of implants in the bucco-lingually reformatted views were larger than the actual values. Conclusions : When the mandible is inclined within the limitation of gantry angle and scanned with the reference line coincident with occlusal plane, the bucco-lingual view can be reformatted without deformation of images from the axially scanned images.

  • PDF

Cross-lingual Post-Training (XPT)을 통한 한국어 언어모델 구축 및 비교 실험 (Korean language model construction and comparative analysis with Cross-lingual Post-Training (XPT))

  • 손수현;박찬준;이정섭;심미단;이승현;이진우;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.295-299
    • /
    • 2022
  • 자원이 부족한 언어 환경에서 사전학습 언어모델 학습을 위한 대용량의 코퍼스를 구축하는데는 한계가 존재한다. 본 논문은 이러한 한계를 극복할 수 있는 Cross-lingual Post-Training (XPT) 방법론을 적용하여 비교적 자원이 부족한 한국어에서 해당 방법론의 효율성을 분석한다. 적은 양의 한국어 코퍼스인 400K와 4M만을 사용하여 다양한 한국어 사전학습 모델 (KLUE-BERT, KLUE-RoBERTa, Albert-kor)과 mBERT와 전반적인 성능 비교 및 분석 연구를 진행한다. 한국어의 대표적인 벤치마크 데이터셋인 KLUE 벤치마크를 사용하여 한국어 하위태스크에 대한 성능평가를 진행하며, 총 7가지의 태스크 중에서 5가지의 태스크에서 XPT-4M 모델이 기존 한국어 언어모델과의 비교에서 가장 우수한 혹은 두번째로 우수한 성능을 보인다. 이를 통해 XPT가 훨씬 더 많은 데이터로 훈련된 한국어 언어모델과 유사한 성능을 보일 뿐 아니라 학습과정이 매우 효율적임을 보인다.

  • PDF

Zero-Shot 기반 기계번역 품질 예측 연구 (Study on Zero-shot based Quality Estimation)

  • 어수경;박찬준;서재형;문현석;임희석
    • 한국융합학회논문지
    • /
    • 제12권11호
    • /
    • pp.35-43
    • /
    • 2021
  • 최근 다언어모델(Cross-lingual language model)을 활용하여 한 번도 보지 못한 특정 언어의 하위 태스크를 수행하는 제로샷 교차언어 전이(Zero-shot cross-lingual transfer)에 대한 관심이 증가하고 있다. 본 논문은 기계번역 품질 예측(Quality Estimation, QE)을 학습하기 위한 데이터 구축적 측면에서의 한계점을 지적하고, 데이터를 구축하기 어려운 상황에서도 QE를 수행할 수 있도록 제로샷 교차언어 전이를 수행한다. QE에서 제로샷을 다룬 연구는 드물며, 본 논문에서는 교차언어모델을 활용하여 영어-독일어 QE 데이터에 대해 미세조정을 실시한 후 다른 언어쌍으로의 제로샷 전이를 진행했고 이 과정에서 다양한 다언어모델을 활용하여 비교 연구를 수행했다. 또한 다양한 자원 크기로 구성된 언어쌍에 대해 제로샷 실험을 진행하고 실험 결과에 대해 언어별 언어학적 특성 관점으로의 분석을 수행하였다. 실험결과 multilingual BART와 multillingual BERT에서 가장 높은 성능을 보였으며, 특정 언어쌍에 대해 QE 학습을 전혀 진행하지 않은 상황에서도 QE를 수행할 수 있도록 유도하였다.