• 제목/요약/키워드: 정렬문제

검색결과 295건 처리시간 0.021초

메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점 (Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues)

  • 황은하;안진산;남길임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF

밀리미터파 채널사운딩 측정을 위한 이동형 송수신 장치의 개발과 특성평가 (Development and Characterization of Mobile Transceiver for Millimeter-Wave Channel Sounding Measurement)

  • 최종욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제24권3호
    • /
    • pp.35-40
    • /
    • 2024
  • 본 논문에서는 야외 환경에서 약 10 km 거리까지의 대기공간을 이용하여 밀리미터파 대역의 전파를 송수신 및 채널사운딩 측정할 수 있는 장치를 제작하고 그 특성을 알아보았다. 이 장치는 밀리미터파 대역의 전파 특성 연구에 큰 도움이 될 것으로 예상한다. 측정된 수신세기, PDP 등의 데이터를 통해 PathLoss, K-factor, 전파모델 예측치와의 비교 분석등을 할 수 있다. 이동형 송수신 장치는 차량에 탑재되어 송신소와 수신소의 위치를 자유롭게 변경할 수 있으며 거리에 따른 동화기 문제를 해결하기 위해 루비듐 원자시계를 사용하였다. 안테나의 주요 섹터를 찾기 위해 스캐닝을 활용한 자동 보어사이트 정렬 기능을 적용하였다.

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.

오류분석에 기반한 NXC 로봇프로그래밍 지원시스템의 개발 (Development of NXC Robot Programming Supporting System Based on Types of Programming Error)

  • 남재원;유인환
    • 정보교육학회논문지
    • /
    • 제15권3호
    • /
    • pp.375-385
    • /
    • 2011
  • 컴퓨터 교육은 기능 중심의 교육에서 창의력과 문제해결력을 신장시킬 수 있는 방향으로 전환되며 프로그래밍이 새롭게 주목받고 있다. 그러나 기존의 프로그래밍 교육은 여전히 문법 위주의 언어 지식 교육에 치우쳐 있어 한계가 있었다. 로봇 프로그래밍은 그 자체가 문제해결과정이며 프로그래밍 결과를 로봇이라는 구체물을 통해 직접 확인할 수 있으므로 학습자들의 흥미와 동기유발에 도움을 줄 수 있다. 그러나 실제 로봇 프로그래밍 교육을 실시해 보면 학습자들이 여러 가지 오류 때문에 어려움에 직면하는 것을 볼 수 있다. 따라서 본 연구에서는 로봇 프로그래밍에서 학습자들이 발생시키는 오류들을 유형별로 나누어 분석하고 이를 기초로 오류 해결지원 도구를 개발하였다. 개발된 오류 해결 지원 도구는 발생되는 오류를 감소시키고 오류 해결을 쉽게 할 수 있도록 명령어의 세트화, 언어 및 오류 메시지의 한글화, 학습단계별 예제소스 및 도움말, 주요 코딩 오류 제거기능, 코드정렬 및 행번호 표시 기능 등을 제공하였다. 투입 결과 오류 해결 지원 도구는 오류 감소와 오류 해결에 도움이 됨을 확인할 수 있었다.

  • PDF

유한요소 해석을 이용한 팬아웃 웨이퍼 레벨 패키지 과정에서의 휨 현상 분석 (Warpage Analysis during Fan-Out Wafer Level Packaging Process using Finite Element Analysis)

  • 김금택;권대일
    • 마이크로전자및패키징학회지
    • /
    • 제25권1호
    • /
    • pp.41-45
    • /
    • 2018
  • 기술의 발전과 전자기기의 소형화와 함께 반도체의 크기는 점점 작아지고 있다. 이와 동시에 반도체 성능의 고도화가 진행되면서 입출력 단자의 밀도는 높아져 패키징의 어려움이 발생하였다. 이러한 문제를 해결하기 위한 방법으로 산업계에서는 팬아웃 웨이퍼 레벨 패키지(FO-WLP)에 주목하고 있다. 또한 FO-WLP는 다른 패키지 방식과 비교해 얇은 두께, 강한 열 저항 등의 장점을 가지고 있다. 하지만 현재 FO-WLP는 생산하는데 몇 가지 어려움이 있는데, 그 중 한가지가 웨이퍼의 휨(Warpage) 현상의 제어이다. 이러한 휨 변형은 서로 다른 재료의 열팽창계수, 탄성계수 등에 의해 발생하고, 이는 칩과 인터커넥트 간의 정렬 불량 등을 야기해 대량생산에 있어 제품의 신뢰성 문제를 발생시킨다. 이러한 휨 현상을 방지하기 위해서는 패키지 재료의 물성과 칩 사이즈 등의 설계 변수의 영향에 대해 이해하는 것이 매우 중요하다. 이번 논문에서는 패키지의 PMC 과정에서 칩의 두께와 EMC의 두께가 휨 현상에 미치는 영향을 유한요소해석을 통해 알아보았다. 그 결과 특정 칩과 EMC가 특정 비율로 구성되어 있을 때 가장 큰 휨 현상이 발생하는 것을 확인하였다.

학제간 연구를 통한 IPR 데이터베이스 구축의 쟁점 (Issues of IPR Database Construction through Interdisciplinary Research)

  • 김동용;박영철
    • 한국융합학회논문지
    • /
    • 제8권8호
    • /
    • pp.59-69
    • /
    • 2017
  • 인문 사회과학 연구원들과 데이터베이스 전문가들이 태평양문제연구회(IPR)가 작성한 IPR 자료를 데이터베이스로 구축하기 위해 함께 하였다. 본 논문은 그 데이터베이스의 구축에서 IPR 자료의 품질을 보장하기 위한 쟁점과 해결책을 제시한다. 우리는 데이터베이스의 접근성을 위해 웹에 데이터베이스를 유지하여 연구원들이 웹 브라우저로 접근할 수 있도록 하며, 데이터베이스 구축의 편리성을 위해 통합 인터페이스를 제공하여 연구원들이 그 속에서 모든 작업을 수행하게 하며, 구축한 IPR 자료의 완전성을 위해 입력된 각 IPR 자료의 책임 소재를 밝히는 책임 입력과 책임 승인을 지원하며, 승인의 즉시성을 위해 연구원들의 입력을 원활히 하는 대화형 승인 과정을 지원한다. 또한 구축한 IPR 자료의 정확성을 보장하기 위해 우리는 데이터베이스 설계, 질의 처리, 트랜잭션 관리, 검색과 정렬 기법들을 사용한다. 특히, 레코드들 간의 존재 종속관계를 이용한 동시성 제어를 통하여 운영체제 파일과 그 파일의 경로 간의 정확성을 보장한다. 향후 연구로 내용 검색, 데이터베이스의 다운로드와 업로드, IPR 자료의 저작권 관련 작업을 포함한다.

하나의 큰 태양전지판에 적합한 전개시험장치 개발 (Development of Deployment Test Equipment Suitable for Single Large Solar Panel)

  • 문홍열;박상호
    • 한국항공우주학회지
    • /
    • 제46권7호
    • /
    • pp.583-591
    • /
    • 2018
  • 본 논문에서는 하나의 큰 태양전지판 전개시험을 위해 새로운 전개시험장치를 제안하였다. 지상에서 전개시험을 수행하기 위해서는 궤도에서와 유사한 무중력 환경을 만들기 위해 중력 보상을 고려한 장치를 사용해야 한다. 기존에 주로 사용되는 전개시험장치를 시험하고자 하는 태양전지판 전개에 적용 가능한지 판단하기 위해 간단한 개념설계, 해석 그리고 시험 등을 통해 장단점을 분석하였다. 지상 시험의 문제점인 공기저항 문제를 해결하기 위해 더미 프레임을 제안하였으며 중력축과의 정렬 문제를 해결하기 위해 전개 장치에 자동조심 베어링 및 조절나사를 적용하였다. 그리고 테잎 스프링 힌지축의 변화를 보상하기 위해 반지름 방향 이동을 위한 수평 이동 베어링이 적용되었다. 이로부터 본 논문에서 전개하고자 하는 태양전지판에 특성화된 새로운 전개시험장치를 개발하고 검증함으로써 기존 전개시험장치의 문제점을 해결하였다.

점 행렬을 이용한 새로운 부분 영상 검색 기법 (A Novel Sub-image Retrieval Approach using Dot-Matrix)

  • 김준호;강경민;이도훈
    • 한국산학기술학회논문지
    • /
    • 제13권3호
    • /
    • pp.1330-1336
    • /
    • 2012
  • 영상 검색 방법은 텍스트 기반, 내용 기반, 영역 기반 영상 검색, 부분 영상 검색 방법 등 다양한 연구가 이루어지고 있다. 그 중에 부분 영상 검색은 질의 영상을 포함하는 대상 영상을 찾는 문제이다. 본 논문에서는 생물정보학에서 사용하는 점 행렬 방법을 이용한 새로운 부분 영상 검색 방법을 제안한다. 점 행렬은 두 DNA 서열 간에 유사도를 시각화하는 방법으로써 영상 검색에 적용하여 두 영상 간에 유사도를 비교하는 문제로 재정의한다. 이 알고리즘을 적용하기 위해서 이차원 배열 정보인 영상을 일차원 명암도 영상으로 변환한다. 두 일차원 명암도 영상을 정렬하여 생성된 점 행렬을 이용하여 부분 영상 후보 영역을 생성한다. 실험에는 10 개의 대상 영상과 대상 영상의 부분을 복사한 영상, 축소한 영상, 확대한 영상으로 5종류의 질의 영상을 사용하였다.

변형된 면적기반영역선별 기법에 의한 문자영상분할 (Handwritten Image Segmentation by the Modified Area-based Region Selection Technique)

  • 황재호
    • 대한전자공학회논문지SP
    • /
    • 제43권5호
    • /
    • pp.30-36
    • /
    • 2006
  • 변형된 면적기반영역선별 기법으로 문자영상 속에 내재되어 있던 영역 분할을 회복하는 새로운 기법을 제안한다. 정보영역과 바탕영역으로 양분되어 있는 이진 원영상에 비해 오염 및 훼손으로 관측영상은 얼룩점과 잡음이 전체 영상에 섞여 다수의 크고 작은 영역들이 혼재된 그레이스케일 형태가 된다. 이러한 영상을 종래의 문턱치 처리나 확률적 기법으로 영역 분할하려면 이진영상으로 전환시킴에 의한 영역 형태 변형 문제가 발생한다. 이 문제를 최소화하기 위해 마름모꼴 블록을 채택한 반복조건부양식(iterated conditional mode, ICM) 기법으로 이진 영상을 구현하여 일차적으로 영역들의 집합으로 분류하였다. 그 다음 현재고려중인 화소에서 화소의 영역형성 판별과 영역의 면적을 산출하였다. 이를 전체 화소에 걸쳐 순차적으로 확산하여 해당영역들의 정보영역으로의 귀속 여부를 선택적으로 판정 분할함으로 정보영역 본래 형태를 복원하였다. 이 때 지정 영역들의 산출 면적들은 하나의 집합으로 배속 정렬되며 확률처리로 얻은 판별 파라미터 값에 의해 선별된다. 그레이스케일 탁본영상을 대상으로 종래의 문턱치 영역분할 기법과 ICM 기법도 함께 실험하였다. 그 결과 종래의 기법에 비해 우수한 영역분할 효과를 얻을 수 있었다.

퍼지추론을 이용한 회전기계의 정밀진단법 (Vibration Diagnosis of Rotating Machinery Using Fuzzy Inference)

  • 전순기;양보석
    • 한국소음진동공학회:학술대회논문집
    • /
    • 한국소음진동공학회 1995년도 추계학술대회논문집; 한국종합전시장, 24 Nov. 1995
    • /
    • pp.284-288
    • /
    • 1995
  • 최근 애매성이 수반되는 정보를 Zadeh는 멤버쉽함수(membership function)를 이용하여 새로운 정보처리 방식으로서 퍼지이론을 제안하였고, 그후 의료계에서도 퍼지이론을 도입한 진단법들이 제안되었다. 회전기계의 이상진단법으로는 주파수득점법(Point counting method), 퍼지역연산법(Inverse method of fuzzy theory)등이 보고되고 있으며, 저자들도 퍼지이론을 이용하여 구름베어링의 결함진단, 회전기계의 간이 이상진단법등을 보고하였다. 이들은 주로 진동주파수의 스펙트럼 데이터 만을 이용하고 있고, 다른 많은 데이터를 복합적으로 이용할 수 없다. 이 때문에 주로 소규모 문제의 간이진단에서는 효과적이나 진단대상이 복잡하고 대규모로 되면 보다 정확한 원인 추정이 곤란하게 된다. 또한 수치데이터만을 취급할 수 있으므로 진동전문가가 진단에 이용하는 각종의 수치화 될 수 없는 데이터(언어적인 정보)가 취급될 수 없다. 따라서 이들의 진단법은 개략적인 진단은 가능하나 상세한 원인까지는 진단할 수 없는 단점이 있다. 회전기계의 이상판단시 참고가 되는 각종 정보로는 주로 진동진폭의 크기, 진폭과 위상의 변화, 진폭의 변화, 진동파형, 진동벡터의 시간변화 등이 있고, 이들은 수치적으로 표현할 수 있는 계량데이터와 판단의 경계가 불명확한 언어정보(범위데이터)로 나눌 수 있다. 후자는 애매성(fuzziness)을 많이 포함하고 있으며, 엄밀히 측정되는 수치데이터에서도 퍼지성을 가지고 있다. 이러한 언어적인 정보의 애매성을 퍼지추론에서는 [수치적 진리치](numeric truth)와 [언어적 진리치](linguistic truth)의 개념으로 표현하게 되었다. 수치적 진리치는 확실함의 척도를 [0,1] 사이의 수치를 이용하여 표현하고 있으며, 이 수치는 소견의 확실도로서 가능성을 표현한 것이다. 예를 들면, 진동진폭 스펙트럼상에 2X 성분이 상당히 크게 나타나 정렬불량의 가능성이 0.7 정도라고 판정하는 것 등은 이러한 수치적진리치를 이용하는 방법이다. 그러나 상기의 수치적 표현만으로는 확실도를 한개의 수치로서 대표하게 하는 것은 진단의 정밀도에 문제가 있을 것으로 생각된다. 따라서 언어적진리치가 도입되어 [상당히 확실], [확실], [약간 확실] 등의 언어적인 표현을 이용하여 애매성을 표현하게 되었다. 본 논문에서는 간이진단 결과로부터 추출된 애매한 진단결과중에서 가장 가능성이 높은 이상원인을 복수로 선정하고, 여러 종류의 수치화할 수 없는 언어적(linguistic)인 정보ㄷㄹ을 if-then 형식의 퍼지추론으로 종합하는 회전기계의 이상진단을 위한 정밀진단 알고리즘을 제안하고 그 유용성을 검토한다.

  • PDF