• 제목/요약/키워드: Track alignment

검색결과 52건 처리시간 0.017초

Prosodic Phrasing and Focus in Korea

  • Baek, Judy Yoo-Kyung
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1996년도 10월 학술대회지
    • /
    • pp.246-246
    • /
    • 1996
  • Purpose: Some of the properties of the prosodic phrasing and some acoustic and phonological effects of contrastive focus on the tonal pattern of Seoul Korean is explored based on a brief experiment of analyzing the fundamental frequency(=FO) contour of the speech of the author. Data Base and Analysis Procedures: The examples were chosen to contain mostly nasal and liquid consonants, since it is difficult to track down the formants in stops and fricatives during their corresponding consonantal intervals and stops may yield an effect of unwanted increase in the FO value due to their burst into the following vowel. All examples were recorded three times and the spectrum of the most stable repetition was generated, from which the FO contour of each sentence was obtained, the peaks with a value higher than 250Hz being interpreted as a high tone (=H). The result is then discussed within the prosodic hierarchy framework of Selkirk (1986) and compared with the tonal pattern of the Northern Kyungsang dialect of Korean reported in Kenstowicz & Sohn (1996). Prosodic Phrasing: In N.K. Korean, H never appears both on the object and on the verb in a neutral sentence, which indicates the object and the verb form a single Phonological Phrase ($={\phi}$), given that there is only one pitch peak for each $={\phi}$. However, Seoul Korean shows that both the object and the verb have H of their own, indicating that they are not contained in one $={\phi}$. This violates the Optimality constraint of Wrap-XP (=Enclose a lexical head and its arguments in one $={\phi}$), while N.K. Korean obeys the constraint by grouping a VP in a single $={\phi}$. This asymmetry can be resolved through a constraint that favors the separate grouping of each lexical category and is ranked higher than Wrap-XP in Seoul Korean but vice versa in N.K. Korean; $Align-x^{lex}$ (=Align the left edge of a lexical category with that of a $={\phi}$). (1) nuna-ka manll-ll mEk-nIn-ta ('sister-NOM garlic-ACC eat-PRES-DECL') a. (LLH) (LLH) (HLL) ----Seoul Korean b. (LLH) (LLL LHL) ----N.K. Korean Focus and Phrasing: Two major effects of contrastive focus on phonological phrasing are found in Seoul Korean: (a) the peak of an Intonatioanl Phrase (=IP) falls on the focused element; and (b) focus has the effect of deleting all the following prosodic structures. A focused element always attracts the peak of IP, showing an increase of approximately 30Hz compared with the peak of a non-focused IP. When a subject is focused, no H appears either on the object or on the verb and a focused object is never followed by a verb with H. The post-focus deletion of prosodic boundaries is forced through the interaction of StressFocus (=If F is a focus and DF is its semantic domain, the highest prominence in DF will be within F) and Rightmost-IP (=The peak of an IP projects from the rightmost $={\phi}$). First Stress-F requires the peak of IP to fall on the focused element. Then to avoid violating Rightmost-IP, all the boundaries after the focused element should delete, minimizing the number of $={\phi}$'s intervening from the right edge of IP. (2) (omitted) Conclusion: In general, there seems to be no direct alignment constraints between the syntactically focused element and the edge of $={\phi}$ determined in phonology; all the alignment effects come from a single requirement that the peak of IP projects from the rightmost $={\phi}$ as proposed in Truckenbrodt (1995).

  • PDF

효과적인 인터랙티브 비디오 저작을 위한 얼굴영역 기반의 어노테이션 방법 (Annotation Method based on Face Area for Efficient Interactive Video Authoring)

  • 윤의녕;가명현;조근식
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.83-98
    • /
    • 2015
  • TV를 보면서 방송에 관련된 정보를 검색하려는 많은 시청자들은 정보 검색을 위해 주로 포털 사이트를 이용하고 있으며, 무분별한 정보 속에서 원하는 정보를 찾기 위해 많은 시간을 소비하고 있다. 이와 같은 문제를 해결하기 위한 연구로써, 인터랙티브 비디오에 대한 연구가 활발하게 진행되고 있다. 인터랙티브 비디오는 일반적인 비디오에 추가 정보를 갖는 클릭 가능한 객체, 영역, 또는 핫스팟을 동시에 제공하여 사용자와 상호작용이 가능한 비디오를 말한다. 클릭 가능한 객체를 제공하는 인터랙티브 비디오를 저작하기 위해서는 첫째, 증강 객체를 생성하고, 둘째, 어노테이터가 비디오 위에 클릭 가능한 객체의 영역과 객체가 등장할 시간을 지정하고, 셋째, 객체를 클릭할 때 사용자에게 제공할 추가 정보를 지정하는 과정을 인터랙티브 비디오 저작 도구를 이용하여 수행한다. 그러나 기존의 저작 도구를 이용하여 인터랙티브 비디오를 저작할 때, 객체의 영역과 등장할 시간을 지정하는데 많은 시간을 소비하고 있다. 본 논문에서는 이와 같은 문제를 해결하기 위해 유사한 샷들의 모임인 샷 시퀀스의 모든 샷에서 얼굴 영역을 검출한 샷 시퀀스 메타데이터 모델과 객체의 어노테이션 결과를 저장할 인터랙티브 오브젝트 메타데이터 모델, 그리고 어노테이션 후 발생될 수 있는 부정확한 객체의 위치 문제를 보완할 사용자 피드백 모델을 적용한 얼굴영역을 기반으로 하는 새로운 형태의 어노테이션 방법을 제안한다. 마지막으로 제안한 어노테이션 방법의 성능을 검증하기 위해서 인터랙티브 비디오 저작 시스템을 구현하여 기존의 저작도구들과 저작 시간을 비교하였고, 사용자 평가를 진행 하였다. 비교 분석 결과 평균 저작 시간이 다른 저작 도구에 비해 2배 감소하였고, 사용자 평가 결과 약 10% 더 유용한다고 평가 되었다.