Китайсько-англійський політичний перекладацький корпус (CEPIC)

The Chinese/English Political Interpreting Corpus
	Логотип
Посилання	digital.lib.hkbu.edu.hk/cepic/index.php
Тип	Лінгвістичний корпус
Мови	Англійська, китайська
Власник	Гонгонзький баптистський університет[en]
Стан	активний

Китайсько-англійський політичний перекладацький корпус (англ. The Chinese/English Political Interpreting Corpus - CEPIC) – відкритий лінгвістичний паралельний корпус, який складається з транскрибованих та перекладених політичних промов китайською (кантонською та путунхуа), англійською мовами. Станом на 2022 рік корпус має обсяг у понад 6 млн токенів, тексти розмічені за граматичними категоріями слів, а також анотовані відповідно до просодичних та паралінгвістичних особливостей вимови дикторів. За словами розробників, корпус CEPIC створений для професійних письмових та усних перекладачів, особливо тих фахівців, які працюють з політичним дискурсом.^[1]

Загальна інформація[ред. | ред. код]

Корпус створено із текстів, що являють собою транскрибовані промови політичних діячів з Гонконга, Пекіна, Вашингтона та Лондона, а також відповідні їх переклади. Усі тексти зібрані з матеріалів, що охоплюють 1997-2017 роки (на момент публікації). Охоплено як переклад з китайської на англійську, так і навпаки – з англійської на китайську. Основною тематикою політичних промов є читання державних доповідей, обговорення порядку денного, питання та відповіді на прескоференціях, парламентські дебати, та обговорення на двосторонніх зустрічах, які проводились на річній основі. Деякі промови перекладені письмово, а деякі синхронно і потім внесені в корпус з урахуванням всіх паралінгвістичних особливостей. Зокрема, промови з Гонконгу були перекладені з кантонської на літературну китайську (путунхуа) та англійську, а промови з Пекіна - з китайської на англійську. Інші два підрозділи текстів, тобто політичний дискурс з Вашингтона та Лондона, здебільшого включає промови англійською, проведені у схожих умовах (Які можна вважати монолінгвальним зразком для перекладів англійською).^[2]

Структура корпусу[ред. | ред. код]

Китайсько-англійський політичний перекладацький корпус складається з паралельно відображених транскрибованих мовленнєвих сегментів англійською, кантонською та путунхуа. Надана таблиця демонструє кількість слововживань (токенів) за кожною мовою.

**Табл. 1 Розподіл за мовою викладу**
Мовні підрозділи	Слововживання
Китайська (Кантонська та путунхуа)	2,578,911 1,072,368 1,506,541
Англійська	3,815,083
Всього	6,393,994

Корпус включає 16 підкопусів, що розподілені за мовою та видом політичного дискурсу, який представлений тими чи іншими текстами.

**Табл. 2 Розподіл текстів за типом**
	Першоджерела текстів	Слововживання
1	Політичні звернення влади Гонконгу	1,290,774
2	Пресконференції гонконгських політиків	326,194
3	Фінансові промови (Гонконг)	1,167,530
4	Пресконференції на тему фінансів (Гонконг)	419,236
5	Доповіді про роботу уряду КНР	782,794
6	Пресконференції урядовців КНР	448,111
7	Доповіді президента США	275,018
8	Пресконференції президента США	266,639
9	Фінансові промови (США)	73,115
10	Пресконференції урядовців США	328,850
11	Виступи в парламенті Великобританії	31,006
12	Дебати парламентарів Великобританії	53,941
13	Фінансові промови (Великобританія)	469,452
14	Фінансові дебати (Великобританія)	376,721
15	Двосторонні зустрічі політиків КНР та США	70,138
16	Двосторонні зустрічі політиків КНР та Великобританії	14,473
	Всього	6,393,994

Анотація[ред. | ред. код]

Корпус СЕРІС розмічено за частинами мови (POS tagging) за допомовогою автоматизованої системи Stanford CoreNLP 3.9.2. ^[3]. Англійськомовна розмітка також базується на праці «Part-of-Speech Tagging Guidelines for the Penn Treebank Project», а обидва різновиди китайської мови, представлені в корпусі, на «Part-Of-Speech Tagging Guide-lines for the Penn Chinese Treebank». ^[4]. Був задіяний напів автоматичний принцип розмітки, а щоб підвищити рівень точності машинної анотації, тестові дані перевірялися вручну відповідно до підкатегорій, і такі тексти складають приблизно 30% корпусу. Процес задокументовано Джун Пен^[5]

Розподіл текстів у корпусі[ред. | ред. код]

«Raw» - тексти промов та їх переклади, отримані з офіційних вебсайтів.

«Annotated» - переглянуті або нещодавно додані, транскрибовані промови та їх синхронні переклади, що базуються на аудіо або відео джерелах, отриманих з державних або журналістських архівів.

Зокрема, анотована частина корпусу була транскрибована та розмічена в такий спосіб, щоб точно передати особливості мовлення дикторів. Коли це було можливо, за основу були взяті як доступні офіційні тексти промов, так і автоматично сгенерована транскрибація за допомогою технологій розпізнавання мовлення, щоб пришвидшити процес анотації.

фото 2. Надані посилання на першоджерела у інтерфейсі корпусу

Переведення живого мовлення в текстовий формат є стандартизованим процесом і має на меті якнайбільш точну репрезентацію мовлення спікерів. До того ж усі тексти кантонською були транскрибовані таким чином, щоб охопити якомога більше рис, які губляться у офіційно опублікованих текстах (напр. розмовні частки). Також у корпусі наприкінці кожного фрагмента надано посилання на офіційні тексти та аудіо/відео джерела (фото 2).

Наданий приклад у таблиці 3 демонструє різницю між «голим» текстом та його анотованою версією:

*Табл. 3*
Raw	Annotated
So that is the big difference in our approach and the approach that I think might have been debated about. (Press Conference of US Budget Speech, 1997-02-06)	[er] So [that] that is the big difference [er] in our approach and the approach [er] that [er] I think [er] might have been debated about. (Press Conference of USBudget Speech,1997-02-06）

Як можна помітити, анотація передбачає зазначення різних просодичних та паралінгвістичних рис (напр. слова-паразити, хезитації, самоповтори і т.д.), які можуть бути важливими для вивчення мовлення, а також для усного перекладу.

Основні функції корпусу[ред. | ред. код]

Платформа, на якій розміщено корпус, пропонує зручний для користування інтерфейс з 3 основними функціями.

Пошук за ключовими словами[ред. | ред. код]

Користувачі можуть вводити запит англійською, традиційними або спрощеними китайськими ієрогліфами. Корпус оснащений системою лексичних асоціацій, отже, коли літери/ієрогліфи введені в поле для пошуку, суміжні варіанти будуть відображатися нижче від цього поля.

*Табл. 2* Приклад параметрів, використаних для пошуку за ключовими словами
Параметр	Значення
Слово	interesting
Посада мовця	Член парламенту Великобританії
Часові рамки	1997-2017
Тип	Анотоване

Також можна здійснювати пошук за просодичними/паралінгвістичними рисами, якщо перемкнутися на анотовану версію корпусу. Користувачі додатково можуть вказати більш просунуті параметри пошуку: частина мови, місце, ім’я мовця, посада мовця, стать, рідна мова, тип промови, стать перекладача, рідна мова перекладача, вид перекладу, а також часові рамки (доступні матеріали з 1997 по 2017 рік). Результати пошуку можна сортувати за роком, місцем, ім’ям. Результати пошуку можна завантажити файлом для власних потреб.

Словосполучення[ред. | ред. код]

Користувач може автоматично отримати список 20 слів, що найбільш часто зустрічаються у сполученні із заданим. Діапазон пошуку у цьому випадку складає 7 слів перед та після предмета пошуку.

Якщо користувач клікає на один із варіантів сполучаваності, відображається таблиця конкордансу з відповідним словом.

Розширений пошук за ключовими словами у контексті[ред. | ред. код]

Користувач може клікнути на ключове слово, щоб отримати розширений контекст його вживання. Це включає інформацію, що відображається на 6 вікнах з одним і тим самим сегментом тексту різними мовами і у всіх можливих його версіях на рівні абзацу.

Відповідники до предмета пошуку, слова «interesting» у першому слововживанні (Фото 5) у перекладах є іменники - ”hing3ceoi3” (трад. 興趣) кантонською та ”xing4qu4” (спрощ. 兴趣) путунхуа, що, власне перекладаються у загальному випадку як «interest». Проте у другому слововживанні (Фото 6) відповідники інші - ”jau5ceoi3” (трад. 有趣) кантонською та ”you3yi4si1” (спрощ. 有意思) путунхуа, що перекладається ідентично, але використовується по відношенні до чогось більш веселого. Ці приклади демонструють різні підходи до перекладу, якими може скористатися фахівець, застосувавши зібрані в корпусі дані. [цифрами у транскрипції позначено тон].

Завдяки цій детальній інформації про контекст, перекладачі можуть легко знайти інформацію про те, як певне слово перекладене англійською та путунхуа/кантонською. Корпус дозволяє вивчати, як слова та їх контекст оброблені у письмовому та усному викладі, або навіть отримати інформацію про різну інтерпретацію самовиправлень у синхронному перекладі.

Джерела та посилання[ред. | ред. код]

↑ Pan, J. (2019, 5-6 September). The Chinese/English Political InterpretingCorpus(CEPIC): A new electronic resource for translators and interpreters. Paperpresented at The Second Workshop on Human-Informed TranslationandInterpreting Technology (англійська) . Varna, Bulgaria.
↑ Pan, J., & Wong, T. M. (2019). Developing Pragmatic CompetenceinChinese–English Political Retour Interpreting: A Corpus-DrivenExploratoryStudyof Pragmatic Markers., inTRAlinea Special Issue: NewInsights intoTranslatorTraining.
↑ Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky. (2014). The stanford corenlp natural language processing toolkit. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations (англійська) . Архів оригіналу за 12 травня 2022. Процитовано 12 травня 2022.
↑ Fei, Xia (2000). The part-of-speech tagging guidelines for the Penn chinese treebank (3.0). RCS Technical Reports Series. Архів оригіналу за 12 травня 2022. Процитовано 12 травня 2022.
↑ Jun Pan, Fernando Gabarron Barrios, and Haoshen He. forthcoming. Part-of-speech (pos) tagging enhancement for the chinese/english political interpreting corpus (cepic). In Translation Studies in East Asia: Tradition, Translation and Transcendence. Архів оригіналу за 4 вересня 2019. Процитовано 12 травня 2022.

[1] Pan, J. (2019, 5-6 September). The Chinese/English Political InterpretingCorpus(CEPIC): A new electronic resource for translators and interpreters. Paperpresented at The Second Workshop on Human-Informed TranslationandInterpreting Technology (англійська) . Varna, Bulgaria.

[2] Pan, J., & Wong, T. M. (2019). Developing Pragmatic CompetenceinChinese–English Political Retour Interpreting: A Corpus-DrivenExploratoryStudyof Pragmatic Markers., inTRAlinea Special Issue: NewInsights intoTranslatorTraining.

[3] Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky. (2014). The stanford corenlp natural language processing toolkit. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations (англійська) . Архів оригіналу за 12 травня 2022. Процитовано 12 травня 2022.

[4] Fei, Xia (2000). The part-of-speech tagging guidelines for the Penn chinese treebank (3.0). RCS Technical Reports Series. Архів оригіналу за 12 травня 2022. Процитовано 12 травня 2022.

[5] Jun Pan, Fernando Gabarron Barrios, and Haoshen He. forthcoming. Part-of-speech (pos) tagging enhancement for the chinese/english political interpreting corpus (cepic). In Translation Studies in East Asia: Tradition, Translation and Transcendence. Архів оригіналу за 4 вересня 2019. Процитовано 12 травня 2022.

[1]

[2]

[3]

[4]

[5]