Руководство пользователя ОмегаТ 3.0

Сегментация исходного текста

Программы памяти переводов работают с текстовыми единицами, которые называются «сегменты». ОмегаТ сегментирует текст двумя способами: по абзацам и по предложениям (сегментацию по предложениям иногда называют «сегментация на основе правил»). Чтобы задать тип сегментации, выберите пункт меню «ПроектСвойства...» и установите или снимите соответствующий флажок. В некоторых случаях, сегментация по абзацам может быть полезной, например, при творческом переводе, если переводчик захочет изменить порядок предложений. В остальных же случаях предпочтительной будет сегментация по предложениям. Если выбрана сегментация по предложениям, её правила можно настроить, выбрав в главном меню «ПараметрыСегментация...».

Для многих языков правила сегментации уже разработаны, и скорее всего, вам их будет вполне достаточно. С другой стороны, в некоторых случаях возможность слегка изменить правила сегментации для работы с определённым текстом может оказаться очень полезной.

Осторожно: так как после изменения правил сегментация текста будет происходить иначе, возможно, что перевод придётся начать заново. В памяти проекта ранее переведённые сегменты будут помечены как «ничейные сегменты». Если во время работы с проектом вы измените настройки сегментации, то, чтобы изменения вступили в силу, проект придётся перезагрузить.

В ОмегаТ сегментация осуществляется следующим образом:

Structure level segmentation

Сначала ОмегаТ просматривает текст для осуществления сегментации на уровне структуры. На этом этапе для сегментации используется только информация о структуре текста.

Например, для текстовых файлов сегментация может производиться по разрывам строк, пустым строкам или вообще не производиться. Сегментация файлов с форматированием (документы ODF, HTML-файлы и т. д.) осуществляется по тегам абзацев. Переводимые атрибуты объектов в XHTML или HTML можно извлечь как отдельные сегменты.

Sentence level segmentation

После сегментации исходного файла на структурные фрагменты, ОмегаТ начинает их сегментирование по предложениям.

Правила сегментации

Процесс сегментации можно описать следующим образом: представьте курсор, который движется по тексту, проходя один символ за раз. Для каждой позиции курсора в заданном порядке применяются правила, состоящие из шаблонов До и После , которые проверяют, подходит ли шаблон До к тексту слева и шаблон После к тексту справа от курсора. Если какое-либо из правил срабатывает, то либо курсор переходит к следующему символу без начала нового сегмента (т. н. правило-исключение), либо в текущей позиции курсора создаётся новый сегмент (т. н. правило разрыва).

Существуют два типа правил:

Break rule

Разделяет исходный текст на сегменты. Например, предложение « Стоило ли это делать? Не уверен .» должно быть разделено на два сегмента. То есть, нужно определить правило разрыва для символа «?», за которым следует пробел и слово с прописной буквы. Флажок «Разрывы/исключения» определяет, является ли правило разрывом (флажок установлен) или исключением (флажок снят).

Exception rule

Определяет, в какой части текста НЕ должна происходить сегментация. Несмотря на точку, словосочетание «Mrs. Dalloway» не нужно разделять на два сегмента, поэтому нужно определить правило-исключение для строки Mrs (а также Mr, Dr, prof и т. д.) с точкой справа. Чтобы указать, что правило является исключением, оставьте флажок «Разрыв/исключение» снятым.

Стандартных правил разрыва должно быть достаточно для большинства европейских языков и японского. Тем не менее, у вас есть возможность определить для некоторых языков новые правила-исключения, чтобы получить более осмысленные и адекватные сегменты.

Приоритет правил

Все наборы правил сегментации с подходящим языковым шаблоном применяются в заданном порядке, так что правила для конкретного языка имеют более высокий приоритет, чем стандартные правила. Например, правила для канадского французского (FR-CA) будут иметь более высокий приоритет, чем правила для французского (FR.*) и правила по умолчанию (.*). Соответственно, и при переводе с канадского французского, сначала будут применяться именно правила для этого языка (если таковые существуют), затем общие правила для французского и стандартные правила.

Создание нового правила

Серьёзные изменения в правила сегментации вносить, как правило, не стоит, особенно после начала проекта, а вот небольшие правки (например, добавление распознавания нового сокращения) могут оказать весьма полезны.

Чтобы расширить или изменить существующий набор правил, просто выберите его в таблице. В нижней части окна появятся правила этого набора.

Чтобы создать набор правил для нового языкового шаблона, нажмите на кнопку Добавить в верхней части диалогового окна. Внизу таблицы в верхней части окна появится пустая строка (возможно, придётся подвигать полосу прокрутки, чтобы найти её). В соответствующие поля введите название и шаблон языка (см. список Приложение A, Языки - список кодов ISO 639 языковых кодов). Синтаксис поля «Шаблон языка» подчиняется правилам регулярных выражений. Если создаваемый вами набор правил соответствует шаблону «язык-страна» (а не «язык-*»), рекомендуется передвинуть его вверх, используя кнопку Вверх .

Заполните шаблоны До и После . Чтобы проверить синтаксис и правильность работы регулярных выражений, рекомендуется использовать специальные программы. За более подробной информацией обратитесь к разделу Регулярные выражения. Конечно, лучше всего начать с ознакомления с существующим набором правил.

Несколько простых примеров

Что нужно До После Примечание
Начинать новый сегмент после точки («.») и до пробела, знака табуляции и т. д. \. \s «\.» соответствует запятой. «\s» соответствует любому пробельному символу (пробелу, табуляции, символу начала новой страницы и т. д.)
Не создавать сегмент после «Mr.» Mr\. \s Это правило-исключение, поэтому соответствующий флажок должен быть снят.
Начинать новый сегмент после «。» (японская точка)   Обратите внимание, что поле «После» остаётся пустым
Не создавать сегмент после M., Mr., Mrs.и Ms. Mr??s??\. \s Правило-исключение - см. использование «?» в регулярных выражениях