Введение
Сегодня тексты создаются в файлах самых разных форматов. Однако не все форматы файлов одинаково хорошо подходят для перевода. Выбор формата файла для перевода открывает дополнительные возможности для снижения стоимости перевода. В этом контексте также следует учитывать частоту перевода определенных видов документов, количество целевых языков, предполагаемое назначение перевода (внутренняя или внешняя коммуникация), а также макет переведенных документов.
Документы PDF
PDF относится к форматам, чаще всего используемым при переводе. И хотя большинство современных систем автоматизации перевода способны обрабатывать PDF-файлы, работа с ними зачастую трудозатратна, а результат оказывается неудовлетворительным. Особую сложность представляют отсканированные PDF-файлы с рукописными пометками или комментариями.
При импорте в систему автоматизации перевода каждый PDF-файл преобразуется в редактируемый формат (обычно Word или Text), поскольку текст в PDF-файле невозможно редактировать напрямую. Результат преобразования зависит от происхождения PDF-файла и качества конвертера. Часто нарушается форматирование, иногда утрачивается смысловая связь между отдельными частями текста, многократно импортируются колонтитулы и т. д. Результат: переводится (и оплачивается) больше текста. После перевода приходится создавать макет переведенного документа и конвертировать этот документ обратно вPDF-формат. В большинстве случаев возникает дополнительный объем работ по подготовке и постобработке документов.
Файлы в формате Microsoft Office
Файлы в форматах Word, Excel и PowerPoint по-прежнему переводятся чаще всего. Однако разнообразие возможностей редактирования и способов использования продуктов MS Office приводят к тому, что форматы Office часто создают проблемы при переводе, а их автоматическая обработка не всегда выполняется корректно.
Надо ли переводить комментарии в документах Word или Excel, а также примечания докладчиков в презентациях PowerPoint? Что делать с непринятыми изменениями в документах Word? Как поступать со встроенным текстом и объектами? Можно ли переводить файлы с помощью макросов? Из-за ручного и зачастую непоследовательного форматирования макет и перевод часто приходится доделывать. Для Office-документов характерно наличие фрагментов текста на разных языках. «Пожалуйста, переведите только английский текст» или «Пожалуйста, переведите только фрагменты, выделенные желтым» — с точки зрения автора, все просто. Но как системам автоматизации перевода, которые использует бюро переводов, автоматически распознавать эти фрагменты и блокировать остальные для перевода, особенно в часто встречающихся случаях, когда выделение желтым неточное, а некоторые буквы и слова пропущены? Поскольку бюро переводов используют системы автоматизации перевода для автоматического анализа текстов и составления предложений, не исключено, что такие документы будут подготовлены и оценены неправильно. Если это становится понятным в начале работы, проект-менеджер бюро переводов может выполнить специальную подготовку документа. При этом придется выполнить дополнительную ручную работу. А поскольку сейчас маржа бюро переводов постоянно снижается, все больше бюро берут плату за такие услуги как за «проект-менеджмент», «подготовку файлов» или «технический услуги».
Пример документа MS Word с комментариями и отслеживанием изменений
Другая проблема, связанная с документами Office, заключается в различиях между версиями, например между файлами DOC и DOCX. В частности, системы автоматизации перевода не всегда сразу начинают поддерживать новые функции формата Word, и тогда некоторые части текста не переводятся. Иногда после перевода документы не удается сохранить в оригинальном формате или переведенные документы Office не открываются. Одним из решений этой проблемы могло бы стать составление таблиц стилей и руководств по созданию документов Office, которые впоследствии будут переводиться. К сожалению, многие компании об этом не задумываются. Поэтому документы Office можно только условно порекомендовать как подходящий формат для перевода.
Рисунки, графические объекты и чертежи
Рисунки, графические объекты и чертежи часто содержат переводимый текст. Они также являются источником проблем при переводе, так как этот текст часто невозможно отредактировать напрямую. Многие переводчики и бюро переводов не располагают нужным программным обеспечением для редактирования или соответствующим ноу-хау. Будь то файлы JPG, PNG, GIF или объекты, встроенные в Word, Excel, PowerPoint либо другие документы — переводческие программы не могут распознать текст на них и поэтому не учитывают его при подсчете слов. Если проект-менеджер или переводчик не заметит, что текст на изображениях надо переводить, в итоге заказчик будет вынужден сам проверять документ. Впоследствии недостающие тексты приходится и набирать, и переводить. Если данные не были предоставлены в одном из открытых, редактируемых форматов (Adobe Photoshop, Illustrator и т. д.), переводы приходится вводить в изображения вручную, а это кропотливый труд. Результат: перенос срока сдачи перевода из-за необходимости выполнять ручную работу при подготовке и постобработке файлов, а также верстки текста на иностранном языке. Решение: по возможности отправляйте на перевод открытые форматы файлов, в которых текст можно редактировать напрямую. Для таких форматов файлов, как PSD из Adobe Photoshop, AI из Adobe Illustrator или DXF/DWG из AutoCad, существуют решения, которые позволяют экспортировать и импортировать текст для перевода, что позволит вам отправить в бюро переводов только текст и одно изображение для справки.
Пример документа Adobe Photoshop
Программное обеспечение, веб-сайты и базы данных
Microsoft Excel
Будь то перевод программного обеспечения, веб-сайтов или баз данных — разработчики обожают файлы Microsoft Excel. Потому что они думают, что тем самым делают переводчику одолжение, ведь работать с документами Excel могут все. Вне зависимости от источника переводимых текстов их часто преобразуют в формат Excel, а после перевода конвертируют в исходный формат. При этом сегодня большинство систем автоматического перевода могут обрабатывать файлы программного обеспечения и файлы баз данных напрямую. Структура файлов Excel при переводе часто требует подготовки и постобработки (скрытие столбцов или строк, блокировка текстов или замещающих символов и т. д.). Без подготовки и постобработки файлов существует риск того, что непереводимые тексты (например, программные идентификаторы) будут переведены и этот перевод надо будет оплатить. Впоследствии это может привести, например, к проблемам при импорте в программное обеспечение или базу данных.
Форматы разметки: HTML и XML
Отличительной особенностью текстов в форматах HTML и <tags> являются <tags>. HTML —стандартизированный формат файлов, который сегодня поддерживается всеми популярными системами автоматического перевода. Теги HTML дают переводчику информацию о том, какой тип текста переводится.
<h1> — заголовок 1, <p> — абзац, <a> — гиперссылка и т. д.
Маркировка документов HTML ориентирована на тип структуры документа или более позднего издания, а маркировка документов XML — на тип содержания или цель применения для обозначения номера версии.
<version>1.2</version>
Автор вправе свободно выбирать элементы документа XML. Поэтому существует бесчисленное множество форматов XML. Как HTML, так и XML поддерживаются всеми популярными системами автоматического перевода. Однако для каждого формата XML необходимо указывать, какие части документа XML можно переводить, а какие — нет. Бюро переводов часто затрудняются определить это самостоятельно. Для обозначения непереводимого текста можно использовать такие элементы, как <notranslate>, или атрибуты <version translate="“no“">. Другим способом использования XML для перевода является использование метаданных, например указания по ограничению длины, комментарии для переводчиков и т. д. Поэтому XML широко применяется для перевода программных текстов и текстов из основанных на базах данных систем CMS, PIM, систем каталогов и т. д. Если использовать таблицы стилей, переводчик во время работы сможет загружать предварительный просмотр документа в исходном формате, чтобы учитывать визуальный контекст. Таким образом, в силу своей структуры формат XML хорошо подходит для перевода.
Пример XML Magento с пометками для непереводимого содержания
XLIFF: стандартизированный формат обмена данными для перевода
Формат XLIFF (XML Localization Interchange File Format) был разработан в ответ на постоянное увеличение количества форматов документов для обмена с системами автоматизации перевода; при этом некоторые из этих форматов были коммерческими. XLIFF — это универсальный расширяемый стандарт. Сегодня XLIFF является внутренним рабочим форматом многих систем автоматизации перевода. Он является двуязычным и поэтому позволяет проводить прямое сравнение между исходным текстом и переводом. В идеале документ XLIFF не требует никакой подготовки и может редактироваться непосредственно в системе автоматизации перевода. Сейчас многие производители программного обеспечения, CMS и т. д. предлагают XLIFF в качестве формата для перевода. Однако стандарт XLIFF не всегда реализуется корректно. Не всегда то, что обозначено как XLIFF, действительно является XLIFF.
Потенциал экономии: от среднего до высокого
Метод: определение открытых файлов как составной части объема поставки и отправка их на перевод, конвертирование файлов, использование для перевода стандартных форматов обмена данными. Поговорите с вашим бюро переводов, прежде чем задумываться над организацией процесса перевода: во многих случаях специалисты бюро готовы предложить вам решение, которое хорошо зарекомендовало себя при работе над другими проектами.
Трудозатраты: низкие
Теперь вы знаете, как важно выбрать правильный формат при создании текстов для перевода. В следующей публикации нашей серии мы расскажем, как сэкономить, используя правильную технологию перевода.