Настоящее расширение Image1 появилось в результате развития и объединения серии моих макросов для автоматизации процесса редактирования документов. Эти инструменты предназначены для редакторов, верстальщиков и других пользователей, стремящихся сократить время на „чистку“ документов. Они упрощают проверку документов на пригодность к публикации на электронных ресурсах в формате HTML. Функции были объединены в одном расширении для удобства использования.

Чистка Image2

По умолчанию чистка запускается в упрощенном режиме, который не требует от пользователя каких-либо дополнительных действий и выполняет стандартную последовательность процедур по очистке документа. Можно включить расширенный режим, в котором пользователю предоставляется возможность выбора необходимых ему функций чистки.

Перед запуском процедур чистки автоматически отключается отслеживание изменений в документе, так как включенное отслеживание изменений не позволяет проводить чистку. До начала чистки предлагается сохранить документ в формате ODT, сохранение происходит также и по окончании чистки.

Упрощенный режим чистки

Упрощенный режим подходит для неопытных пользователей, производящих первичную очистку документов, предназначенных для публикации. Процедура чистки на данном этапе должна исправлять максимальное число возможных проблем, связанных с набором документа. В упрощенном режиме во время чистки последовательно выполняются следующие процедуры:

Замена шрифтов, заданных в стилях

Для того, чтобы избавиться от шрифтов, использование которых ограничено несвободными лицензиями, а также для замены часто использующихся шрифтов, по тем или иным причинам не подходящих для публикации выполняются замены шрифтов в стилях.

Последняя версия IPH Astra Serif доступна по ссылке.

IPH Lib Serif заменяется на более читаемый IPH Astra Serif

Liberation Serif заменяется на более читаемый IPH Astra Serif

PTSerif заменяется на стиль с реализованными диакритическими символами IPH Astra Serif

Устаревший шрифт с диакритическими символами ArabicD заменяется на IPH Astra Serif

Часто используемый шрифт Palatino Linotype Greek для набора греческих символов заменяется на свободный шрифт Tinos

Назначение шрифтов для блоков Unicode

Для латинского алфавита, кириллического алфавита и знаков пунктуации применяется IPH Astra Serif

Для арабского применяется шрифт Scheherazade

Для греческого алфавита применяется шрифт Tinos

Для математических операторов применяется шрифт DejaVu Sans

Для китайских, корейских и японских иероглифов применяются шрифты Noto Serif CJK JP и Noto Serif CJK SC

Очистка ручного форматирования

Удаляется любое ручное (назначенное не через стили) форматирование, кроме следующего:

выделение символов жирным, курсивом, подчеркивание, зачеркивавшие, верхний индекс, нижний индекс, с заданным межсимвольным расстоянием 0.5, 1, 1.5, 2 пункта (разрядка символов).

Удаление белого фона в тексте

Данная процедура предотвратит появление белого фона в HTML, если после выделения текста очистка выделения была ошибочно проведена заменой на белый фон, а не на прозрачный.

Удаление неиспользуемых стилей

Многие текстовые редакторы добавляют в документы встроенные стили, что затрудняет навигацию по стилям документа. Чтобы упростить работу со стилями данная функция удаляет стили, не используемые в документе.

Удаление гиперссылок

Данная функция удаляет все гиперссылки в документе.

Удаление закладок

Данная функция удаляет все закладки в документе.

Настройка таблиц

Для корректного отображения таблиц в HTML на различных устройствах в большинстве случаев предпочтительно задавать ширину таблиц в относительных единицах, чтобы рассчитывалась как доля от реально возможной для отображения на устройстве.

Настройка привязок изображений

Для публикации в HTML и EPUB изображения не должны быть привязаны «к странице», так как их конвертация в HTML будет затруднена из-за отсутствия в HTML  страниц.

В связи с этим, на данном этапе для всех изображений с привязкой «к странице» привязка заменяется на значение «к параграфу».

Исправление частых ошибок набора

Удаляются все символы табуляции, так как они не могут быть корректно перенесены в HTML.

Два и более пробелов подряд заменяются на один.

Удаляются пробелы в начале абзацев.

Удаляются пробелы в конце абзацев.

Удаляются пустые абзацы.

Удаляются пробелы перед знаками пунктуации.

Удаляются пробелы после открывающихся скобок

Между буквами среднее тире обрамляется пробелами

Между буквами дефис-минус, цифровое тире и длинное тире заменяется на среднее тире

Между двумя цифрами и тире удаляются пробелы. А также тире заменяется на цифровое

Между двумя римскими цифрами и тире удаляются пробелы, а тире заменяется на среднее

Между буквой и угловой открывающейся скобкой вставляется пробел, если его там не было.

Между угловой закрывающейся скобкой и буквой вставляется пробел, если его там не было.

Между N. Y. удаляется пробел → N.Y.

Удаляется пробел между инициалами

А.[м/б пробел]А. Иванов → А.А. Иванов

Иванов А.[м/б пробел]А. → Иванов А.А.

Пробел также удаляется в

т. д. → т.д.

т. п. → т.п.

т. к. → т.к.

т. е. → т.е.

т. н. → т.н.

Символы и/И с диакритическим знаком «комбинируемое бреве» заменяются на й/Й.

Символы е/Е с диакритическим знаком «комбинируемое надстрочное двоеточие» заменяются на ё/Ё.

Удаление ручных разрывов страниц в начале документа

Если в начале документа задан ручной разрыв страницы, то это не будет влиять на отображение документа, но повлияет на отображение текста документа, если он будет вставлен в выпуск журнала или в шаблон книги. Данный этап уберет разрыв страницы, если он был задан в начале документа.

Удаление пользовательских стилей страниц

Все пользовательские стили страниц будут удалены, так как предполагается, что все необходимые стили страниц заданы в специальном шаблоне для данного типа документов.

Загрузка стилей

Все стили из шаблона, который можно задать в окне чистки, будут загружены в текущий документ и заменят одноименные стили при их наличии. Подготовка шаблона значительно облегчает процесс приведения множества документов к единообразному виду.

Удаление макросов

Для подготовки документа к публикации макросы в документе обычно не нужны, поэтому их можно удалить с помощью данной функции.

Расширенный режим чистки

Расширенный режим предназначен для опытных пользователей, технических редакторов и верстальщиков. Он предоставляет возможность запуска всех вышеописанных процедур чистки по отдельности, а также добавляет возможность запуска:

Удаление ручных разрывов страниц

Может быть полезно удалять из документов все ручные разрывы страниц, если они могут только помешать при последующей обработке документа.

Проверка Image3

Проверка предназначена для выявления скрытых проблем в документе, которые будут негативно влиять на отображение документа при его публикации в форматах HTML или EPUB. Этапы проверки описаны ниже.

Проверка кодов символов в тексте

Если символы входят в область для частного использования Unicode, то они считаются нестандартными и не могут быть использованы для электронных публикаций. Это связано с тем, что символы из этой области не имеют стандартизированных названий и начертаний, а в следствии этого потеряют своё отображение при отсутствии шрифта, в котором они были набраны.

Проверка кодов символов в символах сносок

Символам сносок также может быть назначен символ из области для частного использования Unicode, что должно быть исправлено перед публикацией документа в HTML и EPUB.

Проверка кодов символов в стилях нумерации

В качестве маркеров нумерации также могут быть назначены символы из области для частного использования Unicode, что должно быть исправлено перед публикацией документа в HTML и EPUB. В расширенном режиме в отчет будет выведена информация, в том числе о стилях, не применяемых в документе.

Проверка рисунков и встроенных объектов

На данный момент не подходят для публикации рисунки, созданные в Word и Writer. Кроме рисунков не подходят для публикации в HTML любые встроенные объекты, кроме формул. Подходящими форматами изображений являются JPEG, PNG, TIF, SVG.

Проверка элементов структуры документа

Использование заголовков в сносках, колонтитулах и таблицах может непредсказуемо повлиять на дальнейшую конвертацию документа в HTML форматы. Так как LibreOffice Writer позволяет это сделать, то стоит проверять подобное форматирование документа для исключения проблем в будущем. На данном этапе проверяется отсутствие заголовков в колонтитулах, сносках, а также в таблицах за исключением случая, когда в таблице только один заголовок и он находится в первой ячейке таблицы. Также проверяется отсутствие разделов в таблицах.

Отчёт об использованных символах в PDF Image5

При конвертации документа в PDF могут попасть шрифты, которые не должны были в него попадать. Дальнейшая публикация такого документа может повлечь претензии от правообладателей шрифтов, если у издателя нет лицензии на их использование.

Данная функция позволяет получить список символов из шрифта, случайно попавшего в документ. Получив список символов, а также номера страниц, на которых они впервые  встречаются, намного проще решить задачу по замене шрифтов.

Чтобы воспользоваться данной функцией необходимо открыть PDF документ с помощью LibreOffice Draw. В открывшемся документе запустить функцию формирования отчета по символам, нажав на иконку, которая указана в названии данного раздела. Функция проанализирует документ и предложит выбрать имя шрифта для составления отчёта. По окончании откроется файл с отчётом по символам в выбранном шрифте.

Установка расширения

Вы можете скачать последний выпуск данного расширения на данной странице (cleanAndValidate.oxt), а также с сайта расширений LibreOffice https://extensions.libreoffice.org/extensions/clean-and-validate-for-publishing-with-pagination

Для включения расширенного режима чистки понадобится установка расширения ePublishing, последнюю версию которого также можно скачать здесь или с сайта расширений для LibreOffice https://dev.litvinovg.pro/litvinovg/epublishing/-/releases

После установки в меню ePublishing в пункте настройка чистки можно включить расширенный режим.