Подскажите

**химик72** · 31 августа, 2017

Подскажите пожалуйста, есть ли какие программы, которые позволяют редактировать документ pdf также как word (без конвертации)? спасибо

**NatM** · 31 августа, 2017

Может пригодится онлайн сервис для редактирования

https://www.pdf2go.com/ru/edit-pdf

**Teddy_Bear** · 31 августа, 2017

https://soft.softodrom.ru/ap/PDF-Editor-p239

https://soft.softodrom.ru/ap/Foxit-Advanced-PDF-Editor-p724

Конечно, с Acrobat-ом не сравнить, но основные функции выполняют.

**Shadow TH** · 31 августа, 2017

Следует понимать, что в PDF текст и графика хранятся несколько не в том виде, в котором они хранятся в Word. В PDF текст хранится блоками, а потому редактировать абзацы так, как это делается в Word не получится. Кроме того, значительная часть книг и статей, отсканированных и собранных в PDF-файл чаще всего представляет собой именно наборы изображений, а не текста (т.е. просто тупо одна страница - одно целое изображение).

Для разбора PDF-файлов (на те самые блоки, которые можно редактировать по-отдельности) можно использовать бесплатный офисный пакет LibreOffice.

Если же необходимо именно приведение к тому виду, который есть в Word (т.е. чёткое разделение по абзацам, строкам, страницам и стилям) - следует юзать системы распознавания текста, такие как Abbyy FineReader (разумеется, с ручной разметкой блоков, самостоятельно указывая программе где находится текст, где иллюстрации, а где таблицы; конечно же, потребуется некоторая усидчивость и очень острое желание).

Изменено 31 августа, 2017 пользователем Shadow TH

**Valery** · 31 августа, 2017

Согласен с предыдущим оратором, PDF бывают двух типов - созданные на компе, например конвертированные из документа Word, или чего-то такого, и отсканированные из бумажного документа. Сейчас попробовал поредактировать PDF в libre Office, в частности с ними работает LibreOffice Draw. Как оказалось эта программа может работать с обоими типами. Только во втором случае открытие файла происходит чертовски долго, очевидно Draw проводит обработку сродни OCR, как Finereader. При чем делает это довольно коряво, например могут использоваться другие шрифты чем в исходном документе. Да и вообще всё через пень-колоду. Естественно я не пробовал все документы, может мне повезло, с другими документами может и не выйдет.

Как сказано выше, Draw обрабатывает строки как маленькие картинки, так что работа похожа не на работу в Word, а скорее на работу с текстами в Photoshop, с одной строкой на слой. Строки например легко могут налезть одна на другую, Enter, Delete и Insert могут работать некорректно. При достижении конца строки перевод строки не происходит, как её перевести - ХЗ. Например создать пустую строку и что-то в ней написать так же не получилось.

Но это работает, да. Путем упорных тренировок вполне можно овладеть всей технологией.

Несколько скринов. В первом скрине как раз представлен документ первого типа, в остальных второго (скан книги).

**Shadow TH** · 31 августа, 2017

В LibreOffice Draw насколько я помню нет OCR. Просто в PDF есть такая фитча, как встроенные шрифты. Таким образом, все символы, встречающиеся в PDF-файле, записываются как отдельный шрифт в некоторую область PDF-файла и подгружаются при открытии документа (своего рода ассоциативный массив: символ и сопоставленная ему картинка символа). Это позволяет просматривать документы с такими шрифтами, которые не установлены в системе. Очень часто при создании PDF-файла за основу берётся какая-нибудь старая книга, которая в автоматическом режиме распознаётся тем же FineReader'ом и всё это компилируется в PDF-файл. При этом мы видим на экране текст, отсканированный из книги, а если скопировать его и вставить в тот же Word - текст иногда копируется с ошибками или вместо текста вообще вставляются какие-то "иероглифы". LibreOffice Draw пытается читать именно тот самый "электронный" текст (который копируется в буфер обмена и вставляется как "иероглифы"), потому при открытии PDF в нём иногда получается такое адовое месиво из текстовых блоков: изначально текстовая часть в файле разбросана так системой OCR, работающей в автоматическом режиме. А PDF-viewer'ы нам показывают слой отсканированного текста, а не электронного.

Цитата

Строки например легко могут налезть одна на другую, Enter, Delete и Insert могут работать некорректно. При достижении конца строки перевод строки не происходит, как её перевести - ХЗ.

Это именно то, о чём я выше говорил: в PDF нету абзацев, строк и стилей. Есть текстовый блок, который может быть любой длины и находиться в каких-то конкретных координатах на странице. LibreOffice Draw всё отображает так, как и есть в самом PDF-файле.

Valery правильно сказал - это напоминает текстовые слои в Adobe Photoshop, "разбросанные" на разных страницах.

Изменено 31 августа, 2017 пользователем Shadow TH

**Teddy_Bear** · 1 сентября, 2017

Я что-то не понял тему с OCR и FineReader-ом. Или это конечный метод борьбы с неудачными шрифтами ?

PDF - это не только текстовые блоки со встроенными шрифтами, но и своя встроенная система команд и система аж программирования. (Почему ещё нет вирусов - непонятно). Для красоты отображения шрифтов есть сложная система их коррекции. Из-за этого свободные программы Open и Libre Office (и не только) тормозят жутко. А Адобу того и надо! Купай за 10 тыр родной софт и откинься в кресле.

Кроме того, из-за того, что существуют разные версии PDF, существует несовместимость между ними. Блоки текста идут не подряд. Можно сначала описать содержимое первой страницы, потом последующих, а потом добавить что-то опять на первую. Представляете, какой сложный текстовой поиск в такой жирной каше!

Результат: редактирование PDF дает ужасные результаты или приносит страшные муки редактору. PDF формат, как средство подготовки к печати служит по сути для создания в нём красивых страниц без последующего редактирования. Как правило создаются тексты в других редакторах.

Другое дело формат Djvu! В нем, кроме сжатых расторов есть (но не всегда, увы) отдельный слой просто текста. Со всеми прелестями легкого, простого плоского текста.

Изменено 1 сентября, 2017 пользователем Teddy_Bear

**Shadow TH** · 1 сентября, 2017

1 час назад, Teddy_Bear сказал:

Другое дело формат Djvu! В нем, кроме сжатых расторов есть (но не всегда, увы) отдельный слой просто текста. Со всеми прелестями легкого, простого плоского текста.

В PDF такие слои тоже есть, если исходником был не скан, а электронный текстовый документ (набранный в том же Word'е). Такой текст можно копировать в буфер обмена и, скорее всего, он хорошо будет распознан тем же LibreOffice Draw. Но опять же, как будет распознан: это будут не абзацы, а, скорее всего, одно слово - один текстовый объект. Полноценно редактировать такой документ уже невозможно, поскольку ну очень геморойно это (можно лишь исправить некоторые символы, слова). Всё-таки PDF - это "портативный формат документов", который не предназначен для последующего редактирования.

Войти

Подскажите

Рекомендуемые сообщения

химик72

Ссылка на комментарий

Поделиться на другие сайты

NatM

Ссылка на комментарий

Поделиться на другие сайты

Teddy_Bear

Ссылка на комментарий

Поделиться на другие сайты

Shadow TH

Ссылка на комментарий

Поделиться на другие сайты

Valery

Ссылка на комментарий

Поделиться на другие сайты

Shadow TH

Ссылка на комментарий

Поделиться на другие сайты

Teddy_Bear

Ссылка на комментарий

Поделиться на другие сайты

Shadow TH

Ссылка на комментарий

Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Создать учетную запись

Войти

Последние посетители 0 пользователей онлайн

Обзор

Активность