Как извлечь текст из файла в формате PDF (обновлено)

Стремительное развитие интернет-технологий позволяет сегодня без установки дополнительных программ делать всё что угодно онлайн. Причем, многие сервисы онлайн позволяют просматривать фильмы, конвертировать файлы, распознавать тексты, играть и много чего еще абсолютно бесплатно.

Бесплатно не всегда означает плохо, потому что многие сайты предлагают бесплатные версии своих сервисов, чтобы убедить пользователь становиться клиентами и приобрести расширенные платные версии программ или услуг. Понятно, что низким качеством своих бесплатных услуг никого не убедишь платить деньги за расширенные возможности.

Как извлечь текст из файла в формате PDF. Онлайн-сервисы

Теория

Portable Document Format (PDF) — кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript.

В первую очередь предназначен для представления в электронном виде полиграфической продукции, — значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Adobe Reader (русифицированная версия), а также программы сторонних разработчиков.

Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB, CMYK, Grayscale, Lab, Duotone, Bitmap, несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1, PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов.

В этом формате распространяется большое количество сопутствующей документации (подробнее в Википедии).

Практика

Как извлечь текст из файла в формате PDF

1. «Save as text»

В последних версиях Adobe Reader в меню «Файл» существует функция «Сохранить как текст». Если в исходном файле отсутствуют защиты текста, используя эту функцию можно за один клик преобразовать все страницы исходного файла в открытый для редактирования текст.

2. «Text Select»

Также в Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, нужно вытягивать прямоугольник выделения до конца отрывка текста, скопировать выделенный фрагмент в буфер обмена и вставить в любую программу-редактор текстов.

3. OCR-программы

Если установлена защита от копирования или при копировании текст сохраняется в виде вопросов и символов, можно воспользоваться специализированным программным обеспечением для распознавания текста. Это так называемые OCR-программы (Optical Character Recognition — оптическое распознавание знаков), которые преобразуют PDF-файл в редактируемый текст для последующей работы с ним:

4. Программы-конверторы PDF в текстовые форматы

  • abbyy.ru > ABBYY PDF Transformer переводит на выбор в форматы .doc, .rtf, .xls, .txt.
  • toppdf.com > PDF2Word (PDF to DOC Word)
  • verypdf.com > VeryPDF PDF2Word
  • hellopdf.com > Free PDF to Word Converter
  • soliddocuments.com > Solid Converter PDF
  • tweakpdf.com > Tweak PDF Converter
  • iceni.com > Infix PDF Editor

5. Бесплатные онлайн-сервисы конвертации PDF

  • zamzar.com > ZamZar — бесплатный онлайн конвертор файлов, способный преобразовать PDF документ во многие графические и текстовые форматы. Сервис работает через электронную почту. Лимит на размер исходного файла — 100 Мб. Файл храниться на сервере в течение 24 часов.
  • freepdfconvert.com > FreePDFConvert — конвертация PDF в Word (doc), Excel (xls) или RichText (rtf), извлечение картинок из PDF. После конвертации сервис предоставляет возможности: скачать файл, отправить его на Ваш почтовый ящик, удалить файл с сервера. Интервал до отправки следующего файла – 30 минут.
  • pdfonline.com > PDFOnline — преобразование документов PDF в Word (RTF). Сервис не требует указания почтового ящика и не накладывает ограничений на размер файла и количество загрузок по времени.
  • freepdftoword.org > бесплатный сервис от производителей программного обеспечения Solid. Для конвертации файла PDF в отформатированный документ Word разработчики предлагают предварительно отправить им PDF документ по электронной почте — и уже после этого получите результат конвертирования в Word.

Как преобразовать текст в формат PDF бесплатно, читайте в следующем посте.

Использовались материалы сайтов: wikipedia.org, genon.ru, studia.at.ua, bravedefender.ru

Дата дата публикации: 17.02.2010 14:38 (обновлено)

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.