Андрей Смирнов
Время чтения: ~14 мин.
Просмотров: 2

3 способа вытащить текст из PDF-файлов или конвертируем PDF формат

pdf-word-300x129.jpgЗдравствуйте, уважаемые читатели!

Сегодня я решил написать о популярном формате документов, который очень часто используется в Интернете, но с которым не все умеют работать. Это формат .pdf, применяемый для сохранения электронных книг, чек-листов, различных инструкций и т. д. Такие документы можно читать на любых устройствах, но редактировать их не получится. Для редактирования текстов чаще всего используется текстовый процессор MS Word, поэтому возникает вопрос – как из пдф перевести текст в Ворд.

Что такое формат .pdf

Этот формат был разработан фирмой Adobe Systems для сохранения документов в электронном виде. В чем его отличие от других похожих форматов?  Главная особенность этого типа файлов – его кроссплатформенность. Сейчас существует много различных операционных систем – Windows, Linux, Unix, Mac OS и т. д.

Для каждой ОС разработаны программы для работы с документами. В Windows самая популярная программа – текстовый редактор MS Office Word, в Linux – OpenOffice и т. д. И, если файл, созданный в Wordе, попытаться открыть в OpenOffice, то у нас, скорее всего, ничего не получится, а если получится, то документы будут выглядеть совсем иначе, форматирование нарушится, картинки окажутся не на месте, а если в тексте содержатся формулы…

Поэтому и был создан универсальный формат, который можно открыть на любом устройстве, в разных ОС без изменения внешнего вида.

Как открывать файлы pdf на компьютере

Для просмотра документов с расширением .pdf существует много программ. В первую очередь, это бесплатная официальная программа Adobe Reader от фирмы Adobe (ее старые версии назывались Acrobat Reader).

Вот еще несколько бесплатных программ для просмотра pdf-файлов:

  • PDF-XChange Viewer
  • Hamster PDF Reader
  • STDU Viewer
  • Foxit Reader
  • Free PDF Reader

Главный недостаток pdf-формата – ограниченные возможности его редактирования, поэтому возникает необходимость конвертирования таких документов в Word или другой текстовый редактор. Но способ такого перевода зависит от того, как был создан этот файл.

Как создать pdf-файл

Существует три основных способа создания pdf-документа:

  1. Конвертирование с помощью какого-либо текстового редактора.
  2. Сканирование документа с последующим сохранением в пдф-формате.
  3. Использование онлайн-сервисов.

Между первыми двумя способами есть принципиальная разница. В первом текст сохраняется как последовательность символов и при обратном преобразовании сохраняется возможность редактирования.

Во втором случае весь документ сохраняется как единый рисунок и редактирование его уже невозможно без предварительного распознавания.

В дальнейшем я буду называть такие pdf-документы файлами 1-го и 2-го типа соответственно.

Очень просто создать pdf-документ из обычного текстового файла в программе MS Word. В последних версиях этого редактора такая функция существует по умолчанию. Например, в версии 2010 достаточно выполнить команды Файл – Сохранить как и выбрать тип файла PDF.

В более поздних версиях нужно уже не сохранять, а экспортировать. Например, в 2013

Файл – Экспорт …Screenshot_1.jpg

При сканировании документа для сохранения его в формате PDF нужно использовать меню сканера. У каждого сканера свой интерфейс, но обязательно есть возможность сохранения в этом формате. Еще раз отмечу, что в этом случае текст сохраняется как единое изображение, а не как набор символов.scan-pdf.jpg

Существуют также онлайн-сервисы для преобразования текстов в pdf-файлы. Например:

  • Бесплатный PDF-Конвертер pdf2go,
  • PDF to Word Converter ,
  • Soda PDF,
  • Smallpdf – универсальный сервис для работы с pdf-документами, обладающий большим функционалом, понятным интерфейсом. Я рекомендую обратить на него особое внимание.

Кроме вышеуказанных способов можно воспользоваться специальными программами создания пдф-файлов. Наиболее известны PDF Creator, ABBYY PDF Transformer, PDF24 Creator и другие.

Форматы графических файлов или оптимизация изображений

Как из pdf-файлов перевести текст в Word

Использование MS Word

Сейчас это самый простой способ, так как в последних версиях Wordа уже реализована возможность преобразования pdf-документов в форматы .doc или .docx.

Для этого запускаем Word, Файл – Открыть и выбираем нужный файл. Появится предупреждение о преобразовании файлов, документ откроется в окне Wordа и будет доступен для редактирования.

Можно сделать еще проще, воспользовавшись контекстным меню. Щелкаем ПКМ на значке pdf-файла и выбираем Открыть с помощью – Word. Это очень простой способ, но многие о не мне знают.Screenshot_4.jpg

Если нужно преобразовать только часть текста, то можно просто выделить и скопировать эту часть и вставить ее в Word (это нельзя сделать, если документ защищен от копирования, но это уже отдельная история).

К сожалению, у сложных документов, содержащих вставки, рисунки, формулы и т. д., нарушается форматирование, и они выглядят уже не так, как было до преобразования.

Преобразование из пдф в ворд онлайн

Следующий способ – использование онлайн-конвертеров, которых в интернете сейчас много. Заходим на такой сервис, загружаем на него исходный файл, ждем немного, и скачиваем уже в новом формате.

Вот некоторые наиболее известные сервисы:

Уже упомянутые выше

  • Бесплатный PDF-Конвертер pdf2go,
  • PDF to Word Converter ,
  • Smallpdf,
  • а также ExtractPDF.com

Отдельно следует сказать про сервис Google Диск. У многих есть аккаунт в Googleи можно воспользоваться этим сервисом. Закачиваем документ на гугл-диск, потом Открыть с помощью – Google документы. Теперь Файл – Скачать как – MS Word (DOCX).

Третий способ – использование специальных программ-конвертеров.

Неплохая бесплатная программа UniPDF. Она предназначена для преобразования различных текстовых форматов. Скачать ее можно с официального сайта.

Распознавание отсканированных документов

Что делать, если имеется pdf-файл второго типа, то есть отсканированный документ. Все предыдущие методы нам не помогут. Если и удастся получить файл с текстовым расширением (.doc, .docx, …), но редактировать его будет нельзя, так как весь текст будет представлять собой изображение, занимающее всю страницу.

Чтобы получить документ, который можно будет редактировать, необходимо использовать систему оптического распознавания текста (OCR).

Лучшая программа для этих целей – ABBYY FineReader. К сожалению, она платная, но возможности ее просто удивляют, они несравнимы с функционалом других подобных программ и онлайн-сервисов для распознавания.pdf_word.jpg

OCR CuneiForm, пожалуй, лучшая бесплатная программа – аналог FineReader. Она менее требовательна, менее сложна, но и не столь развита. К сожалению, она, распознавая различные графические файлы, не может работать с pdf-документами.

Для распознавания можно использовать и онлайн-сервисы:

  • OCRtoWord распознает графические файлы, кроме PDF.
  • FineReaderOnline хороший сервис, но требует регистрации.
  • FREE ONLINE OCR имеет ограничения по размеру и количеству файлов.
  • SODA PDF OCR преобразует файлы второго типа в файлы первого.

Я рассмотрел малую часть программ и сервисов для работы с pdf-документами, но обычно для того чтобы из пдф перевести текст в ворд или обратно используются один, два привычных метода.

Надеюсь, среди перечисленных, вы найдете наиболее удобные для себя.

До скорых встреч!

PDF (пдф) – это формат, через который можно легко и удобно читать книги на компьютере. Он позволяет сохранить хорошее качество не только текста, но и изображений, поэтому часто используется в печатной продукции.

Если это просто электронная книга, которую читаешь для души, то никаких неудобств данный формат не вызывает. Но когда с таким документом приходится работать, для многих это может оказаться проблемой. Не очень понятно, как перевести его в обычный текст и, вообще, возможно ли это сделать без потери форматирования.

Сейчас мы рассмотрим наиболее простые способы перевода в Word с сохранением первоначального вида.

С помощью Microsoft Word 2013-2016

В последних версиях Microsoft Office приложение Word имеет встроенный инструмент для конвертирования pdf. Нужно просто открыть файл в этой программе, а дальше система сделает все сама.

1. Нажимаем на кнопку «ФАЙЛ» в левом верхнем углу окна.

1_1.png

2. Идем по пути Открыть → Компьютер и выбираем папку, где находится наш файл.

2_1.jpg

3. Выбираем документ и жмем кнопку «Открыть».

3_1.jpg

Появится окно с предупреждением, которое можно не читать и сразу жать кнопку «ОК».

4_1.png

Вот и всё! Теперь документ можно редактировать и сохранить в обычном формате doc или docx.

Правда, разрывы страниц расположены не в тех местах, что в исходном файле, но это как-нибудь можно пережить. Главное, все таблицы и списки доступны для редактирования.

5_1.png

Через Adobe Reader или Foxit Reader

Если у вас старая версия MS Word, но зато есть программа Adobe Acrobat Reader или Foxit Reader (в одной из них обычно и открываются все pdf файлы), тогда конвертировать можно с помощью нее.

1. Открываем файл в Adobe Reader или Foxit Reader и копируем нужный фрагмент документа.

Обычно достаточно просто открыть файл и он сразу же запустится в одной из этих программ (вверху будет написано, в какой именно).

Для копирования всего текста в Adobe Reader нажимаем вверху на «Редактирование» и выбираем «Копировать файл в буфер обмена».

9_1.png

В Foxit Reader для переноса всего текста нужно нажать на «Главная» вверху, щелкнуть по иконке буфера обмена 10.png и выбрать «Выделить все». Затем опять щелкнуть по иконке и выбирать «Копировать».

11_1.png

2. Создаем документ в Ворде. Для этого щелкаем на свободном любом месте Рабочего стола правой кнопкой мыши и выбираем пункт Создать → Документ Microsoft Office Word.

12_1.png

А можно просто открыть программу через Пуск → Все программы → Microsoft Office → Microsoft Office Word.

3. Вставляем в документ тот фрагмент, который мы скопировали из pdf файла. Для этого щелкаем правой кнопкой мыши по листу и в контекстном меню выбираем пункт «Вставить».

14_1.png

В итоге получаем тот же текст, но с возможностью редактирования. Правда, часто он добавляется с немного измененным форматированием и без изображений.

Минусы

  • Если документ большой, вставка происходит очень медленно или Ворд просто намертво виснет. А, бывает, даже небольшой текст не вставляется. Выход: выделять/копировать/вставлять по частям.
  • Не копируются изображения. Выход: делать их скриншоты, нажав на клавишу клавиатуры Print Screen, после чего вставлять в Ворд (правая кнопка – Вставить). Но придется еще обрезать и менять размер полученной картинки.
  • Иногда форматирование страдает очень сильно: шрифты, размер букв, цвета и т. д. Выход: править текст вручную.

Резюме: с обычным текстом такой вариант вполне допустим, но если в документе есть еще и таблицы, списки, изображения, лучше конвертировать другими способами.

Онлайн-сервисы для конвертирования пдф в ворд

Smallpdf (smallpdf.com). Через этот сервис можно не только конвертировать pdf в кучу разных форматов, но также объединять, разделять, снимать защиту. Он практически идеально переводит в Ворд (с сохранением всех параметров) и даже добавляет картинки.

1. Заходим на сайт и выбираем пункт «PDF в Word».

2. Перетягиваем наш файл внутрь или выбираем его из окошка.

3. Ждем окончания операции конвертирования. Когда она завершится, нам предложат скачать документ в новом формате.

В итоге получаем практически такой же файл с сохранением изображений и всего остального.

Сервис является лишь отчасти бесплатным. На все операции стоит часовой лимит. Другими словами, без платной подписки вы сможете сделать только две операции в течение часа.

Convert Online Free (convertonlinefree.com). Еще один отличный инструмент для перевода пдф в ворд. Результат получается практически такой же, как и через прошлый сервис: все картинки, таблицы и списки на месте. Единственное, бывает, кое-где слетает форматирование – где-то может шрифт «поехать», где-то размер букв.

1. Переходим по ссылке, опускаемся чуть ниже по странице и нажимаем на кнопку «Выберите файл».

2. Через окошко открываем нужный файл.

3. Нажимаем кнопку «Конвертировать».

Когда процесс будет завершен, браузер сразу предложит сохранить файл или сделает это автоматически.

Google диск. Если у вас почта на gmail.com, то можно переводить из pdf в word через Гугл диск.

1. Заходим на страницу своего диска от Google и жмем кнопку «Создать». Если документ уже находится в вашем хранилище, тогда делать этого не нужно.

2. Выбираем пункт «Загрузить файлы».

3. Выбираем нужный файл через окошко и жмем кнопку «Открыть».

4. После того как загрузка завершится, щелкаем по файлу правой кнопкой мыши и в меню выбираем Открыть с помощью → Google документы.

5. Жмем на кнопку «Файл» в правом верхнем углу, когда документ откроется. В длинном списке ищем пункт «Скачать как» и выбираем нужный нам формат.

Как и в других случаях страницы могут иметь некоторое несоответствие в форматировании, но все важные элементы будут на месте.

Бесплатная программа для конвертации UniPDF

В закромах англоязычного интернета можно обнаружить надежную качественную программу UniPDF, предназначенную для конвертации различных текстовых форматов.

Заходим на официальный сайт программы и нажимаем кнопку «Download It Free Now».

Выбираем любой сервер из списка.

Ждем пока программа скачается, благо она весит немного, и этот процесс происходит практически моментально.

После загрузки открываем файл и устанавливаем программу. Для этого нажимаем Next → I Agree → Next → Install → Finish. На Рабочем столе или в Пуск → Все программы → UniPDF появится ярлык, через который запускаем приложение.

Жмем кнопку «Добавить» внизу.

Выбираем нужный файл через окошко, щелкаем по нему внутри программы и жмем кнопку «Конвертировать».

Обратите внимание, что в правом углу должна стоять отметка «Word».

Далее, нам предлагают выбрать место на компьютере, куда отправится новый файл. Можно просто нажать «ОК» и тогда он сохранится туда же, где лежит исходный документ.

И ждем окончания процесса, после чего программа предложит открыть результат или показать папку, где он находится.

Программа со своей задачей обычно справляется плюс «вытягивает» картинки, но с форматированием бывают проблемы.

Если не помогло

Все способы, которые я показал вам в этой статье, весьма эффективны. Некоторые – почти идеальны (smallpdf). Единственное, что им не под силу, это распознать сканированный текст (кроме Гугл диска).

Для таких документов нужно использовать специальные программы или онлайн-сервисы.

Бесплатные сайты для распознавания текста:

Гугл диск (drive.google.com)

NewOCR (newocr.com)

OCR Convert (ocrconvert.com)

Free Ocr (free-ocr.com)

Программы для распознавания текста:

ABBYY FineReader (платная)

WinScan2PDF (бесплатная)

Благодаря формату PDF мы всегда видим одинаковый документ где бы мы его не открыли. Если документы Microsoft Office могут выглядеть по разному даже в различных версия офиса, то уже про наличие шрифтов в системе я вообще молчу. Однако PDF практически невозможно редактировать, поэтому многие пользователи задают вопрос — как документ PDF перевести в Word с минимальными потерями и по возможности без установки сторонних программ.

pdf-to-word-logo.jpg

За что мы любим Microsoft Word? — Конечно же за свою простоту в обращении… сейчас я расскажу как без использования программ (сторонних) преобразовать документ из PDF в Word в пару кликов!

Как документ PDF перевести в Word

Думаю все знают, что PDF детище Adobe (как и Flash Player) и родные программы для работы с этим форматом — Acrobat DC и Acrobat Reader DC. Все они легко могут конвертнуть PFD в Word, но только вот Acrobat DC стоит денег, а у Acrobar Reader нужна платная подписка… поэтому эти варианты мы рассматривать не будет — существуют альтернативные варианты (пускай немного дольше, зато без кряков и активаторов)

Однако если у вас уже установлен Acrobat (не Acrobat Reader), то глупо этим не воспользоваться — преобразовать PDF в Word можно в меню «Экспорт»

Как открыть PDF файл в Word

Самый простой способ конвертировать PDF в редактируемый Word — это открыть необходимый нам документ в самом MS Word. Конечно итоговый вариант достаточно часто сильно отличается от изначального, но если смысл конвертации был в том, чтобы вытащить текст — то вариант однозначно рабочий.

На ленте Word нажмите кнопку «Файл»

file-ms-word.jpg

В открывшемся меню действий выберите «Открыть» и «Обзор», где в проводнике необходимо указать где находится наш PDF файлик.

open-file-ms-word.jpg

Появится пипец какое широкое окно (которое не на каждом экране уместится) с предупреждением что конечный документ может выглядеть совсем не так, как его задумывал автор. Обратите внимание, что исходный PDF файл останется нетронутым. Жмем кнопку «ОК»

open-pdf-file-word.jpg

Конечно открытый вариант в Word мягко говоря немного отличается от моего изначального документа, но выдернуть текстовую информацию из документа теперь возможно — а иначе зачем нам его в doc перегонять? Просмотреть документ можно и в Acrobat.

my-pdf-file.jpg

Как видите сам Word достаточно неплохо умеет конвертировать PDF в удобоваримый формат для редактирования, да и сложного в этом ничего нет — открыл и подождал, на выходе редактируемый текст.

Как преобразовать документ из PDF в Word (Google Docs)

Если вы до сих пор игнорируете Google Docs… то вы наверняка не в курсе о возможностях сервиса и в частности о конвертации PDF в документ Word. Процесс преобразования делится на два этапа:

  1. Создаем документ из нашего PDF файлика в Google Docs
  2. Экспортируем его в Word

Как видите абсолютно ничего сложного — даже наличие MS Word на компьютере необязательно… все происходит онлайн (а иногда вместо Word у пользователей установлен OpenOffice и первый вариант реализовать невозможно)

Открываем Google Disk (само собой у вас должен быть аккаунт Google) и в левом верхнем углу находим кнопку «Создать»

create-google-disk.jpg

В открывшемся меню говорим что нам нужно создать документ из файла (Загрузить файлы)… ну и далее в открывшемся окне выбрать наш PDF файл, который необходимо конвертировать в doc.

upload-file-google-disk.jpg

После того, как мы залили наш PDF файл в Google Disk кликаем по нему правой кнопкой мыши и в появившемся меню выбираем «Открыть с помощью» «Google Документы»

open-with-google-docs.jpg

Дожидаемся пока документ откроется и в ленте менб жмем «Файл» «Скачать как» «Microsoft Word» — и выбираем куда сохранить преобразованный файл.

save-as-word-google-docs.jpg

На компьютер загрузится самый обычный вордовский документ, с которым мы уже знаем как работать. Конечно оформление документа может жестко так пострадать… ну а вы чего ожидали?!

Выводы

Как видите нет ничего сложного в том, чтобы документ PDF перевести в Word. Конечно мы с высокой долей вероятности потеряем часть оформления документа, но с этим ничего не поделать. Кстати, если документ PDF сшит из сканированных картинок, то открывать в Word его смысла нет — чтобы достать из него текст необходимо использовать программы для распознавания текста вроде FineReader.

Используемые источники:

  • https://kviter.ru/kak-iz-pdf-perevesti-tekst-v-word
  • https://derudo.ru/pdf_to_word.html
  • https://www.itshneg.com/convert-pdf-to-microsoft-word/

Рейтинг автора
5
Подборку подготовил
Андрей Ульянов
Наш эксперт
Написано статей
168
Ссылка на основную публикацию
Похожие публикации