Почему при копировании текста из pdf в word иероглифы?

11 ответов на вопрос “Почему при копировании текста из pdf в word иероглифы?”

  1. Mezizuru Ответить

    Итак, первой и основной причиной невозможности копирования содержимого документов PDF большинство специалистов считает установку всевозможных запретов на подобные действия в самих файлах.

    Это могут быть и пароли на открытие, и запреты на копирование, и даже защита документа при попытке вывода содержимого на печать. Еще одна не менее распространенная ситуация, связанная с тем, что текст из PDF не копируется, может быть связана с повреждением самого файла или нарушением его оригинальной структуры. Реже можно встретить и случаи, когда пользователь использует для извлечения текстового содержимого из PDF-документа не совсем подходящее приложение. Так, например, очень многие эксперты сходятся во мнении, что у Adobe Reader возможностей в сравнении с Acrobat гораздо больше. Поэтому, если текст из PDF не копируется в «Акробате», первым делом попробуйте выполнить аналогичную операцию в «Ридере». Вполне возможно, это даст желаемый результат. Но в большинстве случаев это, увы, не помогает, поскольку содержимое попросту защищено от копирования, а пароль скрыт глубоко внутри самого файла. Как обойти такие ограничения рассмотрим чуть позже, а пока остановимся еще на одной ситуации, которая тоже многих пользователей ставит в тупик.

    Почему текст из PDF копируется иероглифами?

    Вам будет интересно:Как пользоваться Metasploit Framework: возможности, инструкция по применению
    Теперь предположим, что защита от копирования в оригинальном документе не установлена и все вроде бы нормально. Но почему-то при переносе содержимого в другой редактор текст из PDF копируется иероглифами. Связано это только с тем, что оригинал имеет отличную от стандартной кодировку. Чаще всего специалисты в такой ситуации предлагают самый простой выход, при котором даже изменять начальный формат документа не потребуется. Исходя из того, что текст из PDF копируется с неправильной кодировкой, ее нужно сменить.

    Для этого проще всего воспользоваться файловым меню любого редактора PDF, выбрать пункт «Сохранить как…» (Save As…), а затем в окне сохранения нажать кнопку параметров (Settings) и выбрать другую кодировку. Обычно достаточно поменять оригинальный стандарт на UTF-8. При повторном открытии документа текст можно будет скопировать и вставить в любой другой текстовый редактор в неизменном виде. Также перекодировать файл можно на каком-нибудь интернет-ресурсе вроде Decoder.

    Как обойти запрет копирования в самом файле?

    Теперь давайте посмотрим, что можно сделать для обхода всевозможных запретов и блокировок.

    Если текст из PDF не копируется ни под каким предлогом, можете воспользоваться пиратским методом, выполнив снятие ограничений или удаление установленных паролей в программе PDF Password Remover. Если это результата не даст, можете зайти на какой-нибудь специализированный сайт вроде PDFPirate или FreeMyPDF и попытаться снять защиту там. Однако каждый должен понимать, что в случае с некоторыми официальными документами такая методика является противозаконной.

    Открытие файла PDF в Word

    Еще одна простая методика, рекомендуемая для устранения множества проблем с оригинальными PDF-документами, которые необходимо отредактировать, состоит в том, чтобы не копировать исходное содержимое в “просмотрщике” или редакторе PDF, а открыть файл непосредственно в той программе, с использованием которой предполагается производить редактирование.

    В случае с текстовыми документами, проще всего воспользоваться универсальным «Вордом» и открыть искомый документ в этом приложении, выбрав соответствующий тип файла. Если документ откроется без проблем, его можно будет и отредактировать, и сохранить в нужном формате.

    Как преобразовать текст PDF в Word?

    Но давайте предположим, что исходный документ в текстовых редакторах не открывается (мало ли что может быть) и в «родных» редакторах текст из PDF не копируется.

    В этом случае для преобразования файла именно в документ Word попробуйте в PDF-редакторе выбрать не копирование текста, а копирование файла в буфер обмена целиком, после чего вставьте содержимое в Word. Способ, конечно, далеко не самый удобный, поскольку вставка будет иметь графический формат, и отредактировать материал будет невозможно.
    В этой ситуации оптимальным решением станет смена формата оригинального документа на любой другой. В интернете сейчас выложено достаточно много программ-конвертеров, например, PDF to Word Converter и др. В выбранном приложении обычно достаточно просто указать начальный файл и конечный формат после преобразования. При помощи таких апплетов, кстати, можно преобразовать PDF не только в Word. Существуют и программы для конвертирования в Excel.

    Проблемы с самим текстом в PDF-документах

    Иногда бывает и так, что в оригинальном файле текстовое содержимое могло быть изначально создано путем сканирования какого-то печатного документа. Совершенно очевидно, что при таком подходе текст был сохранен именно в графическом формате. При этом и на него могли быть установлены запреты на копирование или печать. Как поступить в такой ситуации?

    Использование системы оптического распознавания

    В этом случае на помощь приходят системы оптического распознавания OCR. Практически все эксперты сходятся во мнении, что оптимальным вариантом станет выбор пакета ABBY Finereader. Конечно, программа не бесплатная, но на просторах “Рунета” можно найти уже активированные (взломанные) версии или модификации с ключом активации.

    В самом приложении в стартовом окне выбрать преобразование файла PDF/изображения в документ Word. Система самостоятельно распознает текст с картинки и отправит его в Word, после чего можно будет выполнить редактирование и сохранить новый документ.

    Конвертирование в другие форматы

    Наконец, если стоит задача преобразовать текст в другие нестандартные форматы, обычно для этих целей рекомендуется применять все те же конвертеры, выбирая либо узконаправленные программы (например, PDF to JPEG для конвертирования в графические файлы), либо универсальные приложения, поддерживающие не один, а несколько форматов, среди которых будет тот, что нужен. Иногда можно использовать и онлайн-сервисы, но это неудобно по соображениям больших временных затрат и ограничений по размеру добавляемых файлов (или их количеству).

    Заключение

    Подводя итоги, можно выделить несколько основных моментов. Во-первых, изменять исходный формат не всегда нужно, поскольку выполнить копирование можно либо в более продвинутом редакторе, как в случае с «Акробатом» и «Ридером», либо открыть файл непосредственно в той программе для работы с текстовым содержимым, в которую нужно вставить исходный материал, как в случае с Word. Во-вторых, для сброса паролей и запретов лучше всего применять специальные приложения (пусть даже это и выглядит незаконно). В-третьих, большинство конвертеров в процессе преобразования форматов запреты, как правило, игнорируют, так что и их использование выглядит весьма перспективным. В-четвертых, не стоит сбрасывать со счетов и системы распознавания текста, которые иногда выглядят даже лучше, чем все предыдущее. В-пятых, существует мнение, что иногда преобразование можно выполнить при помощи виртуальных принтеров, но такой вариант годится только для тех случаев, когда исходный текстовый фрагмент нужно преобразовать в графику.
    Источник

  2. Dianakus Ответить

    Как показала практика, при помощи описанных ранее манипуляций с реестром
    Windows не всегда удается решить проблему удаления текстовой абракадабры
    из руссифицированных программ. Абракадабра исчезает только в тех местах,
    в которых исходная английская программа не делает принудительного указания
    кода языка для выводимого текста. К сожалению, еще во многим местах
    англоязычные программы все таки принудительно указывают код языка, на котором
    написан выводимый текст. Но в руссифицированной программе текст уже на русском
    языке, а код языка остается-то английским. Поэтому процедуры вывода текста
    на экран используют английскую кодовую страницу шрифта, в которой на местах
    русских символов нарисованы греческие знаки. Из-за этого вместо нормального
    русского текста на экране появляется абракадабра. Проблему можно решить
    достаточно простым способом. Суть его заключается в том, чтобы прописать
    в шрифтах Windows копию русских символов в английской кодовой странице.
    Таких шрифтов очень мало, пототому что здесь разработчики софта стараются
    придерживаться проверенных временем нескольких шрифтов. Это шрифты с такими
    названиями: Arial, Courier, MS Sans Serif, Tahoma, Times New Roman и Verdana.
    Во всех этих шрифтах необходимо прописать копию изображений русских символов
    в английскую кодовую страницу. Это можно сделать любым доступным редактором
    шрифтов. Открываете в редакторе желаемый шрифт, находите изображения русских
    символов, помечаете их (должно быть расположено 64 символа подряд) и копируете
    вместо символов с кодами от 192 до 255 (должно быть подряд несколько букв A
    с черточками и точками сверху букв).

  3. VideoAnswer Ответить

  4. VideoAnswer Ответить

  5. VideoAnswer Ответить

Добавить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *