Можно ли отредактировать в текстовом редакторе отсканированный текст?

8 ответов на вопрос “Можно ли отредактировать в текстовом редакторе отсканированный текст?”

mafiozo66 05-03-2020 Ответить

Если вам нужно редактирование отсканированных документов, то воспользуйтесь любой программой OCR, функция которой заключается в оптическом распознавании символов. Данное ПО сравнивает символы в отсканированном файле с теми символами, которые имеются в его БД. После этого, программа данной категории производит конвертацию файла в удобный текстовый формат. Однако примите во внимание, что далеко не все OCR способны работать на бесплатной основе – среди них есть немало и платных вариантов. Также учтите, что в зависимости от того, насколько качественно вам удастся выполнить сканирование оригинала, вы можете столкнуться с различными ошибками, редактируя готовый скан. Чтобы решить непосредственно задачу связанную с тем, как редактировать сканированный текст следуйте следующей инструкции:
Загрузите программу OCR с официального сайта разработчика или любого надежного веб-ресурса и установите ее.
Откройте редактируемый файл в окне программы. Данный процесс может отличаться для каждого ПО подобного типа, но в целом от вас потребуется открыть файл, после чего запустить процесс конвертации. Во многих таких программах можно выбирать подходящий формат выходного файла. Главное, чтобы измененный тип документ был удобен для вас.
После произведенной конвертации вам нужно будет удалить из готового файла форматирование, если с ним возникли какие-то проблемы. Дело в том, что ПО может учесть форматирование, к примеру, шрифты, межстрочные интервалы, если сканируемый файл отсканируется недостаточно ровно. Чтобы удалить форматирование используйте любой текстовый редактор, к примеру, обычный «Блокнот». Он, как правило, не способен распознавать форматирование, благодаря чему вставить текст в него можно без лишнего кода.
Deadpoool13 05-03-2020 Ответить

В процессе работы с текстовым процессором Ворд, у пользователей иногда возникает необходимость обработать не только набранный ими (или другими людьми) текст, но и редактировать отсканированные фрагменты. Например, чтобы не перепечатывать вручную какой-либо текст, письмо или что-нибудь другое, сканированное и полученное в таком виде. Раньше, пока не были в ходу системы распознавания, так называемые OCR, как раз и приходилось заниматься такой нудной работой. Сегодня же можно просто использовать не только многочисленные сторонние программы, но и встроенные средства Windows и, в частности, Microsoft Office. Это даже удобнее, ведь не нужно держать под рукой установленный софт, быть привязанным к одному компьютеру и т. п. А в современном мире это достаточно много значит.

Итак, есть отсканированный текст и задача вставить его в собственный документ так, чтобы после этот фрагмент можно было править. Есть два пути; рассмотрим оба.

Первый путь

Он заключается в том, чтобы использовать встроенные средства Microsoft Word. Дело в том, что если вставить сканированный фрагмент без дополнительных действий, то он будет просто картинкой. Основной текст его будет обтекать, и редактировать вы сможете разве что размер и прозрачность. Это особенно досадно, когда нужно переделать всего-то пару строчек. Но если вставить этот отсканированный фрагмент как объект Microsoft Image Viewer в Ворд, то, собственно, он вставится как обычный, доступный для редактирования текст. Для этого нужно проследить, чтобы файл был с расширением .tiff, а если нет, то воспользоваться Paint, открыв его и перезаписав в нужном формате. После этого в дело вступает специальный компонент платформы Microsoft Office, о котором мы упоминали чуть выше. Именно его вам следует открыть в главном меню. Если его нет, то придётся покопаться в панели управления.
Найдите в ней пункт «Установка и удаление программ», найдите в открывшемся списке Офис и перейдите к выбору компонентов. Среди них вы как раз и найдёте Image Viewer, необходимый нам для выполнения задачи. После установки он появится в главном меню.

Так вот, после его открытия, drag’n’drop’ом или через меню окна, откройте в этой программе сканированный файл. Нужно будет подождать пару минут, так как на экране появится прогресс-бар, отображающий ход распознавания. По завершении процесса, собственно, откроется окно с распознанным текстом. Его вы можете скопировать в Ворд для дальнейшего редактирования. Конечно, вы должны учитывать, что распознавание текста, искажённого сканированием, может пройти не идеально, так что стоит провести так называемую «вычитку», то есть отредактировать его, исправляя неправильно распознанные символы. Гораздо хуже дело обстоит с рукописным текстом, вероятность, что его удастся отредактировать, сильно коррелирует с цветом бумаги и чернил, качеством сканирования и, конечно, разборчивостью почерка. Но такая работа достаточно редко проводится с рукописным текстом, обычно всё же речь идёт о напечатанном.

Второй путь

Вообще говоря, второй способ состоит в том же самом, что и первый, с той только разницей, что для включения режима распознавания текста и его редактирования используется сначала сторонний софт, а потом уже Word. Потребуется установленная программа. Возможно, она даже будет работать лучше, чем решение от Microsoft, так как подобные программы разрабатываются и проектируются специально для этой задачи. Авторы обещают практически 100% точность в работе с печатным текстом и чуть более скромные цифры, когда речь заходит о рукописном. Но чтобы отделить маркетинговые уловки от истинного положения вещей, придётся ступить на стезю эмпирической проверки.
На практике оказывается, что разрыв не столь велик. Да, кому-то может показаться удобным, что не нужно включать режим редактирования текста через связку Microsoft Image Viewer — Microsoft Word, но ведь для этого придётся использовать другую связку программ, а точность распознавания символов будет для печатных документов и так стабильно высокой. Поэтому причины платить больше за одну из этих программ, когда есть решение, встроенное в пакет Office — весьма туманны. Другое дело, если вы имеете дело с частными случаями. Например, у вас есть много отсканированных в плохом качестве документов, которые нужно оцифровать и подготовить для режима редактирования. Тогда узкоспециализированный софт, настроенный под работу с шумом и искажениями в таких изображениях, разумеется, будет предсказуемо лучше. Он точнее обработает лист с символами, корректнее распознает их и передаст в Word для дальнейшей работы. Но таких случаев не так уж много и, как правило, рядовой пользователь с ними не сталкивается. Поэтому для типовых задач этот путь уже практически не используется.

Послесловие

Пакет Office представляет собой широкий набор инструментов для решения самых разнообразных задач. У каждой из входящих в него программ есть своя функциональность, и они дополняют друг друга при выполнении офисных работ. В частности, для редактирования отсканированных документов в Word потребуется программа распознавания, и в пакете она представлена. Такая структура «Всё-в-одном» весьма удобна, так как не приходится думать, где найти и как установить сторонний софт, не нужно разбираться с особенностями его интерфейса: есть решения, выполненные в едином стиле. Поэтому Office был и остаётся стандартом де-факто для офисной работы.
Что же касается возможности вставить изображение напрямую в Word и редактировать его прямо оттуда, то пока что такой режим не поддерживается. Однако учитывая тенденции на объединение программ внутри пакета и уход в онлайн (мы имеем в виду Office365), стоит этого вскоре ожидать. Сейчас же нужно будет установить требуемый компонент (если он ещё не был установлен) и работать именно так.
antonii71 05-03-2020 Ответить

Что такое ABBYY FineReader
Новые возможности ABBYY FineReader

Cтартовое окно
Просмотр и редактирование PDF-документов

Быстрая конвертация
Создание PDF-документов из различных форматов
Конвертация в документ Microsoft Word
Конвертация в таблицу Microsoft Excel
Конвертация в другие форматы
Продвинутая конвертация
Сравнение документов

Сканирование в различные форматы
Сканирование в OCR-редактор
Сканирование в PDF
Сканирование в Microsoft Word
Сканирование в Microsoft Excel
Сканирование в файл изображения
Сканирование в другие форматы

Работа с PDF-документами

Просмотр PDF-документов
Режимы просмотра
Навигация по PDF-документу
Фоновое распознавание
Поиск по ключевым словам
Копирование информации из PDF-документов
Безопасность при работе с PDF-документами

Рецензирование PDF-документов
Добавление заметки
Пометки в тексте при рецензировании
Рисованные пометки
Добавление текста в PDF-документ
Совместное использование PDF-документов
Работа со штампами

Работа с содержанием PDF-документов
Добавление и редактирование текста
Добавление и редактирование картинок
Добавление и редактирование гиперссылок
Распознавание текста
Работа со страницами PDF-документа
Работа с закладками
Добавление колонтитулов
Добавление водяных знаков
Вложенные файлы
Просмотр метаданных
Исправление изображений страниц
Заполнение форм

Добавление подписи в PDF-документ
Электронная цифровая подпись
Текстовая подпись
Подпись в виде картинки

Защита PDF-документов
Пароль и права доступа
Удаление конфиденциальной информации из PDF-документа

Создание PDF-документов
Создание PDF-документа из отдельных страниц
Создание PDF-документов с помощью виртуального принтера

Сохранение и экспорт PDF-документа
Сохранение изменений в PDF-документе
Сохранение в PDF/A
Сохранение в другие форматы
Уменьшение размера PDF-документа
Отправка PDF-документа в OCR-редактор
Отправка PDF-документа по почте
Печать PDF-документа

OCR-редактор
Запуск OCR-редактора
Окно OCR-редактора

Исходные документы для распознавания
Открытие изображений и PDF-документов
Сканирование бумажных документов

Распознавание документов
OCR-проект
Коллективная работа с OCR-проектом в сети

Улучшение результатов распознавания
Обработка изображений вручную

Редактирование областей
Редактирование свойств области
Документы со сложной структурой
Использование шаблонов областей
Неправильно выделенные таблицы и картинки
Штрих-код на странице не найден
Некорректное отображение шрифта в тексте
Декоративные (нестандартные) шрифты в исходном документе
Специальные термины в тексте
Нераспознанные символы
Нераспознанный вертикальный или инвертированный текст

Проверка и редактирование
Проверка распознанного текста
Форматирование текста с помощью стилей
Редактирование гиперссылок
Редактирование таблиц
Как скрыть конфиденциальную информацию в распознанном тексте
Цитирование контента из документов

Сохранение результатов распознавания
Сохранение в формат PDF
Сохранение для дальнейшего редактирования
Сохранение электронных таблиц
Сохранение электронных книг
Сохранение в формат HTML
Сохранение изображений
Отправка результатов в PDF-редактор
Отправка результатов по электронной почте
Отправка результатов в Kindle

Интеграция с внешними приложениями
Интеграция с Windows Explorer
Интеграция с Microsoft SharePoint

Автоматизация обработки и запуск по расписанию
Автоматизация обработки в ABBYY FineReader
Приложение ABBYY Hot Folder

ABBYY Сравнение документов
Запуск приложения
Как сравнить два документа
Окно сравнения
Как улучшить результаты сравнения
Просмотр различий
Сохранение результатов сравнения
Приложение ABBYY Screenshot Reader

Справочник
Типы PDF-документов
Рекомендации по сканированию
Съемка текста фотоаппаратом
Диалог Настройки

Настройки форматов
Формат PDF
Формат DOC(X)/RTF/ODT
Формат XLS(X)
Формат PPTX
Формат CSV
Формат TXT
Формат HTML
Формат EPUB/FB2
Формат DjVu
Поддерживаемые языки распознавания и сравнения
Поддерживаемые форматы документов
Как учесть характеристики исходного документа
Параметры обработки изображений
Параметры распознавания
Особенности работы с языками со сложным письмом
Поддерживаемые языки интерфейса
Текущие дата и время в штампах и колонтитулах
Шрифты, необходимые для корректного отображения символов поддерживаемых языков в ABBYY FineReader
Алфавит, используемый в регулярных выражениях

Установка, активация, регистрация
Системные требования
Установка и запуск ABBYY FineReader
Активация ABBYY FineReader
Регистрация ABBYY FineReader
Безопасность данных

Приложение
Глоссарий
Горячие клавиши
Техническая поддержка
Копирайты
DenchikAkk 05-03-2020 Ответить

Проблема человека не в том, как сделать текст красивым, а в том, как довести его до ума после сканирования и распознвания. Это включает в себя множество действий, предшедствующих применению стилей. Например:
1. Нужно удалить все фигуры из текста, которые делает Fine Reader из-за грязных листочков или плохо распознаных таблиц;
2. Нужно стандартизировать параметры страницы
3. Нужно настроить абзацы: отступы до и после, выступы, запрет висячих строк и т.п.
4. Нужно проделать множесво операций по верстке самого текста. Главной задачей является сохранение исходного оформления (курсива, жирного выделения, выравнивания), но с применением стандартных (согласно учебным требованиям) размеров шрифта, начертания, масштаба знаков, трекинга и т.п.
5. Нужно поработать с таблицами: подогнать их по ширине экрана, определить заголовки, оформить согласно содержимому.
6. Нужно привести в порядок маркированные и нумерованные списки: программы для распознавания часто заменяют римские цифры на английскую букву “l” или на “!”.
7. Есть ещё много-много мусора, которые ставяться FineReader-ом в конце предложений, хотя глазами видно, что там просто грязный листочек.
8. Нужно структурировать текст: избавиться от мягких переносов, разрывов предложений и слов (неправильно распознаются дефисы и тире).
Этот список можно ещё продолжить, но я хотел только показать сложность поставленной задачи и реальность её выполнения с помощью макросов.
Я СОГЛАСЕН С ТЕМ, ЧТО ОТРЕДАКТИРОВАННЫЙ ТАКИМ СПОСОБОМ ТЕКСТ ВСЁ РАВНО НУЖНО ПРОВЕРЯТЬ ГЛАЗАМИ, НО ДАЖЕ ЭТУ ПРОВЕРКУ МОЖНО ОБЛЕГЧИТЬ, ЕСЛИ НАПИСАТЬ МАКРОС ДЛЯ ПОДСВЕТКИ ПОДОЗРИТЕЛЬНЫХ МЕСТ, СПИСОК КОТОРЫХ МОЖНО ЗАРАНЕЕ ПРЕДВИДЕТЬ.

Можно ли отредактировать в текстовом редакторе отсканированный текст?

8 ответов на вопрос “Можно ли отредактировать в текстовом редакторе отсканированный текст?”

Добавить ответ Отменить ответ