Abstract (russian) | В данной дипломной работе рассматриваются проблемы, возникающие при оцифровке старых русских книг. Оцифровка — преобразование текста, изображений, звука, движущихся изображений (фильмы и видео) или 3d объектов в цифровой формат. Основная причина оцифровки — защита и сохранение книг, находящихся под угрозой деградации, а также обеспечение широкой доступности книг в разных странах мира. Оцифровка состоит из 7 фаз: подбор материалов для оцифровки, оцифровка материалов, обработка и контроль качества, защита материалов в электронной среде, хранение и передача цифрового материала, просмотр и использование цифрового материала и сопровождение цифрового материала. Перед началом оцифровки необходимо определить предусмотренный бюджет и срок завершения проекта и решить, какие книги должны быть оцифрованы первыми. Книгу можно оцифровать с помощью цифровой камеры или сканера, а полученное изображение затем проходит через программу OCR. Наконец, оцифрованный материал должен быть защищен, сохранен и передан пользователям. Чтобы сделать процесс оцифровки максимально простым и быстрым, ученые разработали оптическое распознавание символов. Оптическое распознавание символов (OCR) — это технология, с помощью которой рукописи, печатные тексты и документы, записанные в цифровой форме, преобразуются в текстовые документы, которые можно обрабатывать. Существует большое количество коммерческих и бесплатных OCR программ. При выборе программы бюджет и срок завершения проекта являются самыми важными факторами. Фазы оптического распознавания символов: предыдущая обработка, анализ изображений, т. е. сегментация, распознавание символов и последующая обработка. После сканирования изображения необходимо устранить нежелательный шум, полученный пятнами на изображении, но без потери существенной информации, и нужно получить хороший контраст между текстом и фоном. В течение сегментации страница делится на текст, изображения и таблицы. Текст далее делится на строки, слова и символы. После этого программа OCR распознает символы на основе шаблонов и на основе свойств формы. Распознанные символы должны быть затем вновь собраны в полный текст, а в полученном тексте необходимо проверить наличие ошибок. Эта 76 проверка может быть выполнена вручную пользователем или с помощью встроенных словарей в рамках программы. Некоторые из наиболее распространенных ошибок в распознавании символов —невозможность распознать символ, замена двух символов, замена прописных и строчных букв, объединение двух слов, разделение одного слова на несколько частей или неправильно поставленная пунктуация. Точность результата оптического распознавания символов в наибольшей степени зависит от качества оригинала, так что точность старых текстов будет намного ниже, чем у более новых материалов. Точность оптического распознавания символов можно улучшить обучением, но это возможно только у некоторых программ OCR. При оцифровке старых книг проблема заключается в недостаточном контрасте между текстом и фоном из-за пожелтевших листов бумаги и выцветавшего текста и шрифтов, которые сегодня больше не используются. Кроме того, старые вариации правописания и устаревший словарный запас затрудняют контроль при оптической проверке текста. Большое количество старых русских книг написано на старославянском языке или на более старой версии русского языка и очень сильно отличаются от текстов, написанных на современном русском языке. При оптическом распознавании символов старых русских книг многие программы обнаружат проблемы со всеми словами, словоформами и правописанием, которые отличаются от современного стандартизированного русского языка. Таким образом, у многих OCR программы возникнут проблемы с распознаванием букв, которых больше нет в стандартном русском языке: „ѱ“, „ѯ“, „ω“, „ѵ“, „ѧ“, „φ“, „i“ и „ї“ и старых глагольных времен, падежей и склонений. В рамках этой дипломной работы было проведено исследование, сравнивающее две разные программы для оптического распознавания символов: Abbyy FineReader и Transkribus. Анализ проводился по Российской грамматике Михаила Васильевича Ломоносова, написанной в 1755 году. Abbyy FineReader — одна из наиболее широко используемых коммерческих OCR программ, разработанная российской компанией Abbyy. Ee использование было довольно простым. После анализа страницы, программа автоматически распознала все символы. У программы возникли проблемы с 77 распознаванием таблиц и изогнутых скобок при анализе, и в итоге удалось заметить большое количество неправильно идентифицированных символов. Transkribus является бесплатной платформой для автоматического распознавания, транслитерации и поиска исторических документов. Он является частью проекта READ (Распознавание и обогащение архивных документов), финансируемого Европейским Союзом. В Transkribus потребовалось больше времени для сегментации страницы, потому что программа не делила текст точно на строки и поэтому требовалась ручная сегментация. После этого было необходимо ввести расшифрованный текст первых 30 страниц для обучения модели, что не было проблемой, так как книга уже была в цифровом формате. В противном случае этот процесс потребовал бы намного больше времени. Через некоторое время команда Transkribus разработала модель распознавания символов, которая работала очень хорошо. Результаты обеих программ были проверены с помощью аналитических инструментов ISRI, которые показали, что точность результата программы Abbyy FineReader была только 56.48%, а программы Transkribus 97.60 %. Можно сделать вывод, что для оцифровки старых книг требуются специализированные программы, поскольку в классических программах OCR слишком много ошибок распознавания символов, и исправление этих ошибок займет слишком много времени. В России была признана необходимость оцифровки книг, поэтому многие российские библиотеки инициировали проекты оцифровки и русские книги сейчас доступны на различных веб-сайтах. Но нужно обратить внимание и на возможное нарушение авторских прав, которое иногда возникает при публикации книг в цифровом виде. |