Решение с помощью оцифровки внутренних задач библиотеки

Цифровая коллекция редких изданий
в Научной библиотеке Уральского государственного университета
Технологический и тематический аспекты
Проект оцифровки изданий из фондов Научной библиотеки УрГУ (НБ УрГУ) был начат в начале 2001 года. Прошедший период убедил нас в том, что любой проект по оцифровке проводимый любой библиотекой может быть успешным только при соблюдении следующих условий:

наличие реального спроса на цифровые ресурсы и технических возможностей его удовлетворения (компьютеры для пользователей, место на сервере, каналы связи и т. п.);
наличие эффективных и экономичных технологий создания и эксплуатации цифровых ресурсов;
решение с помощью оцифровки внутренних задач библиотеки.

В дополнение следует сказать, что оцифровка фондов должна быть выгодна проводящей ее библиотеке. Только в этом случае она возможна как долговременная работа с серьезным результатом, а не как случайная акция.

Рассмотрим, каким образом сформулированные условия отражаются в реалиях НБ УрГУ. При общем объеме библиотечного фонда около 1 млн. экземпляров ежегодное количество выдач составляет тот же самый 1 млн., т. е. в среднем каждый экземпляр выдается 1 раз в год. Естественно, что реальная картина не совпадает с идеальной — наиболее востребованные издания выдаются по несколько десятков раз в году, при этом заметна их явная нехватка. Тенденция характерна и для современных, и для дореволюционных изданий. За последние 5–6 лет резко возросла востребованность фондов дореволюционных русских изданий, при этом возросшая нагрузка на отдельные книжные экземпляры все острее ставит задачи их физической сохранности и реставрации. Оцифровка ресурсов в этом случае выглядит как один из возможных способов одновременного решения проблем расширения доступа и физической сохранности, в том случае, если большинству читателей будет предоставляться цифровая копия издания, а не физический экземпляр.

В то же время в Научной библиотеке УрГУ уже давно и достаточно успешно идут процессы автоматизации библиотечной деятельности. Библиотека имеет развитую инфраструктуру для предоставления доступа пользователей к электронным ресурсам — 4 компьютерных класса с современным оборудованием (общее количество рабочих мест — 30).

Таким образом, первое из сформулированных нами условий в НБ УрГУ выполнено.

Наличие эффективных и экономичных технологий создания и эксплуатации цифровых ресурсов является требованием, значение которого переоценить невозможно. Пожалуй, его даже следовало бы поставить на первое место. Естественно, что библиотеки не в состоянии самостоятельно разрабатывать эти технологии, это им просто не по силам. Задача библиотеки — взять готовые, отработанные и апробированные технологические схемы и применить их на практике. Следует заметить, что большинство библиотек сейчас просто не в состоянии создать серьезные, крупные подразделения, занимающиеся оцифровкой фондов. Но говорить об оцифровке бессмысленно, если подразумевается обработка сотен или одной-двух тысяч страниц, такими черепашьими темпами проблему не решить. Необходимо, чтобы общая производительность технологического процесса по оцифровке достигала как минимум десятков тысяч страниц в год на одного работника.

В НБ УрГУ, ставя задачу оцифровки изданий из собственных фондов, мы попробовали оценить уже выполненные в России проекты. К сожалению, среди них не нашлось такого, который мог бы стать прототипом для нашей цифровой коллекции. Мы также провели анализ некоторых западных проектов, который оказался очень полезным с точки зрения определения некоторых общих направлений проектов оцифровки. В итоге, не найдя удовлетворяющего нас решения, мы взялись за самостоятельную разработку технологического процесса. Причем в первую очередь подготавливаемая схема должна была учитывать наши реалии — от имеющегося оборудования до квалификации занятых в проекте исполнителей.

Что получилось?

Цифровая коллекция НБ УрГУ строится на базе компромисса между двумя основными подходами к созданию цифровых библиотек: предоставлением изображений отсканированных страниц и предоставлением текста изданий. Отсканированные образы страниц предоставляются в графической формате DjVu, который позволяет достичь беспрецедентно высокого качества сжатия изображений высокого разрешения. Использование DjVu-формата обеспечивает:

доступ к цифровой коллекции по сети Интернет с использованием стандартного программного обеспечения (необходима лишь установка свободно распространяемого дополнительного модуля для браузера);
высокое качество и малый объем изображений любых видов (20–30 Kb для черно-белого изображения формата A4 с разрешение в 300 dpi; 80–100 Kb для такого же полноцветного изображения;
полное сохранение имеющегося вида издания.

Для реализации полнотекстового поиска проводится распознавание текстов отсканированных изданий. Эта проблема легко решается для текстов в современной орфографии. Тексты дореволюционных изданий, которые составляют сейчас более 80% от общего объема коллекции, автоматически переводятся в современную орфографию, проходя одновременно через корректировку ошибок распознавания. Использование только автоматических средств позволяет верно воспроизводить около 80–90% слов. Для текстов наиболее востребованных изданий проводится ручная корректировка, доводящая количество верных слов до 98–99%.

Самое главное: все процессы проходят внутри библиотеки без привлечения сторонних технических специалистов. Скорость сканирования и создания цифровых копий в формате DjVu составляет около 2 тыс. страниц в месяц на одного работника. Скорость распознавания и автоматической корректировки текстов около 30 мин. работы оператора на 100 стр. текста; полная загрузка одного компьютера позволяет обработать за день несколько сот страниц.

По задуманной схеме распознанные и откорректированные тексты должны быть объединены с отсканированными изображениями страниц в рамках единой базы данных. Пользователи будут получать только DjVu-изображения страниц, тексты которых будут находиться «за кадром» и применяться только для поиска по коллекции. Этот этап пока еще не реализован, для его успешного выполнения необходимо привлечение технических специалистов.

Цифровые копии изданий связаны с библиографическими описаниями в электронном каталоге и доступны по сети Интернет, доступ к ним производится в автоматическом режиме.

Тексты с высокой точностью распознавания могут также конвертироваться в форматы html или pdf и в таком виде выдаваться пользователю.

В результате, начав (на стадии экспериментов!) в январе 2001 года, сейчас в своей цифровой коллекции мы имеем:

более 12 000 страниц монографических изданий конца XIX — начала XX вв.;
около 2 000 страниц авторефератов диссертаций, прошедших защиту в 2000 и 2001 годах в диссертационных советах УрГУ;
постоянное пополнение коллекции в объеме около 1 000 страниц в месяц.

Немаловажно, что цифровая коллекция создана в результате повышения эффективности использования уже имеющегося оборудования и людских ресурсов, без привлечения значительных материальных средств.

Основным критерием отбора стала востребованность изданий. Более половины от общего объема коллекции занимают сочинения по истории русского права, присутствуют также филологические и исторические труды. Коллекция авторефератов диссертаций формируется как политематическая, в нее входят последние диссертации, защищенные в УрГУ.

Какие же внутренние задачи библиотеки позволяет решать созданная цифровая коллекция? Кратко перечислим их:

расширение доступа к самым востребованным изданиям, устранение ситуаций, когда книга не может быть выдана читателю по причине «занятости»;
обеспечение физической сохранности изданий, для которых изготовлены цифровые копии, путем уменьшения их выдачи;
повышение качества информационного обслуживания читателей путем реализации невозможных ранее сервисов, таких как полнотекстовый поиск, предоставление электронных текстов документов и т. п.;
уменьшение нагрузки на читальные залы и на библиотекарей, занятых на выдаче и расстановке книг;
возможности копирования и распечатки страниц без ущерба для физического экземпляра, что особенно актуально для изданий XIX — начала XX вв.;
возможность оказывать дополнительные платные услуги для читателей.

Свой опыт мы расцениваем как весьма успешный и считаем, что любая библиотека по условиям и возможностям сходная с НБ УрГУ (а таких десятки, возможно, сотни) могла бы его повторить. Обучающие семинары, проведенные в Екатеринбурге для сотрудников библиотек участников проекта «Consensus Omnium : Корпоративная сеть библиотек Урала», позволили распространить наши наработки. Отрадно видеть, что еще две библиотеки Екатеринбурга начали создание своих цифровых коллекций, объем которых в настоящее время приближается к 3 тыс. страниц.

Втянувшись в процесс и осознав его выгодность для нашей библиотеки, мы не собираемся останавливаться на достигнутом. В наши планы входит дальнейшее пополнение цифровой коллекции за счет монографий и диссертационных материалов, создание тематических коллекций и коллекций различных типов и видов изданий. Мы надеемся на организацию межбиблиотечного сотрудничества в этой сфере, обмен цифровыми копиями изданий и устранение пробелов в фондах библиотек. Такое сотрудничество уже начато с Челябинской областной научной универсальной библиотекой.

Мы также планируем развивать технические возможности, предоставляемые нашей цифровой коллекцией. Ближайшей задачей является структурная разметка распознанных текстов, выделение в них хотя бы основных элементов, таких как названия частей, разделов, глав, подстрочных примечаний, библиографические сноски и т. п. Это в будущем позволит осуществить не просто полнотекстовый поиск, а многоаспектный поиск с учетом названных элементов.

Мы готовы к сотрудничеству и открыты для любых предложений.