страница 1
|
|||||||||||||||||||||||||||||||||||||||||||
Похожие работы
|
Решение с помощью оцифровки внутренних задач библиотеки - страница №1/1
Цифровая коллекция редких изданий в Научной библиотеке Уральского государственного университета Технологический и тематический аспекты Проект оцифровки изданий из фондов Научной библиотеки УрГУ (НБ УрГУ) был начат в начале 2001 года. Прошедший период убедил нас в том, что любой проект по оцифровке проводимый любой библиотекой может быть успешным только при соблюдении следующих условий:
В дополнение следует сказать, что оцифровка фондов должна быть выгодна проводящей ее библиотеке. Только в этом случае она возможна как долговременная работа с серьезным результатом, а не как случайная акция. Рассмотрим, каким образом сформулированные условия отражаются в реалиях НБ УрГУ. При общем объеме библиотечного фонда около 1 млн. экземпляров ежегодное количество выдач составляет тот же самый 1 млн., т. е. в среднем каждый экземпляр выдается 1 раз в год. Естественно, что реальная картина не совпадает с идеальной — наиболее востребованные издания выдаются по несколько десятков раз в году, при этом заметна их явная нехватка. Тенденция характерна и для современных, и для дореволюционных изданий. За последние 5–6 лет резко возросла востребованность фондов дореволюционных русских изданий, при этом возросшая нагрузка на отдельные книжные экземпляры все острее ставит задачи их физической сохранности и реставрации. Оцифровка ресурсов в этом случае выглядит как один из возможных способов одновременного решения проблем расширения доступа и физической сохранности, в том случае, если большинству читателей будет предоставляться цифровая копия издания, а не физический экземпляр. В то же время в Научной библиотеке УрГУ уже давно и достаточно успешно идут процессы автоматизации библиотечной деятельности. Библиотека имеет развитую инфраструктуру для предоставления доступа пользователей к электронным ресурсам — 4 компьютерных класса с современным оборудованием (общее количество рабочих мест — 30). Таким образом, первое из сформулированных нами условий в НБ УрГУ выполнено. Наличие эффективных и экономичных технологий создания и эксплуатации цифровых ресурсов является требованием, значение которого переоценить невозможно. Пожалуй, его даже следовало бы поставить на первое место. Естественно, что библиотеки не в состоянии самостоятельно разрабатывать эти технологии, это им просто не по силам. Задача библиотеки — взять готовые, отработанные и апробированные технологические схемы и применить их на практике. Следует заметить, что большинство библиотек сейчас просто не в состоянии создать серьезные, крупные подразделения, занимающиеся оцифровкой фондов. Но говорить об оцифровке бессмысленно, если подразумевается обработка сотен или одной-двух тысяч страниц, такими черепашьими темпами проблему не решить. Необходимо, чтобы общая производительность технологического процесса по оцифровке достигала как минимум десятков тысяч страниц в год на одного работника. В НБ УрГУ, ставя задачу оцифровки изданий из собственных фондов, мы попробовали оценить уже выполненные в России проекты. К сожалению, среди них не нашлось такого, который мог бы стать прототипом для нашей цифровой коллекции. Мы также провели анализ некоторых западных проектов, который оказался очень полезным с точки зрения определения некоторых общих направлений проектов оцифровки. В итоге, не найдя удовлетворяющего нас решения, мы взялись за самостоятельную разработку технологического процесса. Причем в первую очередь подготавливаемая схема должна была учитывать наши реалии — от имеющегося оборудования до квалификации занятых в проекте исполнителей. Что получилось? Цифровая коллекция НБ УрГУ строится на базе компромисса между двумя основными подходами к созданию цифровых библиотек: предоставлением изображений отсканированных страниц и предоставлением текста изданий. Отсканированные образы страниц предоставляются в графической формате DjVu, который позволяет достичь беспрецедентно высокого качества сжатия изображений высокого разрешения. Использование DjVu-формата обеспечивает:
Для реализации полнотекстового поиска проводится распознавание текстов отсканированных изданий. Эта проблема легко решается для текстов в современной орфографии. Тексты дореволюционных изданий, которые составляют сейчас более 80% от общего объема коллекции, автоматически переводятся в современную орфографию, проходя одновременно через корректировку ошибок распознавания. Использование только автоматических средств позволяет верно воспроизводить около 80–90% слов. Для текстов наиболее востребованных изданий проводится ручная корректировка, доводящая количество верных слов до 98–99%. Самое главное: все процессы проходят внутри библиотеки без привлечения сторонних технических специалистов. Скорость сканирования и создания цифровых копий в формате DjVu составляет около 2 тыс. страниц в месяц на одного работника. Скорость распознавания и автоматической корректировки текстов около 30 мин. работы оператора на 100 стр. текста; полная загрузка одного компьютера позволяет обработать за день несколько сот страниц. По задуманной схеме распознанные и откорректированные тексты должны быть объединены с отсканированными изображениями страниц в рамках единой базы данных. Пользователи будут получать только DjVu-изображения страниц, тексты которых будут находиться «за кадром» и применяться только для поиска по коллекции. Этот этап пока еще не реализован, для его успешного выполнения необходимо привлечение технических специалистов. Цифровые копии изданий связаны с библиографическими описаниями в электронном каталоге и доступны по сети Интернет, доступ к ним производится в автоматическом режиме. Тексты с высокой точностью распознавания могут также конвертироваться в форматы html или pdf и в таком виде выдаваться пользователю. В результате, начав (на стадии экспериментов!) в январе 2001 года, сейчас в своей цифровой коллекции мы имеем:
Немаловажно, что цифровая коллекция создана в результате повышения эффективности использования уже имеющегося оборудования и людских ресурсов, без привлечения значительных материальных средств. Основным критерием отбора стала востребованность изданий. Более половины от общего объема коллекции занимают сочинения по истории русского права, присутствуют также филологические и исторические труды. Коллекция авторефератов диссертаций формируется как политематическая, в нее входят последние диссертации, защищенные в УрГУ. Какие же внутренние задачи библиотеки позволяет решать созданная цифровая коллекция? Кратко перечислим их:
Свой опыт мы расцениваем как весьма успешный и считаем, что любая библиотека по условиям и возможностям сходная с НБ УрГУ (а таких десятки, возможно, сотни) могла бы его повторить. Обучающие семинары, проведенные в Екатеринбурге для сотрудников библиотек участников проекта «Consensus Omnium : Корпоративная сеть библиотек Урала», позволили распространить наши наработки. Отрадно видеть, что еще две библиотеки Екатеринбурга начали создание своих цифровых коллекций, объем которых в настоящее время приближается к 3 тыс. страниц. Втянувшись в процесс и осознав его выгодность для нашей библиотеки, мы не собираемся останавливаться на достигнутом. В наши планы входит дальнейшее пополнение цифровой коллекции за счет монографий и диссертационных материалов, создание тематических коллекций и коллекций различных типов и видов изданий. Мы надеемся на организацию межбиблиотечного сотрудничества в этой сфере, обмен цифровыми копиями изданий и устранение пробелов в фондах библиотек. Такое сотрудничество уже начато с Челябинской областной научной универсальной библиотекой. Мы также планируем развивать технические возможности, предоставляемые нашей цифровой коллекцией. Ближайшей задачей является структурная разметка распознанных текстов, выделение в них хотя бы основных элементов, таких как названия частей, разделов, глав, подстрочных примечаний, библиографические сноски и т. п. Это в будущем позволит осуществить не просто полнотекстовый поиск, а многоаспектный поиск с учетом названных элементов. Мы готовы к сотрудничеству и открыты для любых предложений. |
|