Электронные библиотеки как информационные ресурсы
Содержание
Введение2
Глава I. Электронные библиотеки как информационные ресурсы5
.1 Организация создания электронных книг5
.2 Понятие и организация электронных библиотек12
.3 Современные системно-технологические тенденции развития электронных библиотек16
Глава II. Практика организации электронных ресурсов крупнейших российских библиотек37
.1 Российская государственная библиотека37
.2 Российская национальная библиотека56
.3 Методика поиска информации в электронных библиотеках71
Заключение101
Список использованной литературы107
Введение
Актуальность темы работы состоит в том, что отличительной чертой сегодняшнего этапа развития общества является то, что информация существует как в традиционной печатной, так и в электронной форме. Более того, современные информационные технологии позволили не только приступить к широкомасштабному переводу накопленной человечеством информации в электронную форму, но и к созданию большого числа новых информационных ресурсов сразу в электронном виде. Эта форма представления информации помимо значительного ускорения коммуникативных процессов позволяет на качественно новом уровне организовать процессы производства, хранения и распространения информации.
Информационные методы и технологии все глубже проникают практически во все виды деятельности. Информатизация, конвергенция информационных, коммуникационных технологий (ИКТ) и мультимедиа, переход к применению современных информационных систем в сфере науки и образования обеспечивают принципиально новый уровень получения и обобщения знаний, их распространения и использования.
Обеспечение публичного (в том числе удаленного) доступа пользователей к электронным информационным ресурсам стало одной из первоочередных задач информационного обслуживания науки, образования и культуры. В нынешних условиях уже не требует доказательств, что концепция информационного обслуживания, базирующегося только на основе печатных носителей устарела, и ей на смену пришла другая, - основанная на электронном представлении самой разнообразной информации, тиражируемой в неограниченном количестве и мгновенно доступной через глобальные сети передачи данных независимо от времени и местонахождения пользователя.
В связи с этим существенно меняется роль и функции такого социального института, как библиотека - основного хранилища и распространителя информации.
Общепризнанно, что наиболее эффективно информационно - библиотечное обслуживание для нужд науки, культуры и образования сегодня (и, тем более, завтра) достигается путем создания электронных библиотек (digital libraries), не столько состоящих из коллекций электронных документов (как оцифрованных традиционных материалов, так и созданных сразу в электронном виде), сколько представляющих из себя систему, реализующую унифицированный подход к производству, хранению и организации разнообразной информации с целью поиска, анализа и доступа к ней с использованием глобальных компьютерных сетей.
Основное различие традиционной библиотеки и электронной библиотеки заключается в том, что пользователь обращается к сервисам последней за необходимой информацией, а не просто за отсылками к документу и/или самими документами. Отличительной чертой электронной библиотеки является возможность параллельного использования различных поисковых механизмов и средств доступа к гетерогенным коллекциям электронных данных. Так как в качестве ответа на запрос к электронной библиотеке пользователю может быть представлен далеко не единственный электронный документ (или его фрагмент) и совсем не обязательно в текстовой форме, необходимы такие информационные системы, которые могут обеспечить эффективный комплексный поиск и анализ информации в коллекциях разнородных объектов.
В силу целого ряда причин периода социально - экономических преобразований уровень информационного обеспечения науки и образования в России на один - два порядка ниже, чем в развитых странах. Вследствие жестких финансовых ограничений резко снизился уровень комплектования даже ведущих библиотек и информационных центров как отечественными, так и зарубежными научно - техническими периодическими изданиями. Очевидно, что в ближайшие годы традиционными методами изменить ситуацию к лучшему не представляется возможным, поэтому стали необходимы новые нетрадиционные подходы для решения проблемы повышения уровня информационного обеспечения ученых и специалистов на основе использования ИКТ и электронизации информационных фондов. Этим объясняется то внимание, которое государственные ведомства проявили к деятельности по созданию и использованию электронных библиотек в России.
Цель дипломного исследования - анализ особенностей организации информационных ресурсов в электронных библиотеках
Задачи исследования:
1.характеристика общих вопросов организации электронных ресурсов;
2.обзор принципов взаимодействия Интернет-ресурсов и процесса формирования каталогов электронных изданий;
.отслеживание тенденций развития организационно-технологических основ электронных библиотек;
.анализ концепции построения электронных библиотек и принципов организации информационных ресурсов в них
Объект исследования - электронные библиотеки (ЭБ).
Предмет исследования - формирование ЭБ и технология их использования в обслуживании запросов удаленных пользователей.
Методы исследования, логический анализ, синтез, обобщение и эксперимент по поиску информации в электронных каталогах.
Источниковедческая база: монографии, статьи из сборников научных трудов и конференций, статьи из профессиональных журналов, ресурсы сети Интернет.
Экспериментальной базой являются электронные библиотеки Российская Национальная Библиотека и Российская Государственная Библиотека.
Глава I. Электронные библиотеки как информационные ресурсы
1.1 Организация создания электронных книг
информационный ресурс электронная библиотека
Электронные издания возникли в конце 80-х годов. Фирма «Columbia Tristar Home Video» (США) выпустила первую серию электронных книг для использования со специальным портативным плеером Data Discman фирмы «Sony» (Япония), с помощью которого можно было читать компакт-диски диаметром 3,5дюйма. Так, возник рынок «электронных книг», и в Японии к 1992 г, было продано свыше 130 тыс. К тому времени в связи с быстрым распространением персональных компьютеров производители электронных книг и устройств для их чтения стали ориентироваться на стандарты СО-RОМ и предусматривать возможность подключения выпускаемых плееров к вычислительным машинам.
В 1998 году, на американском рынке появилось «новое» поколение электронных книг: The Rocket eBook, SoftBook, Millenium Reader и EveryBook.
Несомненным преимуществом электронной книги является компактность - электронная книга намного вместительнее обычной книги и может вместить не то, что информацию многотомной энциклопедии, а содержание книг целой библиотеки. Электронная книга сокращает время поиска информации, поскольку текст получается в виде битов через Интернет, и любая книга может быть доставлена мгновенно. Электронная книга обеспечивает легкость аннотирования, позволяя добавлять собственные электронные замечания, выделять текст и вносить аннотации, примечания, ссылки, Возможность манипулировать текстами этих изданий вызвала к жизни гипертекст, который создает возможность поиска и объединения по смыслу фрагментов текста, т.е, появляется возможность навигации по гипертексту. [11]
Электронная книга экономически более выгодна для читателя, чем печатное издание, что связано с отсутствием затрат на издание, минимальной стоимостью хранения и доставки. На практике нет никаких препятствий к тому, чтобы классическую литературу и другие общедоступные тексты можно было загружать из электронных хранилищ бесплатно.
В России компания «Электронная книга» появилась в начале 2000 года; её издания выставлялись уже в апреле 2000 года на ярмарке «Книги России».
Среди электронных изданий следует в первую очередь отметить научные и учебные издания.
Как правило, электронные учебники и энциклопедии как любительского, так и профессионального характера выпускаются в основном на компакт-дисках, хотя начинают появляться аналогичные издания и в Интернет. Чем легче сам процесс создания, тем большее число разработчиков начинает производить подобные приложения. Создателями электронных изданий становятся и книжные издательства (т.е владельцы информации) и журналисты, выпускающие электронные версии периодических изданий, и, наконец, преподаватели. Промежуточное положение занимают группы, объединяющие владельцев информации и программистов.
Электронный учебник, как правило, представляет собой мультимедийный продукт и должен обеспечить эффективное обучение школьников и студентов в режиме самообразования и в режиме, при котором преподаватель от обычного инструктированного переходит к консультированию учащихся. Из этого следует, что учебник должен обеспечивать обучение студентов как по всему курсу, так и по отдельным темам. Каждый выделенный заранее смысловой фрагмент курса должен заканчиваться практическими и контрольными занятиями, а каждый большой раздел курса - тестовым занятием или зачетом.
В процессе разработки обучающей программы возникают следующие проблемы:
.адаптация к уровню знаний и индивидуальным характеристикам обучаемых
.повышение активности обучаемых на занятиях разработка оптимальных тестов для контроля знаний по всему материалу модуля
Все тексты готовятся с использованием современных программных средств, с учетом особенностей оформления текста: выделение заголовков, подзаголовков, определений, ключевых слов, перечислений, кроме этого вставка графического материала, который может содержать рисунки, графики, поясняющие ссылки, а также в соответствии с принципами цветового визуального восприятия информации и наглядности подачи материала. [59]
Характерные черты электронных изданий, созданных средствами прямого программирования: разнообразие стилей реализации (цветовая палитра, интерфейс, структура ЭУ, способ подачи материала и т.д.); сложность модификации и сопровождения; большие затраты времени и трудоемкость; отсутствие аппаратных ограничений, т.е. возможность создания ЭУ, ориентированного на имеющуюся в наличие техническую базу.
Инструментальные средства общего назначения (ИСОН) предназначены для создания ЭУ пользователями не являющимися квалифицированными программистами. ИСОН, применяемые при проектировании ЭУ, как правило, обеспечивают следующие возможности: формирование структуры ЭУ; ввод, редактирование и форматирования текста (текстовый редактор); подготовка статической иллюстративной части (графический редактор); подготовка динамической иллюстративной части (звуковых и анимационных фрагментов); подключение исполняемых модулей, реализованных с применением других средств разработки и др.
К достоинствам инструментальных средств общего назначения следует отнести: возможность создания ЭУ лицами, которые не являются квалифицированными программистами; существенное сокращение трудоемкости и сроков разработки ЭУ; невысокие требования к компьютерам и программному обеспечению. Вместе с тем ИСОН имеют ряд недостатков, таких как: далеко не дружественный интерфейс; меньшие, по сравнению с мультимедиа и гипермедиа системами, возможности; отсутствие возможности создания программ дистанционного обучения.
При создании электронных учебников обязательно должны использоваться мультимедийные устройства; мультимедиа означает объединение нескольких способов подачи информации - текст, неподвижные изображения (рисунки и фотографии), движущиеся изображения (мультипликация и видео) и звук (цифровой и MIDI) - в интерактивный продукт. Аудиоинформация включает в себя речь, музыку, звуковые эффекты. Наиболее важным вопросом при этом является информационный объем носителя. По сравнению с аудио видеоинформация представляется значительно большим количеством используемых элементов. Прежде всего, сюда входят элементы статического видеоряда, которые можно разделить на две группы: графика (рисованные изображения) и фото. К первой группе относятся различные рисунки, интерьеры, поверхности, символы в графическом режиме. Ко второй - фотографии и сканированные изображения. Динамический видеоряд практически всегда состоит из последовательностей статических элементов (кадров). Здесь выделяются три типовых элемента: обычное видео (около 24 фото в секунду), квазивидео (6-12 фото в секунду), анимация. Использование видеоряда в составе мультисреды предполагает решение значительно большего числа проблем, чем использование аудио. Среди них наиболее важными являются: разрешающая способность экрана и количество цветов, а также объем информации. [12]
Характерным отличием мультимедиа продуктов от других видов информационных ресурсов является заметно больший информационный объем, поэтому в настоящее время основным носителем этих продуктов является оптический диск CD-ROM стандартной емкостью 640 Мбайт. Для профессиональных применений существует ряд других устройств (CD-Worm, CD-Rewritaeble, DVD и др.), однако они имеют очень высокую стоимость.
Гипертекст - это способ нелинейной подачи текстового материала, при котором в тексте имеются каким-либо образом выделенные слова, имеющие привязку к определенным текстовым фрагментам. Таким образом, пользователь не просто листает по порядку страницы текста, он может отклониться от линейного описания по какой-либо ссылке, т.е. сам управляет процессом выдачи информации. В гипермедиа системе в качестве фрагментов могут использоваться изображения, а информация может содержать текст, графику, видеофрагменты, звук.
Использование гипертекстовой технологии удовлетворяет таким предъявляемым к учебникам требованиям, как структурированность, удобство в обращении. При необходимости такой учебник можно выложить на любом сервере и его можно легко корректировать. Но, как правило, им свойственны неудачный дизайн, компоновка, структура и т.д. В настоящее время существует множество различных гипертекстовых форматов (HTML, DHTML, PHP и др.).
Созданные продукты, как правило несут на себе отпечаток личных взглядов создателя. Так, например, если разработчиками электронного издания являются программисты, то в этом случае можно наблюдать недостаточное внимание к информации, к ее доставерности и качеству. Основное внимание здесь уделяется компьютерным эффектам или особым навигационным приемам, реализуемом в продукте. Достаточно взглянуть на характеристики компакт-дисков, наиболее часто представляемых в компьютерных изданиях и рекламных проспектах: на первом месте стоит объем записанной информации, количество иллюстраций, аудио - и видеофрагментов и их продолжительность. Данные о качестве информации обычно отсутствуют, в лучшем случае указывается, что продукт представляет собой электронную копию печатного издания.
Рассмотрим теперь вопросы, связанные с использованием электронных изданий в библиотечном деле. Наиболее значительным из них является указатель литературы по библиографическим источникам «Электронные издания» (2005-2006 гг.). Это пособие снабжено алфавитным каталогом авторов и предметным указателем. Электронные журналы, книги, приложения к печатным изданиям направляются в отраслевые и специализированные читальные залы. Для организации использования первоисточников в рабочую группу должен быть включен сотрудник отдела обслуживания. Многие базы данных (БД) применяются как для информационного обслуживания, так и для библиографических разысканий. Поскольку справочный аппарат БД совершеннее по сравнению даже с их печатными аналогами, то они позволяют проводить более сложные библиографические разыскания с использованием названия журнала, ключевых слов из названия публикации, а также получать сведения, отсутствующие в большинстве традиционных изданий (адрес автора, издателя).
Обеспеченность зарубежными источниками информации на машиночитаемых носителях значительно выше чем отечественными. Их ценность неизмеримо возрастает по мере сокращения подписки на библиографические издания и первоисточники. [58]
Состав БД и интенсивность их использования весьма неоднородны. Ядро библиографических БД составляют политематическая Science Citation Index Compact Disk Edition с достаточной ретроспективой (с 1991 г.) и отраслевые серии Current Contents (с 1993 г.). Дополнением к ним служат различные специализированные и отраслевые БД с различной хронологией. Эти базы пользуются популярностью, так как обеспечивают доступ к мировому информационному потоку при минимальных затратах сил и времени и одновременно при высокой оперативности. Гораздо меньше спрос на универсальные справочники (Ulrich's Plus, CD-ROM Directory), так как они представляют интерес для более узкого круга специалистов
При работе с полнотекстовыми БД возникает ряд трудностей: более сложное программное обеспечение, необходимость больших затрат времени пользователя для просмотра текста, языковой барьер, невозможность без специальных знаний по соответствующей отрасли ориентироваться в БД. В идеале их эксплуатацией должны заниматься специалисты, имеющие два образования: по информатике и по какой-либо из наук. По своей специфике они больше подходят для использования в отраслевых или специализированных читальных залах.
Автоматизация справочно-библиографического обслуживания началась по существу с введением в промышленную эксплуатацию электронного каталога (ЭК) ГПНТБ РАН. На этапе освоения справки по ЭК выполняли сотрудники Центра научной обработки документации - создатели каталога - и члены Межотдельской группы. [52]
Весомым дополнением к электронному каталогу служат электронные версии региональных указателей - продукция Отдела научной библиографии. Они облегчают поиск книг, статей из журналов и сборников о природе, экономике, науке и культуре региона. Пока функционирует только часть из них. С завершением этого проекта библиографы получат ценный инструмент для повышения оперативности и качества справочно-информационного обслуживания.
Большим шагом вперед в автоматизации справочно-библиографического обслуживания явилось применение информационно-правовой БД «Консультант Плюс». Ее использование, с одной стороны, позволяет ликвидировать малопроизводительный труд по ведению ручной картотеки, а с другой - предоставлять читателям виды и тексты документов, которые в традиционном режиме были практически недоступны. Все это, наряду с высокой оперативностью, значительно повышает эффективность работы библиографов. [13]
К сожалению, на этом исчерпывается перечень отечественных электронных источников информации. Очевидно, что малочисленность российских БД и справочников на машинных носителях затрудняют и библиографический, и информационный поиск, делая его малопроизводительным. Очень часто высококвалифицированным специалистам приходится выполнять чисто механическую работу, пролистывая десятки и даже сотни страниц.
Необходимы такие электронные каталоги, как Книжная летопись, Летопись журнальных статей, Летопись газетных статей на КОД, причем первую желательно иметь с начала ее издания, а две последних достаточно за последние 3 - 5 лет. Но самая высокая потребность, конечно же, в оперативной информации. Это Сводный каталог иностранных книг по естественным наукам и технике, Сводный бюллетень новых иностранных книг по общественным наукам. [14]
Повышая оперативность выполнения справок, способствуя экономии высококвалифицированного труда, перенос информации на машиночитаемые носители обеспечивает сохранность фонда, экономию библиотечного пространства, улучшение микроклимата (за счет отсутствия библиотечной пыли), предоставляет возможность одновременного использования одного источника несколькими потребителями, копирования нужных фрагментов текста, размножения информации в необходимом количестве экземпляров - иначе говоря, значительно повышает уровень справочно- библиографического обслуживания.
1.2 Понятие и организация электронных библиотек
Электронная библиотека с одной стороны выполняет функции традиционной библиотеки: предоставление информации читателю, с другой -выполняет роль, характерную для АИБС,- организация и хранение локальных и удаленных электронных ресурсов и доступа к ним на основе компьютерных и телекоммуникационных технологий.
В последнее время появляются различные множество толкований термина "Электронная библиотека". Обычно же под электронной библиотекой понимается информационная система, позволяющая надёжно сохранять и эффективно использовать разнообразные коллекции электронных документов.
Цели создания электронных библиотек:
·обеспечение сохранности печатного материала;
·создание условий для обеспечения большей доступности печатного материала, расширение информационных услуг;
·выравнивание уровней технологического развития учреждений, работающих на пользу обществу.
Фундаментом, основой, объединяющей традиционные и электронные библиотеки, является принцип обслуживания пользователей.
Функции электронной библиотеки отличаются от классических библиотечных. С формальной точки зрения существенная часть электронных ресурсов - есть копии печатных версий и в этом смысле электронная коллекция состоит из копий, а не из оригиналов, первоисточников. Электронная библиотека (ЭБ) на сегодняшний день вторична по отношению к традиционной классической библиотеке
Подетально рассмотрим структуру ЭБ:
1.Требование к электронным ресурсам: их должно быть много, нужно превзойти некую "критическую массу", что бы обеспечить привлекательность фондов для пользователя, как удаленных, так и локальных.
2.Требование к персональным компьютерам: их должно быть достаточное количество для создания необходимого количества рабочих мест.
.Среда передачи данных - Интернет. Хорошее качество связи читателей с Интернет будет характеризовать работу библиотеки, кроме того Интернет может выступать как распределенное хранилище множества сетевых ресурсов.
.Хорошо подготовленный теоретически и профессионально библиотечный работник, знающий не только библиотечное дело, но и владеющий навыками работа с компьютером, в среде Интернет.
Развитие электронной библиотеки идет по трем направлениям:
1.Совершенствование существующей системы электронных каталогов;
2.Формирование фонда электронных ресурсов;
.Развитие сетевого доступа к ресурсам электронной библиотеки на территории вуза. [16]
По мере увеличения компьютеров предоставленных читателям для доступа к электронному каталогу возникла потребность расширить область информационных услуг. Одно из решений: создание сайта библиотеки .
Первым этапом создания подобного сайта является проведение детального анализа информационных потребностей его потенциальных посетителей. Следует сразу принять за правило, что сайт создается именно для читателей, а не для самих библиотекарей.
Существует ряд общих требований, которым должны отвечать виртуальные представительства библиотек. Все они базируются на общих критериях для web-серверов. К ключевым показателям качества web-серверов в настоящее время относятся:
·глубина содержания;
·простота навигации;
·стабильность информационных ресурсов;
·оперативность обновления информации;
·доступность для пользователей;
Информация, доступная с подобного сайта:
·Полезные советы читателям и рекомендации по пользованию библиотекой;
·Информация о новинках Электронной библиотеки;
·Сведения о доступных ресурсах в сети Интернет;
·Электронный каталог библиотеки и консорциума МАРС;
·Электронная библиотека
·Гостевая книга
·Коллекция Интернет-адресов
·Сведения о библиотеке, режиме работы, правила пользования, сведения о фондах и каталогах.
Помимо собственно информации о библиотеке и ее ресурсах, весьма ценным является представление перечня ссылок на наиболее богатые в информационном отношении источники с других серверов.
Основа любой Электронной библиотеки является Электронный каталог и доступ к библиографическим базам данных, бюллетени новых поступлений, информация о текущих событиях в библиотеке: конференциях, книжных выставках. [18] Создается коллекция электронных книг и статей -собственно сама электронная библиотека.
Программно-аппаратная реализация электронной библиотеки базируется на технологии клиент-сервер, web-технологиях. Информационно-ресурсные составляющие электронной библиотеки формируется по двухуровневой схеме:
1.уровень ресурсов соответствует первоисточникам - это фонд электронных документов - файловое хранилище, к которому обеспечен онлайновый доступ;
2.уровень - электронные ресурсы со вторичной информацией о первоисточниках: библиографические базы данных, которые составляют информационно-поисковый аппарат электронной библиотеки.
Доступ к электронному фонду осуществляется с помощью поискового аппарата: имеется возможность контекстного поиска по рубрикам.
Основной критерий отбора книг для конверсии печатного материала в электронный формат - это недоступность их для читателя.
Конверсия поврежденных, ветхих книг - самый эффективный способ обеспечения сохранности, широкого и удобного доступа, компактного хранения. Оцифровка осуществляется сканированием печатных материалов. Материалы электронной библиотеки хранятся частично на компакт дисках, частично доступны через ЛВС с локального web-сервера. [21]
1.3 Современные системно-технологические тенденции развития электронных библиотек
Существующие в настоящее время и разрабатываемые новые системы электронных библиотек характеризуются большим разнообразием поддерживаемых в них информационных ресурсов, способов организации их коллекций, функциональными возможностями пользовательских интерфейсов, архитектурных особенностей этих систем и других их технологических характеристик. Не случайно поэтому, что в разработках информационных систем этой категории востребован практически весь спектр ключевых технологий управления информацией, созданных научно-техническим сообществом и индустрией программного обеспечения в области баз данных, текстового поиска, Всемирной паутины и Интернет.
Действительно, Web-технологии являются непременной составной частью технологического оснащения многих электронных библиотек. Web является средой «обитания» электронных библиотек, обеспечивающей доступ пользователей к их ресурсам. Электронные коллекции информационных ресурсов многих электронных библиотек организованы в виде Web-сайтов. Кроме того, Web является средой доступа к различным системам баз данных, содержащим метаданные и/или коллекции структурированных данных, непосредственно интересующих пользователей электронной библиотеки. Более того, Web может рассматриваться как уникальная гигантская общечеловеческая универсальная (по предметной области) электронная библиотека.
Вероятно, наиболее распространенным видом информационных ресурсов электронных библиотек являются тексты на естественных языках. Этим обусловлено широкое применение в таких системах технологий текстового поиска. Они используются при этом не только в системах, построенных по принципу традиционных текстовых систем, но и для поиска в коллекциях, организованных в виде вебсайтов, а также для поиска в глобальной среде Web. Технологии текстового поиска, созданные первоначально для использования в рамках централизованно администрируемых коллекций текстовых документов уже более десятилетия назад стали применяться в децентрализованной среде Web. В последнее время адаптированные к Web технологии текстового поиска возвращаются в централизованно администрируемую информационную среду. Так, компанией Яндекс разработана свободно распространяемая поисковая система для поиска ресурсов на платформе персональных компьютеров. Аналогичную систему создала компания Google. [22]
Нужно отметить также важную роль технологий баз данных в электронных библиотеках. В рамках электронных библиотек используются СУБД, основанные на различных моделях данных - реляционные, объектные, объектно-реляционные, XML-ориентированные системы. Управляемые ими базы данных поддерживают в электронных библиотеках разнообразные коллекции структурированных данных и обеспечивают эффективный доступ к ним. Это, например, данные, полученные в результате научных экспериментов, наблюдений и измерений, компьютерного моделирования реальных процессов, экономическая статистика и т.п. Системы баз данных обеспечивают в электронных библиотеках поддержку разнообразных структурированных метаданных (например, классификаторов, каталогов, тезаурусов, словарей и др.). Создание XML-ориентированных систем баз данных позволило поддерживать в таких системах слабоструктурированные и структурированные XML-данные. Помимо этого, целый ряд коммерческих СУБД позволяет еще с середины 90-х годов хранить текстовые документы, осуществлять их полнотекстовое индексирование и на этой основе осуществлять поиск хранимых текстовых документов по элементам их содержания. [23]
Все перечисленное показывает ключевую роль технологий управления информацией в электронных библиотеках. Развитие этих технологий обогащает функциональные возможности электронных библиотек. В свою очередь, возникающие в многочисленных разработках электронных библиотек различного назначения новые требования к технологиям управления информацией стимулируют их дальнейшее развитие.
Конечно же, сфера применения технологий управления информацией не ограничивается электронными библиотеками. Однако анализ наиболее значимых тенденций развития этого пласта информационных технологий, сформировавшихся и зарождающихся в последние годы, даст возможность оценить перспективы развития разработок в области электронных библиотек.
Создание Всемирной паутины, развитие информационных технологий, процессы формирования информационного общества - все это стимулирует быстрый рост объема информационных ресурсов, поддерживаемых в информационных системах, в частности, и в электронных библиотеках. Темпы роста информационных ресурсов особенно интенсифицировались в последнее десятилетие. Именно в этот период сформировались указанные выше предпосылки. [25]
Достигнутые масштабы объема информационных ресурсов, генерируемых, хранимых и обращающихся в различных сферах жизнедеятельности, уже не позволяют обойтись перечнем единиц измерения, которые стали привычными и широко используются на практике - биты, байты, килобайты (Kb), мегабайты (Mb), гигабайты (Gb), терабайты (Tb) и, наконец, петабайты (Pb). Введены в лексикон специалистов новые единицы измерения объема информации - экзабайт (Exabyte, Eb = 1K петабай-тов), зетабайт (Zettabyte, Zb = 1K экзабайтов) и йо-табайт (Yottabyte, Yb= 1Kзетабайтов).
Исследования, направленные на получение оценки объемов накопленных человечеством информационных ресурсов и темпов их ежегодного роста, проводятся в Калифорнийском университете (Беркли) в Школе управления информацией и информационных систем (School of Information Management and Systems) при поддержке компаний Microsoft, Intel, Hewlett-Packard и EMC.
В 1999 и 2002 гг. в рамках указанного проекта были получены оценки хранимых на машиночитаемых носителях информационных ресурсов, а также объемов потоков информации - телефон, радио, TV, Интернет, печатных изданий и документооборота организаций. Объемы информации, представленной в аналоговом виде, для сопоставимости пересчиты-вались в объемы эквивалентной оцифрованной информации. По материалам этого проекта поддерживается «живой» документ в Web.
Приведем лишь несколько оценок, представленных в этом документе. В 2002 г. продуцировано около 5 Eb новой информации. Из них около 92% хранится на магнитных носителях. В период 1999- 2002 гг. объем хранимой информации возрастал в среднем на 30% в год и за три года примерно удвоился. Объем оцифрованных информационных ресурсов Библиотеки Конгресса США мог бы составить 10 терабайтов. Примерно в 2 Pb можно оценить объем ресурсов всех университетских библиотек США. Объемы информационных ресурсов Web в 2002 г. могут быть приблизительно оценены следующим образом: стандартный гипермедийный Web ("Surface" Web) 167 Tb; «скрытый» Web (FTP-архивы и базы данных, доступные в среде стандартного Веб) - 92 Pb. [29]
Без сомнения, можно предполагать, что в составе этих гигантских объемов информационных ресурсов значительную долю составляют информационные ресурсы электронных библиотек. Так, например, чрезвычайно крупной коллекцией информационных ресурсов обладает прототип «цифровой Земли» - Alexandria Digital Earth Prototype (ADEPT) [13], разработанный в рамках проекта электронной библиотеки Alexandria совместно университетами в Санта Барбара и Лос-Анджелесе (Калифорния), Техническим научно-исследовательским институтом и университетом штата Джорджия (США). Другими крупными коллекциями информационных ресурсов обладают электронные библиотеки, созданные в области космического зондирования земной поверхности и экологического мониторинга.
В ряде источников отмечается характерный для многих областей научных исследований в последние годы экспоненциальный рост данных, полученных в результате научных экспериментов, наблюдений, измерений, компьютерного моделирования. Так, этот факт отмечается в области молекулярной биологии для последнего десятилетия. В астрономических исследованиях также имеют место высокие темпы роста объема данных, накапливаемых в обсерваториях. Объем этих данных примерно удваивается за период от шести двенадцати месяцев. Крупнейшими «генераторами» информационных ресурсов являются исследования в области физики частиц, проводимые в ряде крупных исследовательских центров (ЦЕРН, Стэн-фордский университет и др.). Как известно, именно потребности управления гигантскими объемами данных, которые генерируются на современных ускорителях, привели к рождению грид-технологий и концепции грида данных.
Возможности использования коммуникационной среды Интернет и Web-технологий в разработках электронных библиотек и других информационных систем стимулировали процессы распределения и глобализации как формирования коллекций информационных ресурсов, так и доступа к ним. Глобальный доступ к информационным ресурсам системы в любой точке, где имеется доступ в Интернет, и в любое время является одним из необходимых условий отнесения такой информационной системы к категории систем, которые принято называть электронными библиотеками.
Наряду с электронными библиотеками, коллекции информационных ресурсов которых администрируются централизованно, создаются такие электронные библиотеки, коллекции которых поддерживаются во множестве автономно формируемых и администрируемых децентрализованным образом источников, доступных в глобальной среде. [30]
Примерами крупных электронных библиотек такого вида являются международная электронная библиотека по общественным наукам RePec и выступающая в ней в качестве одного из источников информационных ресурсов, а также и в виде крупной самостоятельной научной электронной библиотеки Отделения общественных наук РАН, отечественная система Соционет.
К электронным библиотекам рассматриваемого вида можно отнести и другие многочисленные системы регионального, национального и международного уровня, например, корпоративные библиотечные системы. К их числу относятся, в частности, крупнейшая международная система OCLC WorldCat, а также отечественная автоматизированная система Российского сводного каталога по научно-технической литературе.
В электронных библиотеках рассматриваемого вида и в других информационных системах используются различные подходы и методы интеграции информационных ресурсов.
Важной тенденцией последнего десятилетия в развитии технологий управления информацией стала интеграция таких технологий в реализациях многочисленных конкретных систем. Наряду с информационными системами вообще и системами электронных библиотек, в частности, основанными на каком-либо одном из пластов технологий управления информацией (технологии баз данных, Web-технологии, технологии текстовых систем) имеются многочисленные примеры совместного использования различных сочетаний этих технологий в рамках одной системы. [31]
Многие организации стали обладать источниками структурированных данных наряду с текстовыми системами. Стремление к упрощению технологических процессов в организации в таких ситуациях и необходимость интеграции информационных ресурсов привели к производству СУБД, способных поддерживать наряду со структурированными данными также и текстовые документы и выполнять их поиск по запросам пользователей. Развитыми средствами текстового поиска обладают в настоящее время многие серверы баз данных, например, DB2 (IBM), Oracle (Oracle Corp.), SQL Server (Microsoft Corp.) и др.
Другое развивающееся направление интеграции технологий управления информационными ресурсами - это интеграция технологий баз данных и Web-технологий. Доступность коммуникационных возможностей Интернет и комфортный доступ пользователей в среду Web с помощью легко осваиваемых программ просмотра - Web-браузеров - стимулировали обеспечение удаленного доступа к базам данных в этой среде многих пользователей без необходимости разработки специальных средств пользовательского интерфейса. Разработки новой технологической платформы Web, основанной на языке XML, привели к созданию нового класса систем баз данных, называемых XML-ориентированными системами. Разработка технологий семантического Web и создание широко признанных стандартных средств описания онтологий создают предпосылки для решения одной из важных перспективных задач развития технологий баз данных - создание пользовательских интерфейсов в системах баз данных, основанных на онтологиях предметной области системы. Актуальность решения этой задачи была отмечена на состоявшейся в июне 2003 году Лоуэлл-ской дискуссии (штат Массачусетс, США) о перспективах развития технологий баз данных, в которой участвовал ряд крупнейших специалистов в области технологий баз данных.
Развитые комплексы инструментальных средств систем баз данных, соответствующих стандартам платформы XML, поддерживаются в настоящее время SQL-серверами баз данных компаний Oracle, IBM, Microsoft и других поставщиков программного обеспечения систем баз данных. Углублению интеграции технологий баз данных и Web-технологий способствует также завершенная в 2003 году ISO разработка новой версии стандарта объектно-реляционного языка запросов для систем баз данных SQL-2003. В составе этого стандарта имеется компонент SQL/XML, обеспечивающий интеграцию технологий SQL-баз данных и XML-технологий. [32]
Нужно отметить также еще одно активно развиваемое направление интеграции технологий управления информационными ресурсами. Оно связано с Web-технологиями и технологиями текстового поиска. После создания Всемирной паутины и интенсивного наращивания ее информационных ресурсов стало ясно, что навигационный доступ к информационным ресурсам, который обеспечивается технологиями этой системы, не может эффективно удовлетворять информационные потребности пользователей. Для решения этой проблемы в Web начали использоваться традиционные технологии текстового поиска. Стали создаваться поисковые машины Web, которые сегодня активно используются многими миллионами пользователей этой гигантской электронной библиотеки.
Сегодняшние версии таких систем радикально отличаются от ранних их версий функциональными возможностями, учитывают особенности поиска ресурсов в Web, существенно отличающиеся от условий поиска в традиционных системах текстового поиска. Действительно, в отличие от традиционных систем текстового поиска, в Web нет централизованного администрирования информационными ресурсами, не поддерживаются метаданные коллекций, существенную роль играют взаимосвязи между документами с помощью гиперссылок, огромные объемы пространства поиска, высокая динамичность информационных ресурсов - изменчивость состава коллекции и отдельных документов (вебстраниц). При поиске в Web необходимо учитывать также низкое качество документов, связанное с легкостью публикации ресурсов в этой среде и отсутствием администрирования, многоязычность ресурсов, значительная избыточность коллекций - наличие многих копий документов, содержащихся на разных Web-сайтах и т.д.
В разработках информационных систем с использованием рассмотренных вариантов интеграции технологий управления информационными ресурсами каждый из базовых пластов таких технологий привносит свои специфические возможности в создаваемые системы. Их можно кратко охарактеризовать следующим образом:
1.На основе технологий баз данных обеспечиваются полнофункциональное управление структурированными данными, обработка запросов в терминах поддерживаемой модели данных и в транзакционном режиме, хранение традиционных текстовых ресурсов и XML-документов и эффективный доступ к ним в среде хранения с использованием техники индексирования данных и других методов прямого доступа.
2.Технологии текстового поиска привносят возможности поддержки естественных языков в качестве языков пользовательского интерфейса, использование различных подходов к структуризации содержания текстовых документов, представленных в системе, и пользовательских запросов, сформулированных на естественных языках.
.Вклад Web-технологий состоит в обеспечении распределения информационных ресурсов между узлами Интернет и возможности децентрализованного управления ими, глобального доступа к информационным ресурсам в среде Web без предъявления высоких требований к квалификации пользователей благодаря существованию средств навигационного доступа, обеспечении поддержки семантики информационных ресурсов средствами технологий Web нового поколения, основанного на стандартах платформы XML (семантический web), и, соответственно, доступа к ним на семантическом уровне. [33]
Одним из следствий указанных тенденций интеграции технологий стало индустриальное производство ряда серверов баз данных, которые уже неправомерно, строго говоря, относить к продуктам указанной категории. Это, скорее, теперь уже технологические «комбайны». Действительно, такие, например, продукты, как сервер баз данных Oracle Database 10g или флагманский программный продукт для систем баз данных компании IBM - сервер баз данных DB2 Universal Database v.8 - способны не только выполнять функции управления традиционными объектно-реляционными SQL-базами данных. Они могут эффективно оперировать текстовыми, пространственными и мультимедийными данными. Как уже отмечалось, они поддерживают также важнейшие стандарты платформы XML, управляют XML-ориентированными базами данных, обладают Web-интерфейсами, поддерживают технологии потоков работ, интеграции бизнес-процессов и выполняют многие другие функции.
В развитии технологий управления информационными ресурсами можно проследить также тенденцию конвергенции, идейного сближения разных пластов указанных технологий, их взаимного влияния, миграции проверенных временем идей и концепций из одних областей в смежные технологические области. Эта тенденция наиболее масштабно проявляется в разработках технологий Web нового поколения. Рассмотрим кратко, каким образом это происходит на примере стандартов платформы XML, где можно обнаружить воплощение многих идей, заимствованных из технологий баз данных.
Прежде всего, о значительном влиянии традиционных «базоданновых» подходов на эту область убедительно свидетельствует активное применение в ее техническом лексиконе таких терминов, как «модель данных», «база данных», «схема», «метаданные», «ограничение целостности», «язык запросов» и др. [42]
Как и в системах баз данных, в Web нового поколения предусматривается многоуровневая архитектура данных - различаются хранимые данные («хранимые сущности» XML, файлы - физический уровень) и XML-документы (логический уровень). Физическое и логическое представления данных определяются по принципу самоописываемости с помощью встроенных метаданных, выраженными средствами XML-разметки. Для логического представления XML-данных может быть определена отчужденная от них схема (DTD и/или XML Schema). Более высокий уровень абстракции данных в архитектуре XML-данных - семантический уровень. Для описания семантики XML-документов используются RDF-спецификации в терминах понятий, определяемых описанием онтологии предметной области. Онтологии описываются средствами языков RDFS или OWL, и это описание представляет онтологический уровень архитектуры.
Со структурной точки зрения, XML-документ является частным случаем записи базы данных CODASYL, представляющей собой иерархию элементов данных, которые могут быть простыми (атомарными), повторяющимися группами, в том числе, и с переменным числом повторений. В записи базы данных CODASYL, однако, могут содержаться производные (виртуальные) элементы данных. Более развитым является и множество типов данных, представляющих значения атомарных элементов данных записи.
Как и в технологиях баз данных, фундаментальным понятием в рассматриваемых Web-технологиях является понятие модели данных, хотя оно и интерпретируется в отличие от современной «базоданно-вой» трактовки не как инструмент моделирования данных, а как его результат - как структура XML-документа. В рамках многоуровневой архитектуры данных Web, основанного на платформе XML, поддерживается комплекс моделей данных (в «базоданновом» смысле). На логическом уровне используются альтернативные модели: (XML + XQuery), DOM, XPath, (XML + XSLT). На семантическом уровне предоставляется модель данных (RDF + SPARQL). Наконец, для уровня онтологий создается вариант полнофункциональной модели (OWL + язык правил). Язык SPARQL - это язык запросов консорциума W3C в терминах RDF-спецификации [42]. Язык правил для семантического Web находится в настоящее время в стадии разработки. Требования к одному из возможных претендентов на роль стандарта такого языка в настоящее время обсуждаются в W3C, и он получил название Rule Interchange Format (RIF). [49]
Приведенные факты, убедительно подтверждают наличие тенденции конвергенции технологий управления информационными ресурсами.
Хотя проблема интеграции данных в различных ее постановках привлекает внимание специалистов по управлению данными уже около трех десятилетий, до недавнего времени связанные с нею разработки все еще не выходили из стен исследовательских лабораторий. Однако в последние годы создание систем интеграции данных стало весьма актуальным направлением практических разработок информационных систем различного назначения, в том числе и электронных библиотек.
Под интеграцией данных в информационных системах понимается обеспечение единого унифицированного интерфейса для доступа пользователей к совокупности автономных источников данных, которые, как правило, обладают неоднородностью относительно некоторых их свойств.
Проблема интеграции данных характеризуется большим разнообразием постановок задач, подходов и методов, используемых для их решения. Обсуждению различных аспектов технологий интеграции данных посвящены многочисленные публикации в периодике, в трудах многих авторитетных научно-технических конференций.
В исследования систем интеграции данных чаще всего рассматриваются случаи интеграции структурированных данных либо комбинации структурированных и слабоструктурированных данных. При этом принимаются во внимание логическая (различие моделей данных источников, различие схем и т.п.) и/или семантическая неоднородность источников данных (различие онтологий). Состав источников интегрируемых данных может быть статическим и динамическим. Содержимое источников может быть неизменным или изменяемым.
Рассматриваются разнообразные способы интеграции - материализованная и виртуальная, а также разные уровни интеграции - логическая и семантическая интеграция.
При использовании материализованной интеграции данных создается новый материализованный источник интегрированных данных, который используется автономно от породивших его источников. При необходимости его состояние приходится синхронизироваться с их актуальным состоянием.
В случае виртуальной интеграции, напротив, не предусматривается создание нового материализованного источника интегрированных данных, Система интеграции поддерживает виртуальный источник, который в любой момент времени «содержит» актуальные данные интегрируемых источников, и синхронизации его состояния не требуется. Права владельцев исходных интегрируемых источников сохраняются. Они продолжают автономно поддерживать их в своих интересах, предоставляя вместе с тем права доступа к их ресурсам пользователям системы интеграции данных в соответствии с установленным регламентом. Авторизованные пользователи системы интеграции получают непосредственный доступ только к виртуальному источнику, воплощаемому данной системой.
Используются различные подходы к построению архитектуры данных систем виртуальной интеграции. Наиболее популярной является архитектура посредника-адаптеров. Посредник - это функциональный компонент системы интеграции данных, который обеспечивает поддержку глобальной схемы для интегрированного виртуального источника и организует обработку пользовательских запросов, выраженных в терминах глобальной схемы, декомпозируя их на подзапросы, адресуемые соответствующих источникам, осуществляя композицию получаемых частичных результатов и выдачу полного результата пользователю. Адаптеры источников обеспечивают их «гомогенизацию», представляют информационные ресурсы источников однородным образом в терминах глобальной модели данных, принимают на обработку подзапросы от посредника, активизируют их обработку источником и возвращают полученные результаты посреднику.
На практике чаще всего используются две разновидности архитектуры данных систем виртуальной интеграции с посредником - Global as View и Local as View. Они различаются способами определения отображений между схемами данных источников и глобальной схемой.
Первая из них (Global as View) предусматривает определение глобальной схемы в терминах схем локальных источников. Такой подход более эффективен в случае, когда множество всех используемых источников предопределено. При использовании второй разновидности рассматриваемой архитектуры (Local as View) предполагается, что схема для каждого из локальных источников данных определяется в терминах глобальной схемы. Хотя в этом случае усложняется отображение пользовательских запросов в среду локальных источников данных, такой подход имеет важное достоинство - он допускает динамичность состава множества интегрируемых источников данных. Новые источники данных могут подключаться к системе как на стадии разработки, так и на стадии функционирования.
Обратимся теперь к уровням интеграции данных. В системах логической интеграции данных преодолевается неоднородность интегрируемых источников информационных ресурсов относительно поддерживаемых ими моделей данных и/или схем данных. Эта неоднородность преодолевается динамически - на стадии исполнения. В то же время, семантическая неоднородность данных, принадлежащих разным источникам, преодолевается на стадии разработки. В системах семантической интеграции данных семантическая неоднородность данных из разных интегрируемых источников преодолевается на стадии исполнения.
В проблематике семантической интеграции данных важное место занимают разработки, связанные с использованием онтологических спецификаций предметной области. При этом в системе интеграции поддерживаются общая онтология системы и частные онтологии отдельных интегрируемых источников, обеспечиваются отображения между частными онтологиями и общей онтологией. Исследования и разработки по семантической интеграции данных в последние годы весьма активно проводятся в области молекулярной биологии. Оригинальный подход к семантической интеграции информации с использованием развитой семантической модели данных в качестве канонической модели данных посредника, а также разработанного авторами метода построения предметных посредников, реализуется в проекте Института проблем информатики РАН.
Интеграция неструктурированных данных также стала попадать в последние годы в сферу проблематики систем интеграции данных.
Своеобразный класс систем интеграции представляют системы, основанные на технологии Инициативы открытых архивов (Open Archives Initiative, OAI). В большинстве известных систем этой категории их информационные ресурсы представляют собой коллекции текстовых документов, чаще всего научных публикаций, которые автономно формируются в узлах глобальной сети, поддерживаются и администрируются их владельцами. Важно заметить, однако, что информационные ресурсы открытого архива не обязательно должны быть текстовыми документами. Это могут быть также структурированные или слабоструктурированные данные, а также смесь структурированных, слабоструктурированных и/или неструктурированных данных.
В соответствии с технологией OAI, предусматривается материализованная интеграция в едином репозитории не самих информационных ресурсов, интересующих пользователей системы интеграции, а представленных некоторым стандартным образом метаданных, описывающих коллекции информационных ресурсов источников данного архива и отдельные элементы этих коллекций. Сбор таких метаданных для репозитория осуществляется в соответствии со специально разработанным протоколом Open Archives Initiative Protocol for Metadata Harvesting. Централизованно поддерживаемый репозиторий метаданных доступен сервису открытого архива, который обрабатывает запросы его пользователей.
Примерами электронных библиотек, основанных на принципах и технологии OAI, являются уже упоминавшиеся выше международная электронная библиотека по общественным наукам RePec и отечественная электронная библиотека по общественным наукам Соционет.
Одним из важных аспектов систем интеграции данных является архитектура таких систем. В многочисленных известных проектах систем интеграции данных можно обнаружить не только различные подходы к архитектуре данных, но и некоторое разнообразие других аспектов их архитектуры - архитектуры взаимодействия функциональных компонентов системы интеграции, их сетевой архитектуры и др. Так, на практике часто используется не только архитектурный подход «клиент-сервер», но и децентрализованная архитектура P2P. В этом случае обычно не поддерживается глобальная схема интегрированных информационных ресурсов, и используются попарные отображения представлений данных узлов (peer), обменивающихся данными. Кроме того, часто используются архитектура промежуточного слоя, а также Web-сервисная архитектура.
В связи с востребованностью и активным развитием грид-технологий, особое внимание уделяется в настоящее время технологиям интеграции данных на основе гридов данных. Практическая реализация возможных в этой области подходов существенным образом связана с созданием комплекса стандартов, необходимых для разработки основанных на них систем интеграции данных. Важную роль в этом направлении играет деятельность консорциума Global Grid Forum (GGF) - признанного органа стандартизации грид-технологий. Недавно Рабочая группа консорциума Database Access and Integration Services Working Group опубликовала спецификации WS-DAI (Web Service Data Access and Integration), определяющие интерфейсы Web-сервисов, обеспечивающих доступ к источникам данных, независимо от модели данных, в терминах которой представляются их информационные ресурсы. Кроме того, разработаны расширения этих спецификаций для реляционных и XML-ориентированных систем баз данных (WS-DAIR и WS-DAIX). Тем самым созданы основы стандартизации доступа к информационным ресурсам указанного вида в среде, основанной на грид-технологиях, которая, как известно, базируется на Web-сервисной архитектуре. Обзор указанного семейства спецификаций можно найти в работе. Полные их тексты доступны на Web-сайте консорциума GGF (#"justify">В последнее время проблеме интеграции информационных ресурсов уделяется большое внимание поставщиками индустриальных технологий. Наиболее развитые средства для решения этой проблемы основаны на архитектуре промежуточного слоя. К этой категории относится, например, IBM WebSphere Information Integrator - технология компании IBM для интеграции неоднородных структурированных, слабоструктурированных и неструктурированных данных. Продукты семейства Data Hub компании Oracle обеспечивают интеграцию структурированных данных из множества неоднородных источников с использованием большого набора конверторов данных, ориентированных на преобразование многочисленных форматов представления данных.
Важнейшей тенденцией развития технологий управления информацией в последние годы стала конструктивно осуществляемая на уровне индустриальных технологий попытка обеспечения доступа пользователей к информационным ресурсам на уровне семантики. Исследовательские работы в этой области проводятся с разной степенью интенсивности уже более трех десятилетий. В технологиях баз данных в 70-80-х гг. создавались семантические модели данных, велись работы на стыке технологий баз данных и баз знаний. Были созданы различные прототипы. Однако результаты этих исследований не привели к созданию индустриальных технологий. Эта проблема вновь была поставлена на повестку дня участниками упоминавшейся ранее Лоуэллской дискуссии о перспективах развития технологий баз данных. Цели дискуссии состояли в том, чтобы оценить вызовы времени и сформулировать перспективные, с точки зрения экспертов-участников, направления развития технологий баз данных. В отчете о дискуссии в качестве одного из таких направлений признается использование подходов текстовых систем и семантического Web, позволяющих формулировать запросы на основе онтологий в терминах предметной области.
В области технологий текстового поиска еще во второй половине 60-х годов под руководством основателя современных технологий текстового поиска Дж. Сэлтона проводились исследования и разработки методов поиска текстовых документов на основе их содержания, была предложена векторная модель поиска. Сегодня эти подходы широко используются во многих создаваемых системах текстового поиска в качестве основы поисковых механизмов. В последние годы в области систем текстового разработаны подходы, использующие в процессе поиска документов формальные или полуформальные онтологии предметной области.
Что касается Web-технологий, то именно с указанной целью создателем Всемирной паутины Т. Бернерсом-Ли во второй половине 90-х годов была провозглашена задача создания семантического Web - Web нового поколения, который, в отличие от действующей версии Web, ориентирован на взаимодействие не только с человеком, но и способен обеспечить совместную работу с его ресурсами человека и компьютерных агентов. Технологии семантического Web успешно разрабатываются консорциумом W3C.
Для решения указанной проблемы необходимо стандартизовать средства явного описания семантики информационных ресурсов и средства пользовательского интерфейса семантического уровня. В настоящее время консорциум W3C располагает стандартом RDF описания контента информационных ресурсов. Завершается разработка языка запросов в терминах RDF-спецификации ресурсов (язык SPARQL). Кроме того, разработаны полуформальные и формальные языковые средства описания онтологий - стандарты RDFS и OWL. Наконец, создается язык правил для работы на уровне онтологий, который позволит реализовать методы логического вывода в среде, поддерживающей указанные стандарты семантического Web.
Нужно, наконец, отметить, что в системах текстового поиска, а также в рамках Web-технологий, широкое применение для описания контента информационных ресурсов в настоящее время находит неформальное средство - набор элементов метаданных Дублинского ядра [20], который имеет статус
официальных стандартов ISO (стандарт ISO: 15836-2003) и ANSI (стандарт ANSI/NISO Z39.85-2001). Дублинское ядро весьма привлекательно благодаря его простоте. Однако оборотной стороной этих его достоинств является некоторая размытость описания, связанная с неоднозначностью трактовки смысла отдельных входящих в него элементов метаданных, а также отсутствие стандартизации представления значений некоторых из них.
Одна из проблем, возникающих в информационных системах при выдаче пользователю информации в ответ на введенный им запрос, заключается в том, чтобы предоставлять пользователю информацию именно в том объеме, в котором он ее запрашивал. Иначе говоря, гранулярность доступа должна соответствовать информационной потребности пользователя.
Выполнение этого требования всегда обеспечивается в системах баз данных. Так, в реляционной системе базы данных результатом обработки запроса всегда является таблица (или представление), включающая только столбцы, которые указаны в целевом списке запроса. Если в запросе предусмотрена операция селекции, то результирующая таблица будет включать только строки, соответствующие заданному критерию селекции.
Указанное требование не всегда выполняется в системах текстового поиска и при доступе к информационным ресурсам в Web. В традиционных системах текстового поиска в результате обработки пользовательского запроса всегда выдается результирующее множество полных документов, даже если пользователя интересуют лишь какие-либо фрагменты этих документов. Подобным образом, в действующей версии Web пользователь может, используя навигационный доступ, всегда извлечь только полную Web-страницу или получить с помощью поисковой машины Web список гиперссылок на полные Web-страницы.
Создаваемые в настоящее время новые технологии управления информационными ресурсами позволяют обеспечить более мелкую гранулярность доступа. С этой целью для систем текстового поиска разрабатываются технологии «вопрос-ответ». Используя их, можно получать в ответ на запрос не полные документы, а их фрагменты, содержащие ответы на сформулированные в запросах пользователей вопросы. В тематике международной конференции Text Retrieval Conference (TREC) [44], которая является движущей силой деятельности по сопоставимой сравнительной оценке эффективности разрабатываемых систем текстового поиска путем проведения сопоставимых испытаний на тестовых коллекциях, предусматривается специальная дорожка, посвященная указанной проблеме.
Что же касается уменьшения гранулярности доступа в Web, то эта проблема решается средствами XML-технологий. В частности, при использовании в качества языка запросов XQuery или XPath в ответ на запрос можно получать не только специфицированные в нем полные XML-документы, но и их фрагменты. Интерфейсы, поддерживающие указанные языки, в настоящее время уже используются в целом ряде XML-ориентированных СУБД. В дальнейшем они будут использоваться и собственно в среде Web, а также в различных репозиториях, поддерживающих XML-данные.
Уже отмечалось, что Web является "средой обитания" электронных библиотек. Поэтому радикальные технологические сдвиги, осуществляемые в этой среде, связанные, прежде всего, с созданием для нее новой технологической платформы, не могут не оказывать влияния на развитие информационных систем этого класса.
Ограничимся здесь кратким перечислением наиболее существенных направлений использования стандартов платформы XML в электронных библиотеках.
К числу указанных направлений относятся:
·Представление коллекций электронных информационных ресурсов в электронных библиотеках.
·Обеспечение навигационного доступа к информационным ресурсам по гиперссылкам с помощью средств, привычных для пользователей Web.
·Обеспечение интерфейсов языков запросов для доступа к информационным ресурсам, представленным в виде XML-документов, на основе элементов их содержания. В качестве языков запросов могут использоваться XQuery, XPath, XSLT, SPARQL.
·Использование представленных с помощью стандартов XML информационных ресурсов в рамках продвинутых Web-приложений, являющихся функциональными компонентами электронных библиотек.
·Использование XML как языка-посредника для обмена данными между различными компонентами распределенных электронных библиотек или различными взаимодействующими электронными библиотеками, в которых Web служит средой транспорта данных.
·Использование стандартов платформы XML для представления метаданных, описывающих свойства информационных ресурсов электронных библиотек. Для этих целей могут использоваться как средства самого языка XML (описание типов документов DTD), так и языковые средства стандартов XML Schema и RDF.
·Предоставление разработчикам электронных библиотек инструментальных средств систем баз данных нового класса (XML-ориентированных баз данных), обеспечивающих эффективную поддержку коллекций информационных ресурсов XML и развитые возможности доступа к ним.
·Использование XML-ориентированных моделей данных в качестве интегрирующих моделей для интеграции данных в электронных библиотеках.
·Предоставление средств описания онтологий (стандарты RDFS, OWL) для электронных библиотек, позволяющих оперировать информационными ресурсами на семантическом уровне.
Глава II. Практика организации электронных ресурсов крупнейших российских библиотек
2.1 Российская государственная библиотека
В рамках национальной задачи формирования в России информационного общества и интеграции в международное информационное общество путем обеспечения свободного доступа пользователей к разнообразным информационным ресурсам проект создания электронной библиотеки РГБ направлен на достижение следующих целей:
обеспечение доступности документов, предоставление которых читателям затруднено или ограничено (редких книг, фотоальбомов, рукописных книг, диссертаций, архивов, недоступных большинству библиотек, и т. п.);
обеспечение доступа к информации, существующей исключительно в электронной форме;
предоставление пользователям качественно новых возможностей работы с большими объемами машиночитаемых данных;
целенаправленное информационное обеспечение различных областей науки, культуры, образования путем создания и предоставления полнотекстовых баз данных в режиме теледоступа. [60]
Ожидаемые результаты
1. Единая база данных (фонд), содержащая электронные документы с единым пользовательским интерфейсом доступа из одной точки ко всем коллекциям, составляющим базу данных ЭБ.
2. Система метаданных ЭБ, в первую очередь - электронный каталог.
3. Технология надежного накопления, сохранения и использования электронных документов.
Функциональные требования
1.Электронная библиотека РГБ должна обеспечивать пользователям:
доступ к разнородным электронным документам в базе данных ЭБ из одной точки (в среде одного экрана) благодаря единому интерфейсу, включающему единообразно организованные средства поиска в разнородных электронных коллекциях;
возможность единообразно организованного и оперативного поиска в больших объемах разнородной информации;
реализацию новых форм библиотечного и информационного обслуживания пользователей.
2. Требования к обеспечению сохранности книжного фонда:
полученные в результате оцифровывания документов электронные копии должны быть такого качества, чтобы не было необходимости изготавливать повторные копии для нужд микрофильмирования или факсимильного переиздания документа;
цифровые копии печатных документов должны предоставлять эффективный доступ к содержанию оригиналов, способствовать сокращению количества их выдач читателям. [60]
3. Требования к библиотечной технологии:
формирование фонда электронных документов путем сканирования и, в случае необходимости, посимвольной обработки печатных документов;
ведение электронного каталога (ЭК) электронной библиотеки (ЭКЭБ), совместимого с ЭК РГБ, и последующее их слияние;
обработка текстовой информации, изображений, графики, видеоинформации;
архивирование, хранение и защита электронных документов.
Читательское назначение
ЭБ РГБ ориентирована на широкие круги пользователей и решает следующие основные задачи:
просветительскую, в рамках которой формируются коллекции, направленные на распространение общих знаний об истории, культуре, географии, политике России, как в целом, так и по отдельным аспектам;
научную, направленную на содействие глубокому изучения темы (предмета) научными работниками и специалистами высокого уровня подготовки; для РГБ приоритетными аудиториями являются библиотекари, книговеды, культурологи, специалисты в области общественных и гуманитарных дисциплин;
образовательную, в рамках которой осуществляется поддержка как формального, так и неформального образования, путем предоставления не только учебного материала, но и необходимой дополнительной литературы в виде авторитетных монографий;
справочную, направленную на необходимость удовлетворения потребности в информации одноразового характера по широкому кругу знаний; основу составляют издания энциклопедического характера;
фондообразующую - ЭБ будет дополнять традиционный фонд РГБ документами, имеющимися только в электронном виде, и восполнять существующие в фонде лакуны за счет легитимного приобретения электронных копий с печатных документов. [60]
Правовые вопросы
1. В основе работы по формированию ЭБ лежат следующие Законы Российской Федерации:
О библиотечном деле; предоставляет правовую основу для создания электронных библиотечных фондов (статья 12, пункт 3);
Гражданский кодекс РФ (часть четвёртая, вступившая в силу с 1 января 2008 г.) устанавливает авторские права на программы для ЭВМ и электронные издания;
О правовой охране программ для электронных вычислительных машин и баз данных; определяет специфику использования, взаимоотношения собственника и пользователя баз данных;
Об участии в международном информационном обмене; предусматривает договорные отношения между собственниками электронных документов и пользователями, указывая при этом, что сам факт оказания информационной услуги не создает для последнего права авторства на полученную документированную информацию. Этим законом также предусмотрен механизм правового регулирования - лицензирование деятельности библиотек по международному информационному обмену;
Об информации, информатизации и защите информации (глава 4); регулирует отдельные аспекты библиотечно-информационной деятельности, связанные с созданием и использованием баз данных, электронных каталогов и картотек.
. При формировании ЭБ и ее предоставлении пользователям принимаются во внимание следующие правовые положения:
РГБ является создателем, держателем и распространителем своей ЭБ и ее фрагментов; иное решается в рамках договорных отношений с партнерами;
переводу в электронную форму подлежат издания, на которые истек срок действия закона Об авторском праве; в случае действия авторских прав с их владельцем заключается договор, регулирующий право РГБ выставлять документ от своего лица и на условиях, определяемых самой РГБ;
заимствование электронных документов, произведенных другими лицами или организациями, осуществляется на договорной основе с соблюдением обоюдных интересов, лицензионной и правовой чистоты электронного документа;
в случае принятия законодательного акта, возлагающего на РГБ функции депозитарного хранения электронных документов и предоставления права получения экземпляра электронного документа в обязательном порядке, особым образом оговаривается право РГБ на включение этих документов в ЭБ и условия их предоставления пользователям;
при включении в состав ЭБ документов из общедоступных информационных сетей необходима экспертиза их лицензионной и правовой чистоты. [60]
Состав электронной библиотеки
1. По содержанию:
ЭБ является универсальной по содержанию и включает все виды документов.
Хронологические рамки для документов, включаемых в ЭБ, не устанавливаются.
В качестве приоритетного направления развития ЭБ выбрана тема Россия: история, культура, вклад в мировую цивилизацию. На этой основе производится формирование электронных коллекций с определением приоритетов и форм предоставления их пользователям.
ЭБ формируется как на основе сложившихся коллекций изданий (карты, ноты, книги определенного периода), так и путем формирования новых электронных коллекций - тематических, хронологических, предметных, а также по признаку ценности.
В ЭБ включаются электронные коллекции, создаваемые для информационного обеспечения крупных комплексных программ или проектов (особенно государственного или международного значения), актуальных проблем развития человеческого общества и окружающей среды, включая электронные коллекции для поддержки конкретных исследований и разработок, например, междисциплинарных.
2. По степени доступности:
·Собственно информационные массивы, установленные в сети Интернет/ Интранет.
·Архивы - информационные массивы, не установленные в сети Интернет/Интранет.
·Резервные копии.
3. По видам предоставления информации:
·электронные текстовые эквиваленты печатных изданий - книг, журналов и других, когда предполагается, что содержащаяся в них текстовая информация дана в форме, допускающей посимвольную обработку (отдельные фрагменты в таких эквивалентах изданий могут быть представлены как целостные графические образы);
·электронные образы печатных изданий или рукописных материалов, элементы которых (например, страницы, рисунки, фотографии и т. д.) представляются как целостные графические образы;
·базы данных, отвечающие требованиям, предъявляемым к электронным изданиям;
·новые формы публикаций - электронные объявления, материалы электронных конференций, электронные препринты, электронные сообщения и некоторые другие виды, доступные потребителям через телекоммуникационные сети;
·специальные издания: электронные публикации аудио- и видеоинформации. [60]
Принципы, источники и организация комплектования
1. РГБ будет формировать электронные коллекции, с одной стороны, на основе своих особо ценных коллекций документов в традиционном смысле, определяя их ценность с точки зрения развития мировой и отечественной культуры. С другой стороны, создание конкретного информационного продукта может определяться пользовательским спросом, подкрепляемым соответствующим финансированием. Во втором случае препятствиями могут служить только нарушения законодательства или морально-этических норм.
2. Определяются следующие основные источники комплектования полных текстов документов для ЭБ:
·получение электронных документов из внешних источников (сайты в Интернете, приобретение электронных документов на оптических компакт-дисках, передача полных текстов документов в машиночитаемой форме авторами/правообладателями);
·сканирование документов из фонда РГБ сторонними организациями на основе договоров с РГБ;
·сканирование текстов из фонда РГБ в ее подразделениях;
·передача в ЭБ электронных версий своих традиционных публикаций сотрудников РГБ;
·создание сотрудниками РГБ электронных документов, не имеющих бумажных аналогов.
3. Принимается следующий порядок формирования фонда ЭБ:
·проекты создания электронных коллекций для включения их в ЭБ подаются отдельными специалистами, коллективами, администрацией РГБ или сторонними организациями;
·проекты и списки включаемых в электронные коллекции документов рассматриваются на заседании Координационного совета по оцифровыванию изданий. Право выноса проектов на утверждение Совета директоров РГБ принадлежит только Координационному совету;
·проекты электронных коллекций и списки документов на сканирование силами РГБ утверждаются Советом директоров РГБ;
·проект может быть принят как централизованный (в рамках РГБ) и децентрализованный;
·автор(ы) проекта первого типа обязан(ы) разработать перечень включаемых в ЭБ документов и для каждого из них составить паспорт оцифровки, в котором указывается его объем, размеры, требования к способу оцифровывания различных частей и качеству получаемого изображения. Технологические и организационные вопросы решаются в рамках централизованного сканирования;
·автор(ы) принятого Советом директоров РГБ проекта второго типа разрабатывает(ют) его полностью, включая технологию и организационные аспекты; условия внедрения такого проекта определяются Советом директоров РГБ после завершения техно-рабочего проектирования;
·решения относительно заключения договоров о сканировании документов из фонда РГБ сторонними организациями принимается также Советом директоров РГБ;
·отбор полных текстов документов из внешних источников осуществляется Управлением комплектования фондов РГБ; отбираются наиболее значимые и необходимые документы;
·контроль выполнения договоров на сканирование осуществляется Технологическим отделом РГБ. Основные направления контроля: выдача документов на сканирование и их возврат; передача файлов исполнителем; выполнение финансовых условий; общие вопросы выполнения договора;
·для выполнения сканирования силами РГБ организуется специальное подразделение в рамках Отдела поддержки ЭБ (ОПЭБ) (группа сканирования). Для обучения специалистов группы и формирования технологии обработки полнотекстовых документов привлекается по договору подрядная организация;
·приемка, проверка, регистрация и резервное копирование электронных документов производится силами ОПЭБ. [60]
4. Каждый объект, включаемый в ЭБ, классифицируется по уровням в соответствии с рекомендациями ИФЛА (1998), согласно которым его можно интерпретировать как произведение, выражение (форму выражения), воплощение (форму воплощения, например, публикацию) или физическую единицу (например, экземпляр).
В соответствии с характером конкретной коллекции принимается решение о том, какие из этих типов объектов отображаются в ней. От этого зависит качество и количество электронных версий документа, включаемых в конкретную коллекцию, а именно:
·для рукописей, ценных и редких изданий формируются электронные копии экземпляров (физических единиц);
·в книговедческие коллекции включаются различные воплощения (издания) одного и того же произведения;
·для авторских (произведения одного автора) или тематических коллекций достаточно сделать копии одного-двух наиболее полных и выверенных воплощений (например, академических изданий) произведения, т. е. в такой коллекции собираются формы выражения произведения в виде одного-двух его воплощений (изданий);
·для музыкального произведения, выпущенного в форме нотного издания в данном исполнении несколько раз, в коллекцию может быть внесена электронная копия какого-либо одного воплощения (издания), если цель - собрать формы выражения произведения, в этом случае даются исполнения соответствующего произведения. Если собираются в электронной коллекции музыкальные произведения конкретного композитора, то выбирается только одно издание одного исполнения (формы выражения) для каждого произведения.
5. На основе такой интерпретации уровней документа формируются также критерии идентичности электронной копии печатному оригиналу, т. е. задаются условия, при которых электронная копия считается идентичной печатному оригиналу в данной электронной коллекции.
6. Для каждого документа устанавливаются возможности его будущего использования в электронном виде, что влияет на качественные характеристики сканирования и определяет целесообразность распознавания образов знаков в тексте. [60]
В частности, возможны следующие варианты:
·факсимильное переиздание документа в книжной форме;
·вывод изображений страниц на экран и их распечатка в соответствии с оригиналом при сохранении фона, цвета, пометок или без их сохранения;
·архивное хранение электронной версии документа с фиксацией его постраничной структуры и вывод определенных страниц на экран и печать;
·хранение и вывод на экран и печать документа без требования воспроизведения вида страниц оригинала;
·выделение структурных фрагментов электронного документа (содержания, введения, глав, списка литературы, приложений);
·поиск по сочетаниям знаков (словам, формулам и т. д.) в тексте одного электронного документа или полнотекстовой базе данных;
·гипертекстовый поиск в документе и/или массиве документов.
Структура электронной библиотеки как системы
1. ЭБ РГБ формируется как единая база данных, состоящая из электронного каталога электронной библиотеки (ЭКЭБ) и фонда ЭБ.
. РГБ стремится в будущем объединить ЭК РГБ и ЭБ в единую систему на основе общего программного обеспечения. Основой для объединения ЭКЭБ и ЭК РГБ является единый формат библиографических записей MARC21.
. Фонд ЭБ будет иметь трехуровневую структуру: коллекция (и ее метаинформация) - документ (и его метаинформация) - объект (и его метаинформация).
4. Структуры данных в ЭБ могут состоять из нескольких составляющих с различными типами данных, могут быть связаны с другими материалами связями типа часть/целое или последовательность. Электронный документ может состоять из страниц, глав, индексов, иллюстраций и других элементов, может физически сохраняться в виде нескольких файлов, содержащих текст и графику со связями между ними. Однако любой отдельный документ, состоящий из нескольких файлов, собирается в один файл и снабжается титульным листом. На каждый многостраничный документ, включаемый в ЭБ, формируется новый титульный лист. [60]
Технология каталогизации электронных документов
1. Каталогизация электронных документов, включаемых в ЭБ РГБ, осуществляется в соответствии с международными и отечественными нормативами, действующими в сфере библиографического описания документов: (ER);