Семантическая цифровая библиотека
Семанти́ческая цифрова́я библиоте́ка, цифровая библиотека, в которой для расширения и улучшения функциональности используются технологии семантического Веба. В таких библиотеках данные лучше структурированы, выделены связи между ними, улучшается поиск, появляется возможность интегрировать данные различных типов. Обеспечивается интероперабельность с другими системами (не обязательно библиотеками), т. к. основной задачей семантических технологий является предоставление метаданных в машиночитаемом формате. Важный современный этап эволюции библиотек.
Цифровые библиотеки
Цифровые библиотеки можно считать развитием электронных библиотек, которые предоставляли удалённый доступ (через Интернет или по другим каналам связи) к данным обычных библиотек. Цифровые библиотеки решают те же задачи поиска и хранения контента, что и электронные библиотеки, но существенно расширяют свою функциональность и определение своего контента. Во-первых, контент библиотеки становится мультимедийным. Это значит, что значениями атрибутов её информационных объектов теперь могут выступать различные мультимедийные объекты, которые доступны для просмотра средствами самой цифровой библиотеки. В качестве мультимедийных объектов могут выступать совокупность аудио-, видео-, фото- и текстовых материалов. Во-вторых, расширяется функциональность за счёт решения некоторых задач интеграции как метаданных, так и медийных объектов из внешних источников, доступных по сети.
Основные свойства семантических цифровых библиотек
Основным свойством семантических библиотек является возможность структурирования их разнообразного контента и связывания данных из разных источников, что в свою очередь, несомненно, отражается на качестве данных контента.
Основные задачи, которые должна решать семантическая цифровая библиотека:
Библиотека должна поддерживать возможность использования медийных объектов или ссылки на них при описании своих объектов, включая текст, аудио-, видеофайлы или любую их комбинацию. Это требование отражается в названии словом «цифровая».
Типы используемых ресурсов и связи между ними должны быть описаны средствами системы в рамках определённых в предыдущей работе понятий, составляющих семантическое описание ресурсов контента библиотеки. При этом, согласно принципам связанных открытых данных (LOD), при описании ресурсов поддерживается использование классов и свойств ранее используемых онтологий в сообществе, поддерживающем LOD. Эта поддержка выражается либо в непосредственном использовании готовых онтологий при описании ресурсов и связей между ними, либо возможностью ссылок на их элементы, используя связи на уровне описания ресурсов. Это требование отражается в названии словом «семантическая».
Библиотека должна быть «открытой», т. е. являться интеграционным узлом, предоставляющим возможность связывания своих данных с данными из разных источников, которые включены в облако LOD. Должна также обеспечиваться возможность извлекать данные этой библиотеки в машиночитаемом формате.
Пользователи библиотеки должны иметь возможность организовывать свои коллекции по интересующему их научному направлению, добавляя новые термины в предметный тезаурус, уточняя таким образом область своих интересов, т. е. библиотека должна предоставлять возможности персонализации. Пользователи должны также иметь возможность осуществлять поиск не только среди объектов в рамках системы, но и по источникам данных, без необходимости использования специализированного языка для поисковых запросов.
Основная функциональность семантической цифровой библиотеки
Функциональность для всех публичных пользователей:
просмотр ресурсов и их структуры;
атрибутный и семантический поиск и навигация по доступным ресурсам системы;
атрибутный и семантический поиск по источникам данных;
просмотр общедоступных коллекций информационных объектов.
Авторизованному пользователю семантическая цифровая библиотека обеспечивает дополнительно следующую функциональность:
определение своей таксономии или расширение своей ветви определённого в системе основного терминологического тезауруса. Фактически обеспечивается поддержка создания т. н. аннотационных онтологий или онтологий пользователей (фолксономий), которые представляют собой коллективный словарь пользователей, составленный в результате процесса проставления ими тегов для ресурсов;
определение собственной коллекции ресурсов, основанной на использовании таксономии;
организация совместных тематических коллекций для групп пользователей;
атрибутный и семантический поиск по источникам данных с возможностью сохранения результатов поиска.
Администратор системы имеет доступ ко всей вышеопределенной функциональности и может воспользоваться дополнительной, доступной только ему функциональностью:
по запросу пользователей расширять описания типов ресурсов или создавать новые;
по запросу пользователей включать их объекты ресурсов в общедоступный список объектов;
для групп пользователей делать доступными возможности редактирования определённых типов ресурсов или таксономий;
редактировать группы и роли пользователей и набор доступных им операций;
осуществлять редактирование и настройку основного терминологического тезауруса и его связей.
Примеры реализации
В рамках цифровой библиотеки поддерживаются авторитетные файлы (для авторов, редакторов, издательств), таксономии, используемые для классификации по темам, тезаурус WordNet для ключевых слов. Каждый ресурс описывается тремя типами метаданных: структурными, библиографическими и социальными. Каждый тип метаданных поддерживается соответствующими сервисами. Пользователю предоставляется комбинированное представление на основе этих метаданных. Основные модели для описания ресурсов, пользователей и их взаимодействия – это библиографическая онтология MarcOnt, онтология FOAF, модель знаний SKOS для описания таксономий.
Одной из глобальных реализованных цифровых библиотек является проект Europeana, который интегрирует данные из институтов культурного наследия Европы. Многоуровневая организация провайдеров контента предназначена для автоматической оценки контента на соответствие модели данных Europeana Data Model (EDM), которая была разработана в рамках проекта. В рамках этой модели данных определены наборы классов и свойств для описания объектов культурного наследия. Одно из преимуществ EDM – это возможность соблюдения принципов связанных данных при описании ресурсов. Масштаб этой библиотеки одновременно является и одним из препятствий для возможности «индивидуальной тематической» работы пользователя и скорее позволяет причислить её к глобальным семантическим библиотекам, среди которых также можно указать DBpedia.org, являющуюся ядром облака LOD.
В России, в Вычислительном центре Федерального исследовательского центра «Информатика и управление» Российской академии наук разработана персональная открытая семантическая библиотека LibMeta с системой поддержки работы пользователей с цифровыми ресурсами библиотек и их коллекциями для определяемой предметной области.