Связанные открытые данные
Свя́занные откры́тые да́нные (англ. Linked Open Data – LOD), данные, которые одновременно являются открытыми и связанными. Для их описания используются стандартные веб-технологии, такие как HTTP, RDF и URI. Т. Бернерс-Ли, директор Консорциума Всемирной паутины (англ. World Wide Web Consortium, W3C) ввёл термин «семантический Веб», подразумевая под этим развитие Интернета из «сети связанных документов» в «сеть связанных данных» (Berners-Lee. 2001), имея в виду преобразование Интернета из набора опубликованных документов, доступных по URL-адресу и в основном ориентированных на человека, в связанные открытые данные (Berners-Lee. 2009). Основная идея LOD заключается в решении задач интеграции данных, представленных в сети, для чего предлагается представить информацию в формализованном виде, что делает её доступной для машинной обработки. Бернерс-Ли выделяет четыре принципа связанных данных:
Первый принцип – использование URI-ссылок не только для идентификации веб-документов и цифрового контента, но и для идентификации объектов реального мира и абстрактных понятий. Это могут быть материальные вещи, такие как люди, места и автомобили, и более абстрактные, такие, как отношения.
Второй принцип – использование HTTP URI для идентификации объектов и абстрактных понятий, что позволяет этим URI быть разыменованными в соответствии с протоколом HTTP в описание выявленных объектов или понятий.
Третий принцип – использование Resource Description Framework (RDF) в качестве единой модели данных для публикации структурированных данных Всемирной паутины (Веба) – простой модели, основанной на графах, разработанной для использования в Вебе.
Четвертый принцип – использование RDF-утверждений для получения ссылок на другие URI, чтобы установить связи. Например, может быть установлена ссылка между человеком и местом или между местом и компанией. В отличие от классического Веба, где гиперссылки не типизированы, гиперссылки, которые соединяют вещи в контексте связанных данных, имеют типы.
Организация специального пространства связанных данных Linked Data основывается на практических решениях для публикации и связывания структурированных данных. Термин «LOD» описывает ту часть данных Linked Data, которая находится в открытом доступе и соответствует сформулированным выше четырём основным принципам. Идея LOD оказалась очень привлекательной для различных организаций. Оказались взаимосвязанными самые различные типы ресурсов, которые представляют интерес для пользователей библиотек с точки зрения обогащения данных как структурно, так и семантически. Совокупность связанных открытых данных часто изображают в виде облака. На рисунке изображено это облако по состоянию на май 2020 г.
Т. Бернерс-Ли предложил также 5-звездочную схему для оценки качества открытых данных в Интернете (Holborn. 2014):
1 звезда: данные в каком-либо формате находятся в открытом доступе;
2 звезды: данные доступны в структурированном формате, например в формате файла Microsoft Excel (.xls);
3 звезды: данные доступны в непатентованном структурированном формате, таком как значения, разделённые запятыми (.csv);
4 звезды: данные соответствуют стандартам W3C, таким как использование RDF и использование URI;
5 звёзд: данные соответствуют всем перечисленным выше критериям и присутствуют ссылки на другие источники связанных открытых данных.
Главная проблема уже существующих наборов LOD в 2022 г. – проблема разнообразия терминов и разобщённость данных. В разных наборах данных могут использоваться различные онтологии для описания модели данных. Классический случай представляют библиографические онтологии, которые описывают модель данных для ведения библиографических записей печатных изданий. Часто встречаются библиотеки, контент которых представляет собой набор тематических ресурсов, для поддержки которых составляется соответствующая онтология. Например, в качестве ресурсов могут выступать некоторые мультимедийные объекты, для описания которых классические библиографические онтологии, такие как BIBO или SPAR, непригодны. Эти проблемы являются следствием нестандартизованности процесса публикации набора данных в пространство LOD, а также иллюстрируют важность тщательного выполнения интеграции и реализации возможностей семантического поиска.
Публикация связанных данных в Интернете
Для просмотра данных и навигации из одного набора данных в другой при использовании ссылки RDF нужен подходящий браузер. Некоторые браузеры связанных данных, такие как Tabulator RDF Browser, Disco Hyperdata Browser, OpenLink Data Explorer, ObjectView, Marbles, Sigma, очень популярны.
На сегодня основной набор RDF связанных данных представлен проектом DBpedia.org – это представление информации из Википедии в структурированном виде. DBpedia.org позволяет задавать сложные запросы к Википедии и связывать другие наборы данных в Интернете с данными Википедии.
LOD в библиотеках
Большое внимание представлению библиотечных данных уделяет IFLA – международная ассоциация библиотечных организаций. В течение последних лет разработаны несколько моделей представления библиотечных данных в формате LOD (RFBR, LRM); и ряд библиотек реализовали эти подходы, в том числе Библиотека Конгресса США, Британская библиотека, Национальная библиотека Франции. Национальная библиотека Швеции впервые выпустила национальную библиографию LIBRIS в виде связанных данных. Венгерская национальная библиотека опубликовала каталог и тезаурус.