Метаданные
Метада́нные, данные, которые описывают свойства ресурсов, используемых в информационных технологиях. К числу таких ресурсов относятся, в частности, структуры данных и базы данных, программные продукты, веб-сайты и веб-серверы, электронные библиотеки, каталоги и классификаторы содержащихся в них информационных объектов и сами эти объекты, онтологии предметных областей и др.
Далее будут рассматриваться главным образом метаданные, описывающие свойства ресурсов данных. Приведённое во многих публикациях определение «метаданные – это данные о данных» слишком абстрактно и, кроме того, не учитывает, что в настоящее время метаданные служат для описания свойств не только данных, но и многих других видов ресурсов информационных технологий. В связи с этими иными видами ресурсов наряду с термином «метаданные» иногда используется также термин «метаинформация».
Хранение и обработка данных в компьютерных системах, обмен данными между ними и доступ к ним пользователей невозможны без метаданных, явно представляющих описания свойств этих данных. Такие описания необходимы программным средствам, выполняющим указанные функции, а также пользователям – для оценки возможности применения имеющихся данных в различных ситуациях, для интерпретации и анализа их содержания, для формулировки запросов.
Метаданные, описывающие свойства данных, служат для обеспечения корректного управления ими, их понимания и использования. Управление данными заключается в совокупности процессов их создания и хранения, оперирования и администрирования такими ресурсами. Администрирование данными обеспечивает их целостность и физическое сохранение, эффективность доступа к ним, своевременную актуализацию, предоставление прав доступа пользователям.
Создание метаданных часто требует значительных усилий и существенных затрат, которые, однако, повышают ценность данных, обеспечивают более широкие возможности их использования.
Развитие информационных технологий и сферы их применения привело к расширению функций метаданных и их многообразия. Средства представления метаданных и управления ими созданы и развиваются как для информационных, так и для других компьютерных систем. При этом содержание метаданных, их функции и средства их представления зависят от используемых информационных технологий, функциональных возможностей и предметной области использующих их систем, природы описываемых ресурсов, контекста и характера их использования, а также от многих других факторов.
Несколько конкретных примеров метаданных из различных областей информационных технологий:
Схема базы данных. Эти метаданные являются основой функционирования систем баз данных. Схема базы данных описывает структуру и другие свойства контента базы данных. При выполнении реструктуризации базы данных с помощью предназначенной для этого утилиты администратор базы данных использует метаданные – схему базы данных в качестве данных. Таким образом, категоризация информационного ресурса в качестве метаданных является относительной и соответствует характеру его использования.
Информационная схема в языке SQL. В последних версиях стандарта языка SQL реализована (хотя и в ограниченной форме) ранняя идея интеграции системы словаря–справочника данных и системы управления базами данных (СУБД). В языке предусмотрено представление схемы базы данных в форме набора обычных таблиц и представлений (англ. views) базы данных, которыми можно оперировать с помощью тех же средств языка, которые используются для оперирования таблицами и представлениями пользовательских данных. В результате базы данных, которые управляются СУБД, основанными на языке SQL, стали самоописываемыми – они содержат пользовательские данные вместе с описывающими их метаданными (схемой базы данных). Этот пример также показывает относительный характер категоризации информационного ресурса как метаданные. В таких случаях метаданные выступают одновременно в роли данных базы данных. При этом фрагмент схемы базы данных, описывающий таблицы и представления информационной схемы, представляет собой метаметаданные. Таким образом, метаданные могут быть многоуровневыми.
Поисковый образ и ряд атрибутов документа в информационно-поисковой системе. В ранних документальных информационно-поисковых системах каждый документ представляется его поисковым образом, который идентифицирует этот документ, характеризует его содержание набором дескрипторов и заменяет этот документ в процессах обработки пользовательских запросов. Поисковый образ исходного документа является его метаданными. Метаданными текстовой публикации в электронных библиотечных каталогах служат также её библиографическое описание и аннотация, рубрики тематических классификаторов, к которым она относятся, индекс DOI и другие её характеристики.
Теги гипертекстовой разметки. Появление гипертекстовых технологий, Всемирной паутины, комплекса стандартов XML и XML-баз данных предусматривает использование гипертекстовой разметки исходных представлений HTML-страниц Веба, а также XML-документов в Вебе и системах баз данных, работающих с такими ресурсами. Рассматриваемые метаданные позволяют веб-браузерам формировать представление страниц Веба на экране пользователя. СУБД помимо этого использует теги разметки XML-документов, хранящихся в базе данных, для их поиска по запросам пользователей.
Описание ресурсов семантического Веба. Создание систем, основанных на знаниях, и технологий семантического Веба позволило явным образом представлять и использовать для поиска и логического вывода семантику данных, а также онтологию предметной области. Для их описания активно используются, в частности, язык RDF, языки описания онтологий, в том числе RDFS, OWL и OWL2, а также профили языка OWL2.
Диаграммы языка UML. Диаграммы этого языка объектного анализа и проектирования являются средством многоаспектного описания разрабатываемого программного обеспечения в CASE-системах.
Описание интерфейса брокера объектных запросов на языке описания интерфейсов IDL (англ. Interface Definition Language) стандарта CORBA. Брокер является центральным функциональным компонентом распределённых интероперабельных информационных систем с архитектурой промежуточного слоя. Стандарт CORBA разработан консорциумом Object Management Group (OMG) – крупнейшим в мире консорциумом – разработчиком программного обеспечения, основанного на объектных технологиях.
Описания свойств ресурсов научных информационных систем. В научных информационных системах метаданные позволяют описывать свойства используемых в них данных, связанные с особенностью предметной области исследований. Вместе с тем часто необходимы описания характеристик научных приборов, с помощью которых они получены, мест и времени регистрации полученных данных, компьютерных модельных экспериментов и др.
Описания контента, сервисов электронных библиотек, профили авторов и пользователей содержащихся в них публикаций. Метаданные в современных электронных библиотеках описывают контент библиотеки в целом, составляющие его коллекции информационных ресурсов, отдельные ресурсы, содержащиеся в коллекциях, их классификаторы, связи между ними, организации, владеющие информационными ресурсами библиотеки, профили их авторов и пользователей библиотеки, ряд других информационных объектов и сервисов таких систем.
Классификация метаданных
Возможны различные подходы к классификации метаданных – по их функциям, по уровням семантической абстрактности, по их свойствам, по уровням информационной архитектуры, к которым относятся описываемые ресурсы, а также по ряду других критериев. Далее приводится один из вариантов классификации метаданных по их назначению.
Административные метаданные. Служат для обеспечения управления и администрирования ресурсами данных (см. выше), а также для поддержки выполнения аналогичных функций по отношению к другим ресурсам информационных технологий.
Дескриптивные метаданные. К этому классу относятся, например, схемы баз данных, средства идентификации и описания свойств коллекций информационных ресурсов и отдельных составляющих их ресурсов, каталожные записи электронных библиотек и информация для помощи при поиске в них, индексы DOI публикаций, профили авторов, издателей и пользователей.
Метаданные цифрового сохранения. Предназначены для управления сохранением информационных ресурсов. Метаданные этого класса описывают физические условия сохранения ресурсов, предпринятые действия для физического сохранения, сведения о цифровых версиях ресурсов, об изменениях, которые были произведены во время их оцифровки и сохранения.
Технические метаданные. Включают, в частности, описание процесса функционирования систем, информацию о технологии проведённой оцифровки документов, данные аутентификации и обеспечения информационной безопасности (ключи шифрования, пароли).
Метаданные об использовании. Описывают характер использования ресурсов, в том числе возможность повторного использования, версии ресурсов, авторские права на ресурсы, включают журнал регистрации доступа пользователей и др.
Свойства метаданных
По свойствам и назначению различаются метаданные «горизонтальной сферы» (универсальные) и «вертикальной сферы» (специализированные). Универсальные метаданные, в отличие от специализированных, могут использоваться в различных областях информационных технологий и в разнообразных приложениях.
Конкретные состав и свойства метаданных зависят от особенностей использующей их системы, от характера описываемых метаданными ресурсов, от используемых информационных технологий, потребностей пользователей системы и от многих других факторов. Общие свойства метаданных, не специфичные для какого-либо конкретного случая их применения или вида описываемых ресурсов, перечислены ниже.
Категоризация ресурса в качестве метаданных относительна – в некоторых случаях они могут использоваться как данные (см. выше пример о схеме базы данных). Это означает возможность многоуровневости метаданных. Наряду с метаданными существуют метаметаданные, т. е. метаданные метаданных, выступающих в данном случае как данные. Аналогично существуют метаметаметаданные – метаданные метаметаданных и т. д. (см. выше пример об информационной схеме языка SQL). Другим примером могут служить метаданные в индустриальном стандарте Meta Object Facility (MOF), разработанном консорциумом OMG для управления метаданными в распределённых неоднородных интероперабельных объектных средах, основанных на архитектуре CORBA. В стандарте предлагается трёхуровневая архитектура метаданных – с уровнями метаданных, метаметаданных и метаметаметаданных соответственно.
Метаданные могут быть автономными (т. е. отчуждёнными) от описываемого ресурса (например, схема базы данных) или встроенными в его представление (совокупность тегов разметки веб-страницы).
Состав метаданных может зависеть или не зависеть от контента описываемых информационных ресурсов, а также от предметной области их использования.
Свойства метаданных информационного ресурса зависят от места этого ресурса в информационной архитектуре системы, в которой он используется.
Существуют метаданные, предназначенные для компьютерных систем, и метаданные для пользователей таких систем.
Метаданные могут быть представлены как структурированные (например, таблицы информационной схемы в SQL-базах данных), неструктурированные (например, текстовое описание) или слабоструктурированные данные (например, XML-документ).
Метаданные могут создаваться для ресурсов с различным уровнем гранулярности (отдельная публикация в электронной библиотеке и библиотека в целом).
Существуют формализованные и неформализованные метаданные. В информационных технологиях используются главным образом формализованные метаданные.
Функции метаданных
Метаданные выполняют разнообразные функции в использующих их системах. Конкретные функции и состав метаданных, как и их свойства, существенным образом зависят от информационных технологий, на которых базируется компьютерная система, от её функциональности, свойств поддерживаемых в ней информационных ресурсов, способов их организации в системе, особенностей задач их обработки, потребностей пользователей и от многих других факторов. Основные функции, выполняемые метаданными, следующие:
описание моделей предметной области;
описание источников данных;
описание отдельных информационных объектов;
описание семантики информационных источников, отдельных информационных объектов или их фрагментов;
описание представления данных на разных уровнях информационной архитектуры;
идентификация описываемых ресурсов;
обеспечение верификации данных;
предоставление пользователям сведений об описываемых ресурсах;
описание полномочий доступа к информационным ресурсам для механизмов управления доступом;
описание характеристик пользователей и их информационных потребностей;
обеспечение обнаружения и поиска информационных ресурсов;
распространение информационных ресурсов;
тематическая систематизация информационных ресурсов;
обеспечение анализа данных;
обеспечение интероперабельности и повторного использования информационных ресурсов;
описание глобальной схемы и отображений локальных схем в глобальную в системах интеграции данных из многих источников.
Средства представления метаданных
Для представления метаданных могут использоваться естественные языки, а также различные искусственные языки, такие как языки разметки, схемы метаданных, языки описания данных, графические средства. Ниже представлена краткая характеристика существующих средств представления метаданных.
Естественные языки. Такие языки обладают наиболее богатыми выразительными возможностями по сравнению с другими средствами представления метаданных, однако представленные их средствами метаданные не формализованы, и в силу этого не обеспечивается однозначность и строгость их интерпретации. Такие метаданные также не структурированы, что усложняет их компьютерную обработку.
Искусственные языки. Это большой пласт разнообразных языков. К их числу относятся языки описания данных СУБД, концептуального моделирования, описания онтологий, бизнес-процессов, потоков работ. К этой категории относятся, например, дескриптивный подъязык языка SQL, язык описания объектов ODL, язык описания интерфейсов IDL стандарта CORBA, языки консорциума W3C: OWL, OWL2, RDF, RDFS, язык XML-схем. Сюда же следует отнести языки разметки, схемы метаданных, визуальные языки и многие другие языки в различных областях информационных технологий.
Среди языков разметки наиболее популярны XML, HTML, XHTML, TeX (язык разметки математических текстов) и его оболочка LaTeX. Во многих системах метаданные представляются в виде XML-документов с определённой XML-схемой.
Схемы метаданных представляют собой особый вид искусственных языков, который стал в последние годы чрезвычайно популярным. Прототипом для их разработок в значительной мере стал набор элементов метаданных Дублинского ядра (англ. Dublin Core) – стандарта структурированных метаданных с нетипизированными значениями элементов.
Визуальные языки давно стали использоваться в CASE-технологиях. Наиболее популярным в этой области в настоящее время стал язык объектного анализа и проектирования UML. Основным средством представления метаданных в этом языке являются графические диаграммы нескольких видов, которые на стадии проектирования позволяют описать различные аспекты создаваемой сложной программной системы.
Структурированные, неструктурированные и слабоструктурированные данные. Метаданные могут быть представлены в виде структурированных данных: например, схема SQL-базы данных представляется в системе базы данных в виде таблиц и представлений уже упоминавшейся информационной схемы языка SQL. Аннотация публикации в электронной библиотеке в виде текстового документа – это пример представления метаданных средствами неструктурированных данных. Наконец, метаданные в форме XML-документа – пример их представления средствами слабоструктурированных данных.
Стандартизация метаданных
Средства представления метаданных значительно обогатились, в частности, благодаря развитию технологий семантического Веба, технологий электронных библиотек и ряда других новых пластов информационных технологий. Кроме того, стала актуальной необходимость обеспечения обмена метаданными между различными системами, обеспечения интероперабельности и повторного использования информационных ресурсов, интеграции данных из многих источников. Всё это вызвало активную деятельность по стандартизации метаданных. Деятельность в этой области активно проводится официальными международными и национальными органами стандартизации, индустриальными консорциумами, различными профессиональными сообществами.
Разработано большое число стандартов метаданных – как независимых от сферы применения (стандартов горизонтальной сферы), так и предназначенных для специфических применений (стандарты вертикальной сферы). К первой группе относятся, например, дескриптивный подъязык языка SQL, язык описания объектов ODL консорциума ODMG, стандарты консорциума OMG: язык UML, язык описания интерфейсов CORBA IDL, стандарты MOF и Common Warehouse Model (CWM); стандарты консорциума W3C: XML, XML Schema, RDF, RDFS, OWL, OWL2 с его профилями и язык описания интерфейсов веб-сервисов WSDL; набор элементов Дублинского ядра, поддерживаемый директоратом Дублинского ядра; язык моделирования бизнес-процессов BPML и многие другие. Международный стандарт ISO 15836 – универсальный набор метаданных Дублинское ядро – применим для описания любых информационных ресурсов. Его назначение состоит в том, чтобы поддерживать широкий поиск информации по небольшому количеству общеиспользуемых элементов описания ресурсов.
Среди стандартов вертикальной сферы значительное место занимают многочисленные стандарты научных метаданных, созданные для многих областей исследований. Из других стандартов вертикальной сферы следует назвать стандарты метаданных для целей делопроизводства и архивного дела (cтандарт ISO 15483-2001 «Информация и документация»). Существуют также стандарты, устанавливающие требования к составам (наборам) элементов метаданных, аналогичных Дублинскому ядру.