Веб-архивы. Большая российская энциклопедия

Веб-архи́вы, цифровые архивы копий веб-сайтов, доступных как HTML-текст в исходном оформлении. Веб-архивы начали появляться после появления Веба (Всемирной паутины). Основные акторы в этой сфере – государственные организации, библиотеки и некоммерческие организации (НКО). В целом архивацией Веба занимаются разные организации. Можно выделить следующие группы веб-архиваторов:

1) крупные исследовательские проекты и некоммерческие фонды презервации, например: Internet Memory Foundation, Internet Memory Research, e-diaspora;

2) национальные архивы, например: Netarkivet (Дания), Russian National Digital Archive (Россия), Hrvatski arhiv weba (Хорватия), Kulturarw3 (Швеция), Pandora и Australian Web Archive (Австралия);

3) государственные архивы (архивы определённых государственных агентств или всех государственных сайтов определённой страны), например: North Carolina State Government Web Site Archives, UK Government Web Archive, University of North Texas CyberCemetery;

4) архивы крупных библиотек (чаще занимающиеся кураторским отбором архивируемого контента, сбором коллекции), например: Deutsche Nationalbibliothek, Bibliothèque et Archives nationales du Québec (BAnQ), PROMISE project, Library of Congress Web Archives;

5) коммерческие решения (чаще нужны для «прицельной» архивации, используются юристами и криминалистами, для маркетинг-исследований, для резервного хранения веб-страниц компаний и т. п.), например: PageFreezer.com, WebPreserver.com, SAPERION, Aleph Archives;

6) любительские архивы, сделанные сообществами по интересам. Например, первая архивная копия сайта kli.org, платформы для изучения клингонского языка, сделана только в 2001 г. При этом на самом сайте расположен архив тематической email-конференции со множеством параллельных веток, функционирующей с 1993 г. Другой пример любительской архивации – российский Клуб FDD5-25, который вручную восстанавливает сайты 1990–2000-х гг.;

7) отдельные архивы, собранные исследователями индивидуально или в небольшой команде под нужды конкретного проекта.

Самый популярный и на данный момент наиболее полный открытый архив принадлежит некоммерческой организации Internet Archive и доступен для просмотра при помощи сервиса Wayback Machine (web.archive.org). Многие из перечисленных выше архивов закрытые, некоторые находятся в ограниченном доступе.

Архивация сайтов

Можно выделить две основных стратегии, которые используют организации для пополнения фондов: 1) курируемая архивация, при которой отбором занимаются сотрудники или пользователи, и 2) «краулинг» (crawling) – использование специальной программы – «паука» (spider), или «краулера», путешествующего по ссылкам с одной страницы на другую (например, Internet Archive разработал популярный краулер Heritrix). Технически краулинг происходит так: программа отбирает страницы случайных сайтов и создаёт их копию от определённого времени определённой даты. Сайты обычно состоят из нескольких страниц; т. о., копия сайта – это совокупность копий, сделанных в разные моменты времени существования сайта с целью его документации.

В 2001 г. Internet Archive запустил сервис просмотра заархивированных страниц Wayback Machine, который предлагает удобную навигацию по хронологии всех архивированных копий определённой страницы. Для каждого сохранённого адреса страницы есть хронологическая лента, с помощью которой можно смотреть, как эта страница выглядела в тот или иной день. Чтобы сохранять много мультимедийных копий сайта в одном файле, Internet Archive и другие архивы используют особый формат хранения файлов – ARC, иногда используется формат WARC.

Веб-архивы и история Интернета

Файлы WARC можно выкачивать и количественно обрабатывать (например, с помощью платформы The Archives Unleashed Toolkit) или репрезентировать для просмотра (как это делают проекты Wayback Machine или Archive-It). Это активно используется исследователями истории Веба. В 2010 г. группа интернет-исследователей опубликовала два отчёта о современном состоянии исследований по веб-архивам (Heuvel. 2010; Researcher Engagement with Web Archives. 2010). В отчётах авторы отмечают, что у веб-архивов есть большой потенциал в качестве исторических источников, но реальное количество вовлечённых исследователей пока довольно невелико. Авторы предложили историкам Интернета и веб-архивистам объединяться в группы для обмена знаниями и выработки новых методов сохранения Интернета и его исследований.

С постепенным развитием истории Веба, эти два направления деятельности (исследовательская и архивная работа) оказываются тесно переплетены. Историки Веба начинают всё больше работать с веб-архивами, кооперироваться с разработчиками и архивистами и влиять на архивную практику. В 2024 г. точнее будет говорить не о двух профессиональных группах, а о двух разных видах деятельности. И архивированием, и историческими исследованиями может заниматься один и тот же человек/организация. Например, историк Веба Й. Миллиган занимается не только историческими исследованиями, но и разработкой удобных для количественных исследований форматов архивных корпусов и специальных программ доступа к ним (The Archives Unleashed Toolkit).

Другой пример – проект Rhizome. Под руководством разработчика, художника и исследователя Драгана Эспеншида историки и архивисты разработали эмулятор исторически важных веб-браузеров – Oldweb.today. С помощью этой онлайн-программы архивные копии сайтов можно посмотреть через интерфейс современного им браузера (например, Mosaic, Netscape), а не через современный браузер (например, Safari, Google Chrome), как они показываются по умолчанию в большинстве архивов. Это важно для более исторически точного визуального отображения сайтов и репрезентации исторического опыта использования интерфейса.

Ещё один пример – программа Memento Protocol (Memento. 2009). Историки и архивисты, которые её разработали, предположили, что для исследований недостаточно знать только день, в который был заархивирован сайт: иногда важным оказывается знание точного времени. К тому же время архивации важно знать не только для веб-страницы, но и отдельно для каждого элемента веб-сайта: меню, картинок, блоков текста и т. д. Внимание к точному времени архивации элементов важно, потому что на сохранение одного сайта может уходить около суток. За это время, пока алгоритм архивирует первую половину страницы, вторая может успеть поменяться (например, на сайте СМИ обновится раздел с новостями). Протокол Memento работает и как самостоятельный сайт-архив, и как расширение для браузера и позволяет узнать время архивации с точностью до часа и минуты, тем самым добавляя в веб-архивы категорию поминутного времени как таковую.

Проблема отбора сайтов

Сайты появляются и обновляются с большой скоростью, и сохранить все сайты, которые когда-либо существовали, невозможно. В 2006 г., как пишут М. Доэрти с коллегами (Researcher Engagement with Web Archives. 2010), общий объём информации существующих сайтов уже превышал содержимое всех существующих книг, фильмов и аудиопроизведений. На тот момент Internet Archive содержал в себе 3 петабайта (3 × 10¹⁵ байт) данных и растёт со скоростью 100 терабайтов (100 × 10¹²) архивных данных каждый месяц. При этом даже в крупнейшем из веб-архивов Internet Archive некоторые сайты не заархивированы вообще, а для каких-то сайтов доступны всего 1–2 снимка разных лет (т. е. все изменения, которые происходили с сайтом в другие годы, не заархивированы).

Библиотека Конгресса США называет отбор материала одной из главных проблем при организации архивов цифровых материалов (Library of Congress. 2009). Можно предположить, что и любой другой архивной организации так или иначе приходится решать этот вопрос. Существуют и попытки кооперации между разными акторами: так, с 2003 г. работает Международный консорциум по сохранению Интернета (International Internet Preservation Consortium), который занимается разработкой стандартов архивации и программ. Сейчас общей политики по тому, что и как сохранять, не существует, каждая организация решает этот вопрос по-своему. В основном сейчас те дискуссии, которые посвящены вопросу «что сохранять» и вышеперечисленным проблемам, акцентируют внимание на технологических решениях, а не на парадигмах, определяющих, что важно, а что нет (Milligan. 2016; Researcher Engagement with Web Archives. 2010; Espenschied. 2017).

Проблема сохранения и репрезентации контекста веб-сайтов

Современные практики архивации не учитывают интерактивность и связь цифрового объекта с другими объектами при разработке софта и стратегий архивации. Это оказывается особенно важно при работе историков с нет-артом, цифровым искусством (Espenschied. 2017). Многие нет-арт-проекты изначально интерактивны, и, чтобы их сохранить, приходится разрабатывать особые инструменты и подходы к работе с этими цифровыми объектами (см. антологию исторического интернет-искусства Net Art Anthology, составленную в рамках проекта Rhizome). Чтобы сохранить эти свойства, архивация истории Веба не должна сводиться к сохранению веб-сайтов, надо обращать внимание и на инфраструктуру, обеспечивающую особый пользовательский опыт.

Щетвина Анна Антоновна