Большие данные в социологии
Больши́е да́нные в социоло́гии (англ. Big Data in Sociology), массивы данных, характеризующиеся большими объёмами, многообразием и скоростью генерирования, описывающие социальное взаимодействие посредством или с использованием преимущественно цифровых технологий, требующие специфических методов обработки и анализа, отличающихся от традиционной методологии социологии и смежных дисциплин. Выборка в больших данных часто тождественна генеральной совокупности либо отличается от традиционной большей полнотой, что повышает достоверность результатов исследования.
Технологические, и преимущественно сетевые, инновации 1-й четверти 21 в. обусловили возможность автоматизированного накопления беспрецедентно больших объёмов данных, характеризующих множество социальных процессов и, как следствие, обладающих существенным эвристическим потенциалом в контексте социальных исследований. В качестве примера теоретической модели подобных преобразований может быть использована концепция сетевого индивидуализма – нового габитуса социального взаимодействия, обусловленного тремя социотехнологическими процессами, названными «мобильной революцией», «революцией Интернета» и «революцией социальных сетей», в результате которых сформирована система перманентного доступа в сеть и поливариантного взаимодействия в ней посредством социальных ресурсов, выстроенных на основе архитектуры Web 2.0. Большие данные постепенно становятся доступными для анализа, коренным образом меняя ситуацию в социальных науках, методологический аппарат которых рассчитан на работу с выборочными совокупностями данных.
Термин «большие данные» ныне представляет собой собирательное название множества типов данных, обладающих рядом схожих характеристик. Р. Китчин выделяет характерные свойства больших данных: высокую скорость накопления (в том числе в режиме реального времени); исчерпывающий характер (сплошной учёт всех переменных внутри генеральной совокупности данных, а не их выборки); максимально возможную детализацию; дискретность данных (наличие множества атрибутов и переменных); возможность соотношения каждого кванта информации с конкретным событием, взаимосвязанность и гибкость (экстенсиональность, масштабируемость и возможность сочетания различных массивов данных) (Kitchin. 2014).
Объём подобных массивов данных может существенно варьироваться в зависимости от типа аккумулируемой информации, скорости её накопления и ограничений системы хранения, а также общего технологического контекста, определяющего сами понятия специализированного компьютерного оборудования. Под эти характеристики подпадают преимущественно данные, генерируемые посредством активности пользователей в сети Интернет, данные компьютеризированных систем (базы CCTV, метрики платёжных систем, контрольно-пропускные транспортные системы, «умные» дома и IoT и т. д.), а также оцифровка баз государственного учёта (перепись населения, судебная отчётность и т. д.). Подобные массивы данных, характеризующиеся как минимум несколькими из выделенных Р. Китчином признаками, представляют собой масштабные данные о поведении людей на микроуровне, совмещающие в себе крайне высокую степень детализации и исчерпывающий характер, что до недавнего времени было практически недостижимо посредством классических социологических исследовательских процедур.
Т. к. массивы больших данных генерируются, агрегируются и аккумулируются самостоятельно, они могут фиксировать информацию без соответствующего запроса исследователя, т. о. могут быть получены значимые результаты, не предполагавшиеся в момент формулирования гипотез и выстраивания дизайна исследования, усиливая эвристический потенциал исследования за счёт выявления неочевидных зависимостей и тенденций.
Априорная объективность больших данных подвергается сомнению, т. к. массивы формируются на основе учёта использования технологий, при этом как сами технологии, так и системы учёта разрабатываются и эксплуатируются людьми и этот процесс часто оказывается нелинейным и отличающимся от предполагаемого. Также исследователь может быть лишён возможности как влиять на инструмент сбора информации, так и наблюдать его в действии, что существенно затрудняет валидацию данных.
Деконструкция иллюзии объективности больших данных возможна посредством социологического исследования – комплексного изучения социального контекста производства данных, выявления и описания ложных корреляций, наличие которых объясняется искажениями, детерминированными как реальными практиками использования технологии, так и механизмами сбора информации. Для построения корректных выводов на основе полученных результатов в случае с большими данными необходимо осознавать сделанные допущения и существующие ограничения исследовательского дизайна.
Изменения в теоретико-методологическом аппарате современной социологии и смежных научных дисциплин проходит в общем контексте гегемонии технологического детерминизма, что не может не влиять на основные парадигмальные установки исследователей. Технократизм (рассмотрение технического прогресса как основного средства достижения общественного развития) на начало 2000-х гг. – один из доминирующих элементов государственной и корпоративной политики, медиадискурса и научной мысли. Мультипарадигмальность социологии детерминировала возникновение противоположных полюсов: с одной стороны – технологического детерминизма, основы для экспансии больших данных в социальных науках, игнорирующего гетерогенность социальных ситуаций, и социального конструктивизма, недооценивающего конструирующую силу технологий, – с другой.
В данном контексте двумя противоположными векторами дальнейшего развития социальных наук начинают выступать консервативная модель дедуктивной, «идущей-от-теории» науки и новая модель индуктивной, «идущей-от-данных» науки, основанной на поиске корреляций в массивах данных.
Радикально-эмпирический «идущий-от-данных» вектор развития исследований (Data Mining – исследования, ограниченные исключительно поиском закономерностей в массиве данных) представлен в статье К. Андерсона, провозглашающей «конец теории» и начало нового этапа развития социальных наук, основанного на анализе (в том числе автоматизированном) больших данных, нацеленном на поиск корреляций, а не на подтверждение теоретических каузальных моделей (Anderson. 2008). Основой маркетинговых исследований, ставших базой для данной концепции, является оптимизация бизнес-процессов и их прогнозирование, но не объяснение явлений, что в целом позволяет приверженцам этого подхода говорить о возможности полного отказа от формулирования гипотез, теоретических изысканий и других элементов академической науки, выполняющей иные задачи.
Важнейшее условие развития этой модели – открытость держателей данных, не все из которых готовы предоставить доступ к данным пользователей, особенно в контексте формирования внутри организаций собственных аналитических структур. В целом возможность доступа к данным представляет собой комплексный этически-правовой вопрос.
Эмпирическая индуктивная наука на основе Data Mining выстраивается на ряде допущений:
Большие данные исчерпывающе описывают срезы социальной реальности.
Работа с большими данными не требует знания теоретико-методологического аппарата социологии и смежных наук.
Использование больших данных и поиск всех возможных корреляций в них освобождает исследователя от ограничений исходных предположений, парадигмальных предпочтений и необходимости формулирования гипотез.
Любые корреляции и закономерности в больших данных значимы, содержательны и достоверны.
Подобные тезисы не обладают достаточной убедительностью для безоговорочной интеграции в теоретико-методологический аппарат современной социологии. Во-первых, большие данные – продукт комплексных социотехнических ассамбляжей, подверженный влиянию множества антропогенных и техногенных факторов. Они генерируются на основе выборочных совокупностей пользователей той или иной технологии – в условиях взаимовлияния самой технологии и практик её эксплуатации, помещённых в контекст целого ряда технологических и юридических ограничений, естественных и социальных факторов. Во-вторых, системы сбора данных эксплуатируются на основе кода, разработанного людьми, основной задачей которого является квантификация деятельности пользователей и её индексация на основе заранее определённых принципов и допущений. Квантификация, систематизация данных и их первичная интерпретация производится людьми, в том числе на основе их убеждений и гипотез, что противоречит тезису об априорной объективности подобных массивов данных. Исследования «социотехнического» демонстрируют, что не вся информация может быть квантифицирована, следовательно, достаточность больших массивов данных при изучении комплексных форм социального взаимодействия подвергается сомнению. В-третьих, выявленные корреляции могут показать взаимосвязанность двух переменных внутри имеющегося массива данных, но дальнейшее изучение и интерпретация полученных результатов невозможна без применения теоретико-методологического аппарата социальных наук. Сторонники радикально-позитивистского направления зачастую игнорируют вероятность возникновения ложных корреляций, а также пренебрегают возможностью применения гибридных и качественных методов социальных наук.
Менее радикальные, гибридные модели с использованием элементов «идущей-от-данных» науки подразумевают использование абдуктивного метода, представляющего собой построение первичных гипотез на основе имеющихся данных и их дальнейшую проверку классическим дедуктивным методом с использованием теоретико-методологического аппарата социальных наук. Частое несоответствие реальной и декларируемой последовательности исследовательских процедур выявлялось и раньше, в частности, уже были попытки концептуализации подобной двойственности через термины «SHARKing» (англ. Secretly Hypothesizing After Results Are Known – скрыто выстраивать гипотезы после получения данных) и «THARKing» (англ. Transparently Hypothesizing After Results Are Known – открыто формулировать гипотезы на основе полученных данных). Т. о., под действием «идущей-от-данных» науки изменяются практики представления результатов исследования, однако не формируется принципиально новая парадигма или методология.
Гибридная индуктивно-дедуктивная методология видится наиболее вероятным вектором дальнейшего развития теоретико-методологического аппарата социологии и смежных дисциплин, т. к. подобный подход в значительно большей степени подходит для работы с высокодетализированными и всеобъемлющими большими массивами данных.
В отличие от основной части естественно-научных дисциплин позитивизм, количественные методы и даже эмпиризм являются лишь частью теоретико-методологических оснований социологии и, как следствие, отвечают лишь на ряд вопросов о социальности, причём преимущественно в редукционистском ключе и на основе исчисляемых сущностей. Т. о., революционные перспективы больших данных в рамках количественных методов в значительно меньшей степени влияют на методологический аппарат качественной социологии и при ближайшем рассмотрении вряд ли могут стать причиной возникновения новой исследовательской парадигмы в масштабах целой дисциплины. Тем не менее эвристический потенциал больших данных не поддаётся сомнению, а перспективы использования больших массивов данных в рамках нереактивной стратегии социологического исследования действительно может привести к существенному повышению качества получаемых результатов.