Большие данные в информатике
Больши́е да́нные (англ. big data) в информатике, широкий набор технологий, включающих системы хранения и обработки огромных массивов структурированных и неструктурированных данных разнообразного состава, часто обновляемых и поступающих из различных источников, обрабатываемых, например, в целях увеличения эффективности бизнеса, создания новых продуктов и повышения конкурентоспособности.
Термин предложен в 1998 г. американским учёным в области вычислительной техники Дж. Мэши во время работы в компании Silicon Graphics.
Границы использования понятия размыты и могут различаться в зависимости от конкретной задачи. Следуя подходу компании META Group (Laney. 2001), в практике выделяют три основных признака, в совокупности объединённых аббревиатурой VVV (от англ. Volume, Velocity, Variety – соответственно объём, скорость, разнообразие). Позднее к ним добавились ещё жизнеспособность (англ. Viability) и ценность (англ. Value) данных, а также и другие характеристики.
Объём данных чаще всего измеряется в терабайтах (1 Тбайт = 1012 байт), петабайтах (1 Пбайт = 1015 байт) и даже в эксабайтах (1 Эбайт = 1018 байт). Точного понимания, начиная с какого объёма данные становятся «большими», нет. Существуют задачи, когда информация занимает меньше 1 Тбайта, но из-за неоднородной структуры её обработка требует большой вычислительной мощности.
Скорость прироста и обработки данных. Например, когда новые данные для анализа появляются с каждым сеансом пользователя социальной сети.
Разнообразие данных. Даже если информации много, но она имеет чёткую структуру, эта ситуация не может быть отнесена к большим данным. Возвращаясь к предыдущему примеру: биографии пользователей социальной сети структурированы и легко поддаются анализу. Одновременно данные об их реакциях на публикации не имеют точной структуры.
Жизнеспособность данных. При большом разнообразии данных и переменных необходимо проверять их значимость при построении модели прогнозирования. Например, факторы, предсказывающие склонность потребителя к покупке: упоминания товара в социальных сетях, геолокация, доступность товара и др.
Ценность данных. После подтверждения жизнеспособности специалисты изучают взаимосвязи данных. Например, поставщик услуг может попытаться сократить отток клиентов, анализируя продолжительность звонков в колл-центр.
С технологической точки зрения проблема больших данных обострилась с начала 21 в. в связи со взрывообразным ростом данных во всех областях человеческой деятельности, с которым приходится сталкиваться разработчикам всех видов информационных систем. Требуется выбирать такие средства разработки, которые обеспечивали бы эффективное и экономически целесообразное масштабирование этих систем при росте объёмов данных (Кузнецов. 2012).
По данным Института статистических исследований и экономики знаний НИУ ВШЭ, в 2021 г. технологии сбора, обработки и анализа больших данных в России применяли 25,8 % организаций – на 3,4 процентного пункта больше, чем в 2020 г. Самым популярным источником оказались веб-сайты компаний: их данные собирали 9,2 % компаний. Немного менее востребованы данные учётных систем организаций (ERP, CRM и др.) и социальных сетей (8 % и 7,2 % соответственно). Помимо этого, компаниями анализировались данные операторов сотовой связи (6,7 %), информация с цифровых датчиков и радиочастотных меток (6,3 %) (Васильковский. 2022).
См. также Большие данные в социологии.