Контент-анализ
Конте́нт-ана́лиз, совокупность методических приёмов подсчёта частоты появления в тексте определённых, интересующих исследователя характеристик, которая позволяет делать выводы о намерениях создателя текста и возможных реакциях адресата. В большинстве учебников по методологии социологических исследований контент-анализ (синонимические обозначения – «анализ содержания» и «метод изучения текстов/документов») характеризуется как строгий, объективный и формализованный метод перевода текстовой информации в количественные показатели с помощью следующих шагов: разработка программы исследования, конструирование генеральной и выборочной совокупностей текстов, разработка кодификатора (таблицы категорий и единиц анализа), контроль количества и качества категорий и входящих в них единиц анализа и счёта, полевой этап (исследователь или группа кодировщиков выделяет в большом неструктурированном текстовом массиве набор информационных блоков в соответствии с целями и задачами исследования) и подготовка технической и аналитической документации (отчёт, аналитическая записка, научные и публицистические статьи).
История метода
Контент-анализ был разработан в начале 20 в. в связи с осознанием того факта, что тексты средств массовой информации необходимо изучать, чтобы знать, какое воздействие они оказывают на людей и как создавать тексты, которые произведут наибольший контролируемый эффект. Первый условный этап в истории становления контент-анализа как научного метода приходится на 1920–1930-х гг., когда Г. Лассуэлл начал разработку методик для изучения текстов политической пропаганды – чтобы определить, как (манипулируя какими социальными моделями) пропагандист добивается определённого эффекта у аудитории, используя разные каналы пропаганды (газеты, журналы, тексты проповедей и т. д.) (см., например: Lasswell. 1927). Эта работа «лассуэлловской школы контент-анализа» (формулирование принципов разбивки текстов на единицы измерения, обоснование роли контекста при частотном подсчёте символов в анализируемом тексте, выбор способов проверки результатов контент-анализа на сопоставимость и т. д. – см., например: Lasswell. 1952) была лишь одним из направлений её социологических (и политологических) исследований структуры и функций коммуникаций в обществе (Lasswell. 1948).
Второй условный этап в истории контент-анализа связан с расширением сферы применения метода в 1950-х гг. благодаря работам Б. Берельсона. В частности, он обозначил 17 областей применения контент-анализа как методики объективного, систематического и количественного описания содержания коммуникации (Berelson. 1952). Наиболее важные из этих областей для социологического анализа: выявление страновой специфики сообщений средств массовой коммуникации; проверка соответствия содержания сообщения его целям; кодирование ответов на открытые вопросы; определение намерений и других характеристик коммуникатора; оценка психологического состояния индивидов и групп на основе особенностей их коммуникации; обнаружение элементов пропаганды даже в непропагандистских текстах; описание эмоциональных и поведенческих откликов аудитории на сообщение; отражение культурных особенностей групп и обществ; фиксирование фокуса индивидуального, группового, институционального и социетального интереса и т. д.
Основные типы контент-анализа
В западной традиции принято называть контент-анализ текстуальным кодированием и выделять два его вида (Ньюман. 1998). Манифестное/открытое/явное – кодирование содержания, лежащего на поверхности: например, исследователь подсчитывает количество появлений конкретной фразы, словосочетания или слова в тексте (скажем, подсчитывается количество упоминаний разных стран в официальном выступлении президента, чтобы спрогнозировать приоритеты внешней политики страны). Данный тип кодирования надёжен (фраза/словосочетание/слово в тексте либо есть, либо нет), но не всегда валиден (не способствует решению задач исследования), поскольку не принимает в расчёт коннотации: одно и то же слово может иметь разные значения в зависимости от контекста (например, слово «молодец», произнесённое с разной интонацией в разных контекстах, может менять значение с похвалы на порицание). Латентное/скрытое кодирование, или семантический анализ, – это поиск скрытых, имплицитных значений текста: например, исследователь прочитывает абзац целиком и решает, присутствует ли в нём рекламная информация или это романтический жанр (латентное кодирование становится основой для запрета художественных произведений, включая прокат кинофильмов). Латентное кодирование менее надёжно, потому что зависит от лингвистической и нарративной компетентности исследователя, его знания семантики и метафор, умения идентифицировать темы, жанры и т. д. В то же время латентное кодирование может быть валиднее манифестного кодирования, потому что люди передают информацию и неявными способами (контекстуализацией и невербальными средствами), которые могут значительно изменять словарное/буквальное значение слов.
Другая классификация – выделение содержательной и структурной разновидностей контент-анализа (Мангейм. 1997). Содержательный контент-анализ – это создание «словаря» лингвистических обозначений явления с учётом особенностей их контекстуального употребления (например, когда в средствах массовой информации политик упоминается не только по фамилии, но и как руководитель конкретной парламентской фракции, лидер определённой политической партии, автор художественного произведения, увлечённый пчеловод, выходец из населённого пункта и т. п.). Структурный контент-анализ интересует не что сообщается, а как именно, например сколько эфирного времени или печатного пространства отведено теме в средстве массовой информации, сопровождается ли статья в журнале фотографией или иллюстрацией, каковы размеры заголовка и другие особенности презентации события в средствах массовой информации.
Таким образом, исходная посылка контент-анализа – это утверждение, что некая совокупность текстов содержит зафиксированную по установленным в рамках культуры и институционального контекста правилам информацию о прошлом и/или современности, важную с научно-исследовательской и/или практической точки зрения. Социолог осуществляет обоснованный отбор и методически продуманный анализ этих текстов, чтобы реконструировать стоящую за ними действительность и оценить, насколько полно и корректно содержание текстов отражает/воспроизводит реальность, решает задачи автора и определяет возможные (наблюдаемые) реакции аудитории.
Сочетание качественного и количественного анализа
В большинстве университетских учебников по методологии социологических исследований контент-анализ представлен как количественный метод анализа содержания и потому противопоставлен традиционному/качественному анализу текстов (подбор источников и их внимательное прочтение в контексте задач исследования). Однако сегодня контент-анализ всё чаще трактуется расширительно (раз «контент» – это содержание, значит контент-анализ – это совокупность всех методик анализа содержания), поэтому выделяют не его виды, а его этапы, последовательность которых может меняться:
качественный (традиционный, интерпретативный, нечастотный) этап – совокупность операций отбора и оценки документов, восприятия и интерпретации их содержания без формализации и «текстуального кодирования»;
количественный (частотный) этап – строгий, объективный и формализованный перевод текстовой информации в количественные показатели с последующей статистической обработкой и содержательной интерпретацией выявленных числовых закономерностей.
Если социолог хорошо ориентируется в проблеме и может сразу разработать кодификатор, то контент-анализ носит количественный характер, что не отменяет этапа «качественной» интерпретации полученных числовых распределений. Если речь идёт о новом, ранее не изученном феномене (или типе данных), то начинать контент-анализ приходится с традиционного интерпретативного анализа – для разработки программной части количественного этапа (без знакомства с текстовым массивом невозможно разработать надёжную систему категорий и единиц его анализа).
Принципы кодирования текста
В основе системы кодирования, как правило, лежит одна или несколько характеристик содержания текста: частота – фиксация и подсчёт определённых слов, словосочетаний и т. д. (скажем, как именно называется конкретное событие в средствах массовой информации – «война», «конфликт», «борьба за независимость», «бунт», «вооружённое противостояние» и т. п.); направленность – тип сообщений (от позитивного до негативного, от подтверждающего до опровергающего и т. д.); интенсивность – «мощность» выявленной направленности (например, негативная характеристика может быть смягчена или, наоборот, преувеличена: например, слово «война» имеет в русском языке однозначно негативную коннотацию, поэтому его использование для оценки события сразу придаёт ему отрицательный характер); «пространственные» особенности сообщения – количество составляющих его слов, предложений или абзацев, отведённое ему место (в эфире, в списке новостей и т. д.).
Ядро контент-анализа формирует модель предмета изучения за счёт выделения категорий, единиц анализа и измерения.
Категории – отражают признаки изучаемого объекта, соответствующие целям исследования, объединяют множество разрозненных слов-признаков в тематическое, концептуальное целое, обозначают эмпирически фиксируемые характеристики текстовой информации. Можно выделить два условных типа категорий контент-анализа: оценочные (положительные, отрицательные и нейтральные оценки события, политического деятеля и т. д.) и содержательные (своего рода тематическая рубрикация сообщений, например выделение приоритетов государства по представленности разных тем в выступлениях президента страны). Категории должны быть:
не слишком общими (абстрактные категории не позволят увидеть содержательные акценты и структуру текста);
не слишком дробными (их окажется слишком много, и получится сокращённый пересказ текста), уместными (решать задачи исследования);
исчерпывающими (отражать смысл основных понятий исследования);
взаимоисключающими (не допускать отнесения в разные категории одного и того же слова/содержания);
надёжными (кодировщики должны однозначно идентифицировать категории и не испытывать сомнений в критерии отнесения к ним конкретных слов и словосочетаний из анализируемого текстового массива).
Единицы анализа можно разделить следующим образом:
понятия, выраженные отдельными словами (например, упоминания политика в выступлениях его оппонента), терминами (например, насколько часто в выступлениях политика упоминается «социальная справедливость») или словосочетаниями;
темы, переданные единичными суждениями, смысловыми абзацами или целыми текстами (например, насколько коммерческая или социальная реклама воспроизводит гендерные стереотипы);
персонажи – субъекты действия или отношений (например, в каких ролях представлены женщины в коммерческой рекламе моющих средств);
ситуации взаимодействия (например, преимущественно в каком ситуативном контексте представлены мигранты в средствах массовой информации);
действия, осуществляемые индивидами, группами, организациями и даже странами, и т. д.
Единицами измерения могут быть:
меры протяжённости в координатах пространства-времени (объём текста в квадратных сантиметрах или в числе отведённых под него строк; количество минут телевизионного эфира, которое отводится каждой политической партии, участвующей в выборах, и др.);
частота появления искомого признака в тексте (единицы анализа и единицы счёта совпадают, если нас интересует частота появления в текстовом массиве конкретных слов или тематик).
Инструментарий контент-анализа должен включать в себя пять элементов, однако это не требование, а рекомендация: набор элементов зависит от того, насколько большой текстовый массив анализируется, в какие сроки и для каких целей:
классификатор/кодификатор – сводная таблица всех категорий и единиц, призванная зафиксировать, в каких единицах выражается каждая категория, частоту встречаемости каждой категории и составляющих её единиц;
бланк/протокол – сведения о каждом документе (автор, время и место издания, объём и т. д.) и итоги его анализа (количество искомых единиц анализа и выводы о представленности категорий);
регистрационная карточка / кодировальная матрица – количество единиц счёта для каждой единицы анализа (на основе карточек заполняется бланк/протокол);
инструкция кодировщикам – описание единиц анализа и счёта, правила кодирования текстов и т. д.;
каталог проанализированных документов.
Обязательные элементы любого контент-аналитического исследования – это каталог проанализированных документов (выборка изданий и текстов) и заполненный классификатор/кодификатор (результаты «текстуального кодирования»).
В общем виде процедура контент-анализа включает в себя несколько последовательных шагов, допускающих возврат к предыдущим этапам в случае необходимости (Weber. 1990. Р. 21–24):
определение категорий и единиц анализа и счёта, исходя из задач и гипотез исследования; тестирование схемы кодирования на отрывке текста; проверка понимания правил кодирования кодировщиками;
кодирование всего анализируемого текстового массива;
обработка полученных данных (подсчёт встречаемости слов или иных семантических единиц; подсчёт средних значений, индексов и коэффициентов); интерпретация результатов.
В качестве основных критериев оценки результатов контент-анализа, как правило, используются следующие:
надёжность – стабильность (неизменность результатов повторного кодирования тем же кодировщиком через некоторый промежуток времени);
воспроизводимость (неизменность результатов кодирования при его проведении несколькими кодировщиками);
аккуратность (в повторных проектах следует опираться на уже апробированную модель кодирования);
внутренняя валидность – соответствие определения категории определениям входящих в неё единиц (категории и единицы анализа должны обеспечивать проверку гипотез исследования);
внешняя валидность – соответствие категорий и их взаимосвязей некоторой теории, корректный прогноз событий или условий действительности (например, мониторинг средств массовой информации помогает заметить начало обострения конфликта и его перехода в открытую фазу);
семантическая валидность (любой человек, знакомый с текстом, просматривая списки единиц, вошедших в каждую категорию, должен признать обоснованность подобной группировки).
Области применения контент-анализа
Почти столетняя история контент-анализа позволяет обозначить следующие основные области его применения:
изучение больших объёмов неструктурированных данных (освещение средствами массовой информации резонансного общественного события, множество транскриптов интервью и т. д.);
исследование проблемы «на расстоянии» – исторических документов, мемуаров, теле- и радиопередач прошлых лет и т. д., когда нет возможности получить данные с помощью наблюдения или опроса непосредственных участников и свидетелей события;
обнаружение в текстах особенностей, которые ускользают от поверхностного, не вооружённого схемой кодирования взгляда (например, как дети и взрослые изображены на иллюстрациях в учебниках, какие сюжеты преобладают в песнях разных музыкальных жанров и т. д.);
если необходимо выявить наиболее значимые категории по частоте их появления в изучаемых документах (например, когда открытые вопросы или метод неоконченных предложений используются на больших выборках, т. е. мы получаем совокупность разнородных высказываний, в которых нужно выделить тематические или оценочные доминанты);
если важное значение имеет «язык» изучаемых текстов, т. е. мы хотим зафиксировать, как именно называется определённое событие, ситуация, социальная роль и т. д.
Несмотря на то что на современном этапе контент-анализ используется в психологии, политологии, истории, лингвистике и других дисциплинах, наиболее широкое применение он получил в социологии (в работе и со средствами массовой коммуникации, и с личными документами) и в междисциплинарном поле исследований массовой коммуникации. Контент-анализ позволяет отслеживать зафиксированные в текстах социальные изменения и социокультурные коды, тематические приоритеты массовой коммуникации, особенности новостной репрезентации социальных проблем и событий, вербальные проявления дискриминационных практик и гендерных стереотипов, лингвистические и визуальные структуры рекламных сообщений, вербальное поведение малых групп, ключевые темы и единицы национального фольклора и т. д.
Современный этап развития контент-анализа связан с многочисленными попытками использовать возможности машинной/компьютерной обработки текстов, которые начались ещё в 1960-х гг. (см., например: The general inquirer ... 1966). Хотя компьютерные программы значительно упрощают обработку и анализ огромных текстовых материалов, для получения надёжных и валидных данных необходимо приложить огромные усилия для составления и программирования кодификатора контент-анализа, т. е., помимо быстроты обработки больших текстовых массивов, иных преимуществ компьютеры не обеспечивают (не устраняют большинства ограничений метода).
Независимо от того, какие именно документы изучаются – официальные или личные, письменные, звуковые или изобразительные, первичные или вторичные и т. п., причины обращения исследователей к контент-анализу связаны с его очевидными преимуществами:
во-первых, метод позволяет быстро и с минимальными финансовыми затратами получить надёжные и воспроизводимые данные (любой исследователь может повторить процедуру кодирования, следуя разработанному инструментарию и критериям отбора текстов);
во-вторых, метод гарантирует высокий уровень объективности, потому что исследователь работает не с людьми, а с текстами, что позволяет избежать влияния исследователя на изучаемый объект, а инструментария – на качество данных;
в-третьих, метод не отменяет качественный/традиционный анализ: точность и систематичность количественных подсчётов сочетается с повторяющимися процедурами возврата к исходным текстам для уточнения интерпретаций числовых распределений.
Несмотря на свои несомненные достоинства, контент-анализ достаточно редко используется в социологических исследованиях по сравнению с опросными методиками, что объясняется его ограничениями. Их можно объединить в следующие группы:
связанные с особенностями текстового массива (отсутствуют гарантии достоверности и надёжности содержащейся в текстах информации; неизбежны сложные сочетания коммуникационного, формального и материального пластов содержания, а также неоднозначное отношение автора к предмету и к собственному высказыванию; неопределённое значение слов затрудняет создание чётких критериев отнесения к категориям и правил кодирования);
обусловленные исследовательскими процедурами (систематические смещения вследствие неизбежного временного лага при анализе значительных объёмов данных, а также сложности отбора документов и текстовых фрагментов внутри них);
связанные с неустранимой субъективностью авторской модели кодирования (не существует типовых методик контент-анализа, каждый текстовый массив требует разработки нового инструментария, причём в условиях отсутствия гарантий правильности понимания мотивов автора).