Научные направления

Теория информации

Тео́рия информа́ции, раздел математики, исследующий процессы хранения, преобразования и передачи . Теория информации – часть . В основе теории информации лежит определённый способ измерения количества информации, содержащейся в каких-либо данных (сообщениях).

Теория информации исходит из представления о том, что сообщения, предназначенные для сохранения в запоминающем устройстве или для передачи по , неизвестны заранее с полной определённостью. Заранее известен лишь источник сообщений, т. е. множество x1,x2,,xn,x_1,\,x_2,\,…,x_n, из которого могут быть выбраны эти сообщения, вероятности p1,p2,,pnp_1,\,p_2,\,…,p_n появления этих сообщений. В теории информации неопределённость, с которой сталкиваются в подобной обстановке, допускает количественное выражение, и именно это количество, а не конкретная природа самих сообщений, определяет возможность их хранения и передачи. Рассматриваются всевозможные способы записи сообщений цепочками символов 00 и 1,1, называемые двоичными кодами, удовлетворяющие условиям: а) различным сообщениям соответствуют различные цепочки; б) по записи любой последовательности сообщений в кодированной форме эта последовательность должна однозначно восстанавливаться. В качестве меры неопределённости источника сообщений принимают среднее значение длины кодовой цепочки, соответствующее самому экономному способу кодирования; единицей измерения служит один двоичный знак.

Пример. Пусть некоторые сообщения x1,x2,x3x_1,\, x_2,\, x_3 появляются с вероятностями, равными соответственно 1/2,1/2, 3/8,3/8, 1/8.1/8. Какой-либо короткий код, например, x1=0,x2=1,x3=01,x_1=0,\, x_2=1,\, x_3=01, непригоден, т. к. нарушается условие б), поскольку цепочка 0101 может означать как x1x2,x_1x_2, так и x3.x_3. Код x1=0,x2=10,x3=11x_1=0,\, x_2=10,\, x_3=11 удовлетворяет условиям а) и б). Ему соответствует среднее значение длины кодовой цепочки, равное 112+238+218=1,5.1\cdot \frac{1}{2}+2\cdot \frac{3}{8} +2\cdot \frac{1}{8}=1,5. Оказывается, что никакой другой код не может дать меньшего значения, т. е. указанный код – самый экономный, мера неопределённости данного источника сообщений равна 1,51,5 (двоичных знаков).

Не существует простой формулы, выражающей точный минимум HH' среднего числа двоичных знаков, необходимых для кодирования сообщений x1,x2,,xn,x_1,x_2,…,x_n, через вероятности p1,p2,,pnp_1,p_2,…,p_n этих сообщений. Однако этот минимум не меньше величины H=i=1npilog2(1/pi)H=\sum_{i=1}^n p_i \log_2(1/p_i)и может превосходить её не более чем на единицу. Величина HH, называемая источника сообщений, обладает простыми свойствами, а для всех выводов теории информации, которые носят асимптотический характер, т. е. соответствуют случаю H,H'\to \infty, различие между HH и HH' несущественно. Поэтому именно энтропия принимается в качестве меры неопределённости данного источника. В приведённом выше примере энтропия равна H=12log2+38log283+18log28=1,40564.H=\frac{1}{2} \log_2+\frac{3}{8}\log_2 \frac{8}{3} + \frac{1}{8} \log_2 8=1,40564.

Энтропия бесконечной совокупности сообщений x1,x2,,x_1,x_2,…, появляющихся с вероятностями p1,p2,,p_1,p_2,…, оказывается, как правило, бесконечной, поэтому в применении к источникам с бесконечным числом сообщений поступают иначе. Именно, задаются определённым уровнем точности и вводят понятие εε-энтропии как энтропии сообщения, записываемого с точностью до ε,ε, если сообщение представляет собой непрерывную величину или функцию, например времени.

Так же, как и понятие энтропии, понятие количества информации, содержащейся в одном случайном объекте (случайной величине, случайном векторе, случайной функции и т. д.) относительно другого, вводится сначала для объектов с конечным числом nn возможных значений. Затем общий случай изучается при помощи предельного перехода при n.n→∞. В отличие от энтропии количество информации, например, в одной непрерывно распределённой случайной величине относительно другой непрерывно распределённой величины, часто оказывается конечным.

Понятие канала связи в теории информации носит весьма общий характер. Канал связи задаётся указанием множества допустимых сообщений на входе канала, множеством сообщений на выходе и набором условных вероятностей получения того или иного сообщения на выходе при данном входном сообщении. Эти условные вероятности описывают влияние , искажающих передаваемые сообщения. Присоединяя к каналу связи источник сообщений, можно рассчитать количество информации относительно сообщения на входе, содержащееся в сообщении на выходе. Верхняя грань таких количеств информации, взятая по всем допустимым источникам, называется пропускной способностью (ёмкостью) канала. Пропускная способность канала – его основная информационная характеристика. Несмотря на влияние (быть может, сильное) помех в канале, при определённом соотношении между энтропией поступающих сообщений и пропускной способностью канала при надлежащем кодировании возможна почти безошибочная передача сообщений.

В теории информации изучаются оптимальные в смысле скорости и надёжности способы передачи информации и устанавливаются теоретические пределы достижимого качества. Теория информации носит существенно вероятностный характер и значительная часть её математических методов заимствуется из .

Основы теории информации были заложены в 1948–1949 гг. . Её теоретические разделы разрабатывались и , а разделы, связанные с применениями, – .

  • Хранение данных
  • Обработка данных
  • Передача данных
  • Математические теории