Клод Шеннон: Математическая теория связи

<< Введение | Оглавление | Часть 2. Дискретный зашумленный канал >>

Часть 1. Дискретные системы без шума

Дискретный канал без шума

Телетайп и телеграф - два простых примера дискретных каналов для передачи информации. В общем случае будем называть дискретным каналом систему, посредством которой последовательность выборов из набора элементарных символов $S_1,\dots,S_n$ может быть передана из одной точки в другую. Каждый из этих символов $S_i$ предполагается имеющим некоторую протяженность во времени $t_i$ (не обязательно одинаковую для различных символов). Не требуется возможность передачи произвольной последовательности символов, вполне допустим вариант с ограниченным набором разрешенных последовательностей. Это - возможные сигналы в канале. К примеру, в телеграфии такими символами являются: (1) точка, соответствующая замыканию линии на единичное время и размыканию той же длительности, (2) тире, соответствующее замыканию линии на три единицы времени и размыканию на одну, (3) промежуток между буквами, соответствующий, к примеру, размыканию линии на три единицы времени, и (4) промежуток между словами, соответствующий размыканию линии на шесть единиц времени. Мы можем ограничить возможные последовательности символов, запретив к примеру последовательные промежутки (так как два следующих друг за другом буквенных промежутка идентичны промежутку между словами). Вопрос, который мы сейчас рассмотрим, состоит в том, как определить пропускную способность такого канала.

В случае телетайпа, в котором все символы имеют одну и ту же длительность и разрешена любая комбинация 32-х символов, ответ прост. Каждый символ представляет собой пять бит информации. Если система связи передает $n$ символов в секунду, естественно сказать, что пропускная способность канала $5n$ бит в секунду. Это не значит, что телетайп всегда передает информацию с такой скоростью - это лишь максимально возможный темп, и будет или нет он достигаться - зависит от источника информации, подаваемой в канал (см. далее)

Для более общего случая различной длины символов и ограничений на разрешенные последовательности дадим следующее определение:

Определение: Пропускная способность $C$ канала дается выражением

$$C = \lim_{T\to\infty} \frac{\log N(T)}{T}$$

где $N(T)$ - число возможных сигналов длительности $T$.

Легко видеть, что в случае телетайпа этот результат сводится в предыдущему. Можно показать, что этот предел в большинстве интересующих нас случаев существует и является конечным. Предположим, что разрешены все последовательности символов $S_1,\dots,S_n$ длительностью $t_1,\dots,t_n$ соответственно. Какова пропускная способность канала? Если $N(t)$ - число последовательностей длительности $t$,

$$N(t) = N(t-t_1) + N(t-t_2) + \dots + N(t-t_n).$$

Полное число равно сумме чисел последовательностей, оканчивающихся на $S_1,S_2,\dots,S_n$, то есть $N(t-t_1),N(t-t_2),\dots,N(t-t_n)$, соответственно. Согласно широко известному результату дискретного анализа, $N(t)$ при больших $t$ асимптотически стремится к $X_0^t$, где $X_0$ - наибольший действительный корень характеристического уравнения:

$$X^{-t_1} + X^{-t_2} + \dots + X^{-t_n} = 1$$

и следовательно

$$C = \log X_0.$$

При наличии ограничений на разрешенные последовательности символов мы зачастую также можем получить разностное уравнение такого типа и найти $C$ из характеристического уравнения. В вышеупомянутом случае телеграфной системы

$$N(t) = N(t-2) + N(t-4) + N(t-5) + N(t-7) + N(t-8) + N(t-10)$$

что получается при учете последнего и предпоследнего символов. Следовательно, $C$ равно $- \log \mu_0$, где $\mu_0$ - положительный корень уравнения $1= \mu^2 + \mu^4 + \mu^5 + \mu^7 + \mu^8 + \mu^{10}$. Решая его, находим $C= 0.539$.

Достаточно общим видом ограничений на возможные последовательности символов может быть следующий. Рассмотрим множество возможных состояний $a_1,a_2,\dots,\allowbreak a_m$. В каждом состоянии могут передаваться лишь некоторые символы из набора $S_1,\dots,S_n$ (различные подмножества в различных состояниях). При передаче одного из этих символов состояние изменяется в зависимости как от предыдущего состояния, так и от переданного символа. Простым примером такой системы является телеграф, который может находиться в одном из двух состояний в зависимости от того, был ли последним переданным символом 'пробел'. Если да, то может быть посланы только точка или тире, и состояние изменится на противоположное. Если же нет, может быть послан произвольный символ, и состояние изменится, если посланный символ - 'пробел'. Эта ситуация иллюстрируется линейным графом, изображенным на рис.2.


Рис. 2. Графическое представление ограничений на последовательности телеграфных символов.
Вершины графа соответствуют двум состояниям системы, а линии - разрешенным для передачи символам. В Приложении 1 показано, что при таких ограничениях на разрешенные к передаче символы $C$ существует и может быть рассчитана в соответствии со следующим результатом:

Теорема 1. Пусть $b_{ij}^{(s)}$ - длительность символа $s$, разрешенного в состоянии $i$ и приводящего к переходу системы в состояние $j$. Тогда пропускная способность канала $C$ равняется $\log W$, где $W$ - наибольший действительный корень детерминистического уравнения

$$\Bigl| \sum_s W^{-b_{ij}^{(s)}} - \delta_{ij} \Bigr| = 0$$

где $\delta_{ij} =1$ при $i=j$ и равно нулю иначе.

К примеру, в случае телеграфа (рис. 2) детерминант равен

что при раскрытии дает вышеприведенное уравнение для данного случая.

Дискретный источник информации

Мы видели, что при достаточно общих условиях логарифм числа возможных сигналов в дискретном канале линейно растет со временем. Пропускная способность канала может быть охарактеризована темпом этого роста, числом бит в секунду, необходимых для передачи данного конкретного сигнала.

Рассмотрим теперь источник информации. Как он может быть описан математически, и сколько бит информации в секунду он производит? Важным тут является знание о статистике этого источника, что позволяет понизить требуемую пропускную способность канала выбором соответствующей кодировки - представления информации. В телеграфии, к примеру, передаваемые сообщения состоят из последовательностей букв. Эти последовательности, однако, не являются совершенно случайными. В общем слуяае они образуют предложения и имеют статистическую природу, скажем, английского языка. Буква E встречается чаще Q, последовательность TH - чаще, чем XP. Наличие такой структуры позволяет получить выигрыш во времени передачи сообщения (или пропускной способности канала), соответствующим образом его кодируя. Именно такой подход используется в телеграфии, где самый короткий символ - точка - исплльзуется для наиболее часто используемой английской буквы E, в то время как самые редкие - Q, X, Z - представляются более длинными последовательностями точек и тире. Еще больший выигрыш во времени передачи достигается в некоторых коммерческих системах кодирования, в которых наиболее распространенные фразы и выражения заменяются четырех- или пятибуквенными комбинациями. Использующиеся в настоящее время стандартизованные поздравительные и приветственные телеграммы также позволяют кодировать церые предложения достаточно короткими последовательностями чисел. в настоящее время

Можно считать, что дискретный источник формирует сообщение символ за символом, выбирая их в соответствии с некоторой вероятностью, зависящей как от номера символа, так и от предыдущих выборов. Физическая система, или же математическая модель системы, генерирующей такую последовательность символов в соответствии с набором вероятностей, представляет собой стохастический процесс (См., например, S. Chandrasekhar, ``Stochastic Problems in Physics and Astronomy,'' Reviews of Modern Physics, v. 15, No. 1, January 1943, p. 1.). Таким образом, мы можем рассматривать дискретный источник как стохастический процесс, и наоборот, любой стохастический процесс, генерирующий дискретную последовательность символов из ограниченного множества можно считать дискретным источником. Это включает в себя:

Такие искусственные языки полезны для формулировки простых задач и примеров различных возможностей. Мы можем также приближенно описать некоторый естественный язык серией простых искусственных. Нулевым приближением такого рода будет модель с равновероятными независимыми буквами, следующим шагом может служить учет различных вероятностей букв в естественном языке (Вероятности букв, диграмм и триграмм даются в Secret and Urgent by Fletcher Pratt, Blue Ribbon Books, 1939. Частоты встречаемости отдельных слов приведены в Relative Frequency of English Speech Sounds, G. Dewey, Harvard University Press, 1923.). Так, в первом приближении для английского языка буква E будет выбираться с вероятностью 0.12, а W - 0.02, но не будет никакого влияния букв друг на друга, и не будет заметна тенденция к образованию наиболее частых буквосочетаний, таких как TH или ED. Во втором приближении необходимо учесть структуру диграмм - после выбора одной из букв следующая выбирается уже согласно соответствующей условной вероятности, что требует знания частоты диграмм $p_i(j)$. На следующем шаге вводится структура триграмм - каждая буква зависит уже от двух предшествующих.

Постепенное приближение к английскому языку

Для иллюстрации того, как эта серия приближений описывает естественный язык, были построены типичные последовательности приближений для английского языка. Во всех случаях использовался 27-символьный ``алфавит'' - 26 букв и пробел.

С каждым шагом заметно возрастает сходство с английским языком. Заметим, что приведенные примеры сохраняют достаточно похожую на оригинал структуру и далеко за рамками соответствующего приближения. Так, второе приближение дает приемлемый текст на уровне двухбуквенных сочетаний, но четырехбуквенные комбинации в нем также являются достаточно схожими с английским языком; фигурирующие в последнем примере комбинации четырех и более слов также вполне могут встречаться в реальных предложениях. Так, фраза из 10 слов ``attack on an English writer that the character of this'' не является совсем уж бессмысленной. Видно, что достаточно сложный стохастический процесс может являться вполне удовлетворительной моделью дискретного источника.

Два первых примера построены с использованием книги случайных чисел и таблицы частот букв. Похожий метод можно было бы использовать и для последующих, так как частоты диграмм и триграмм известны, однако мы воспользовались иным, более простым подходом. Для построения второго приближения, например, открывалась случайным образом книга и выбиралась случайная буква, которая записывалась; затем книга открывалась на другой странице и искалась первая двухбуквенная комбинация, начинающаяся с уже отобранной буквы, и записывалась следующая буква. Затем процедура повторялась. Похожий подход использовался и для остальных примеров. Было бы интересным построить также и следующие приближения, однако это требует слишком больших затрат времени и сил.

Представление марковского процесса в виде графа

Стохастические процессы описанного выше типа в математике известны как марковские процессы и достаточно широко освещены в литературе (за подробным изложением отсылаем читателя к книге M. Frechet, Methode des fonctions arbitraires. Theorie des evenements en chane dans le cas d'un nombre fini d'etats possibles, Paris, Gauthier-Villars, 1938.). В общем случае их можно описать следующим образом. Существует конечное число возможных состояний системы $S_1,S_2,\dots,S_n$, кроме того, известен набор вероятностей перехода $p_i(j)$ системы из состояния $S_j$ в состояние $S_i$. Чтобы сделать такой марковский процесс источником информации, достаточно предположить, что он выдает по одной букве в момент каждого перехода. Различные состояния системы в таком случае соответствуют ``остаточному влиянию'' предшествующих букв.

Эту ситуацию можно представить в виде графов, как показано на рис.3, 4 и 5.


Рис.3. Граф, соответствующий источнику из примера B.

Состояния здесь представлены вершинами графа, а вероятности и соответствующие им буквы приведены рядом с соответствующими линиями переходов. Рис. 3 соответствует примеру (B) главы 2, а рис. 4 - примеру (C)


Рис.4. Граф, соответствующий источнику из примера C.

У системы, изображенной на рис. 3, есть лишь одно состояние, так как выбираемые буквы независимы. На рис. 4 число состояний равно числу букв; в случае учета триграммной структуры их число равно $n^2$, что соответствует возможным парам предшествующих букв. На рис. 5 изображен граф, соответствующий структуре слов из примера (D) (S обозначает символ пробела).


Рис.5. Граф, соответствующий источнику из примера D.

Эргодические и смешанные источники

Как уже было отмечено, дискретный источник в наших задачах может рассматриваться как марковский процесс. Среди всех возможных марковских процессов можно выделить группу со свойствами, важными для теории связи. В этот класс входят так называемые ``эргодические'' процессы, и мы будем называть соответствующие источники эргодическими. Хотя строгое определение эргодического процесса достаточно запутанно, основная идея проста. Для эргодического процесса все сгенерированные последовательности обладают одинаковыми статистическими свойствами, то есть, к примеру, частоты встречаемости букв, диграмм и тек далее, оцененные по отдельным последовательностям, сходятся с ростом длины выборок к определенным пределам, не зависящим от последовательности. На самом деле это верно не для всякой последовательности, однако множество последовательностей, для которых это не выполняется, имеет меру ноль (то есть обладает нулевой вероятностью). Грубо свойство эргодичности означает статистическую однородность.

Все вышеприведенные примеры искусственных языков являются эргодическими. Это связано со структурой соответствующих графов. Если граф обладает двумя следующими свойствами, соответствующий процесс будет эргодическим:

Если выполняется только первое из условий, а второе нарушено, т.е. наибольший общий делитель равен $d>1$, последовательность имеет некоторую периодическую структуру. Различные последовательности распадаются на $d$ статистически равнозначных классов, отличающихся лишь сдвигом начала (то есть тем, какая именно буква называется первой). Сдвигом от 0 до $d-1$ любая из этих последовательностей может быть сделана статистически эквивалентной любой другой. Простым примером с $d=2$ может служить случай с тремя буквами $a,b,c$. За буквой $a$ следует либо $b$, либо $c$ с вероятностями $\frac13$ и $\frac23$ соответственно. За буквами же $b$ или $c$ всегда следует $a$. Тогда типичной последовательностью будет

a b a c a c a c a b a c a b a b a c a c.

Данный случай не очень важен для нашей работы.

Если же нарушается первое условие, граф распадается на несколько подграфов, на каждом из которых это условие выполнено. Мы будем предполагать, что на каждом из них выполнено также и второе условие. В это случае мы имеем ``смешанный'' источник, состоящий из нескольких чистых, соответствующих каждому из субграфов. Если $L_1$, $L_2$, $L_3,\dots$ - чистые компоненты, можно записать

где $p_i$ - вероятность компонента источника $L_i$.

Физически ситуация представляет из себя следующее. Есть несколько различных источников $L_1$, $L_2$, $L_3,\dots$, каждый из которых статистически однороден (т.е. эргодичен). Мы не можем сказать a priori, который из них будет использован, но если последовательность начинается в каком-то из чистых компонентов, в дальнейшем она в нем и останется, бесконечно продолжаясь в соответствии с его статистической структурой.

Для примера возьмем два из вышеприведенных процессов и примем $p_1 = .2$ и $p_2 = .8$. Последовательность от смешанного источника

$$L=.2 L_1 + .8L_2$$

может быть получена выбором $L_1$ либо $L_2$ с вероятностями 0.2 и 0.8 и генерированием последовательности в соответствием с этим выбором.

В дальнейшем мы будет предполагать источник эргодическим, если специально не указано обратное. Это предположение позволяет отождествить средние по последовательности со средними по ансамблю всех возможных последовательностей (вероятность отличия равна нулю). К примеру, относительная частота буквы A в некоторой бесконечной последовательности с вероятностью единица будет равна относительной частоте ее в ансамбле последовательностей.

Если $P_i$ - вероятность состояния $i$ и $p_i(j)$ - вероятность перехода в в состояние $j$, ясно, что для стационарности процесса $P_i$ должна удовлетворять условию равновесия:

$$P_j = \sum_i P_i p_i (j).$$

В эргодическом случае можно показать, что при любых начальных условиях вероятности $P_j(N)$ оказаться в состоянии $j$ после $N$ символов стремятся к равновесному значению при $N\to\infty$.

Выбор, неопределенность и энтропия

Мы представили дискретный источник информации марковским процессом. Можем ли мы определить некоторую величину, характеризующую в некотором смысле количество информации, ``производимой'' таким процессом, или, точнее, темп ``производства'' информации?

Пусть у нас есть набор возможных событий с вероятностями $p_1,p_2,\dots,p_n$. Эти вероятности известны и больше про эти события ничего не известно. Можно ли найти меру совершаемого ``выбора'' одного из событий или же неопределенности получаемого результата?

Разумно потребовать от такой меры, скажем, $H(p_1,p_2,\dots,p_n)$, следующих свойств:

В приложении 2 доказывается следующий результат:

Теорема 2: Единственная $H$, удовлетворяющая трем вышеприведенным условиям, имеет вид:

$$H = - K \sum_{i=1}^n p_i \log p_i$$

где $K$ - некоторая положительная константа.

Эта теорема, как и предположения, требуемые для ее доказательства, никак не будут использоваться в дальнейшем. Они приведены главным образом для придания некоторой правдоподобности нашим последующим определениям. Их истинным доказательством, однако, послужат их приложения.

Величины вида $H\! =\! -\! \sum p_i \log p_i$ (константа $K$ отвечает за выбор системы единиц) играют центральную роль в теории информации как меры информации, выбора и неопределенности. Такой же вид имеет выражение для энтропии в некоторых формулировках статистической механики (см., к примеру, R. C. Tolman, Principles of Statistical Mechanics, Oxford, Clarendon, 1938.), где $p_i$ - вероятность найти систему в ячейке $i$ ее фазового пространства. $H$ тогда, к примеру, совпадает с $H$ в знаменитой теореме Больцмана. Назовем $H = - \sum p_i \log p_i$ энтропией набора вероятностей $p_1,\dots,p_n$. Будем обозначать $H(x)$ энтропию случайной величины $x$; здесь $x$ - не аргумент функции, а метка, призванная отличать обозначение энтропии величины $x$ от энтропии $H(y)$ случайной величины $y$.

Энтропия для случая двух возможностей с вероятностями $p$ и $q=1-p$,

$$H = - (p \log p + q \log q)$$

изображена на рис. 7 как функция $p$.


Рис.7. Энтропия для случая двух возможностей с вероятностями $p$ и $q=1-p$.

Величина $H$ обладает несколькими интересными свойствами, делающими ее приемлемой мерой выбора или информации:

1. $H=0$ тогда и только тогда, когда все $p_i$ за исключением одного равны нулю, а один - единице, то есть величина $H$ обращается в ноль лишь тогда, когда мы уверены в выборе. Во всех остальных случаях $H$ положительна.

2. Для данного $n$ $H$ принимает максимальное значение тогда, когда все $p_i$ равны между собой (и, соответственно, равны $\frac1n$). Интуитивно понятно, что это - наиболее неопределенная ситуация.

3. Рассмотрим два события, $x$ и $y$, причем первому соответствует $m$ возможностей, а второму - $n$. Пусть $p(i,j)$ - вероятность совместного появления $i$ для первого и $j$ для второго. Энтропия такого совместного события равна

$$H(x,y) = - \sum_{i,j} p(i,j) \log p(i,j)$$

в то время как

Легко показать, что

$$H(x,y) \le H(x) + H(y)$$

причем равенство достигается лишь при независимости событий (т.е. при $p(i,j) = p(i)
p(j)$). Неопределенность совместного события меньше или равна сумме неопределенностей событий по-отдельности.

4. Любое изменение, направленное на уравнивание вероятностей $p_1,p_2,\dots,
p_n$, увеличивает $H$. Так, если $p_1 < p_2$ и мы увеличиваем $p_1$, уменьшая $p_2$ на ту же величину, так что $p_1$ и $p_2$ оказываются ближе бруг к другу, величина $H$ возрастает. В более общем случае, если мы производим некоторую процедуру ``усреднения'' $p_i$ вида

$$p'_i = \sum_j a_{ij} p_j$$

где $\sum_i a_{ij} = \sum_j a_{ij}=1$ и все $a_{ij} \ge 0$, величина $H$ возрастает (за исключением специального случая, при котором значения $p_i$ просто меняются местами; в этом случае $H$, естественно, остается неизменной).

5.Рассмотрим два случайных события, $x$ и $y$, как в пункте 3, не обязательно независимых. Для любого значения $i$, которое может принимать $x$, существует условная вероятность $p_i(j)$ того, что $y$ примет значение $j$. Она имеет вид

$$p_i(j)=\frac{p(i,j)}{\sum_j p(i,j)}.$$

Определим условную энтропию величины $y$, $H_x(y)$, как среднюю энтропию $y$ при каждом значении $x$, взвешенную в соответствии с вероятностью получения данного значения $x$. Она равна

$$H_x(y) = - \sum_{i,j} p(i,j) \log p_i(j) \, .$$

Это величина показывает, насколько в среднем является неопределенной $y$, если мы знаем $x$. Подставляя $p_i (j)$, получаем

или

$$H(x,y) = H(x) + H_x (y).$$

Неопределенность (или энтропия) совместного события $x,y$ равна сумме неопределенности $x$ и неопределенности $y$ при известной величине $x$.

6. Из пунктов 3 и 5 имеем

$$H(x) + H(y) \ge H(x,y) = H(x) + H_x(y).$$

Таким образом,

$$H(y) \ge H_x (y).$$

Неопределенность $y$ никогда не увеличивается при конкретизации $x$. Она уменьшается, если только $x$ и $y$ не являются независимыми событиями. В последнем же случае она остается неизменной.

Энтропия источника информации

Рассмотрим дискретный источник информации описанного выше типа. Для каждого из состояний $i$ существует набор вероятностей $p_i
(j)$ генерации различных возможных символов $j$, что соответствует энторпии данного состояния $H_i$. Определим энтропию источника как среднее всех $H_i$, взвешенных согласно вероятностям соответствующих состояний:

Это энтропия в расчете на символ текста. Если марковский процесс имеет определенный темп, можно также определить энтрпоию в секунду

$$H' = \sum_i f_i H_i$$

шде $f_i$ - средняя частота (реализаций в секунду) состояния $i$. Ясно, что

$$H' = mH$$

где $m$ - среднее число символов, генерируемых за секунду. $H$ или $H'$ характеризуют количество информации, производимой источником в расчете на символ или на секунду. Если за основание логарифма принята двойка, они представляют собой биты на символ или биты в секунду.

Если последовательные символы независимы, то $H$ есть просто $- \sum p_i
\log p_i$, где $p_i$ - вероятность символа $i$. Пусть мы имеем достаточно длинное сообщение, содержащее $N$ символов. С высокой вероятностью в нем будет примерно $p_1 N$ вхождений первого символа, $p_2 N$ - второго, и так далее. Таким образом вероятность данного собщения будет примерно равна

или же

$H$ , таким образом, есть логарифм обратной вероятности типичной длинной последовательности, деленный на число символов в ней. Аналогичный результат имеет место для произвольного источника. Более точно, можно сформулиовать (см. приложение 3)

Теорема 3: Для произвольных $\epsilon > 0$ и $\delta > 0$ можно найти такое $N_0$, что последовательности произвольной длины $N \ge N_0$ распадаются на два класса:

$$\biggl| \frac{\log p^{-1}}{N} - H \biggr| < \delta.$$

Иными словами, практически наверняка достаточно близко к $H$ при достаточно больших $N$.

Похожий результат имеет место для числа последовательностей с различными вероятностями. Рассмотрим вновь последовательности длины $N$ и отсортируем их по убыванию вероятности. Определим $n(q)$ как число послдовательностей, которые мы должны выбрать из данного набора, начиная с наиболее вероятной, для получения суммарной вероятности $q$.

Теорема 4:

$$\lim_{N\to\infty} \frac{\log n(q)}{N} = H$$

при $q$, не равных $0$ или $1$.

$\log n(q)$ может быть истолковано как число бит, требуемых для выделения последовательности, если мы рассматриваем лишь наиболее вероятные из них суммарной вероятностью $q$. Тогда - число бин на символ для такого выделения. Теорема гласит, что для больших $N$ оно не зависит от $q$ и равно $H$. Темп роста логарифма числа достаточно вероятных последовательностей дается $H$ вне зависимости от того, как именно мы определяем эту ``достаточную вероятность''. Благодаря этим результатам (доказываемым в приложении 3) для большинства задач можно считать, что (достаточно длинных) последовательностей всего $2^{HN}$, и каждая из них имеет вероятность $2^{-HN}$.

Две следующих теоремы показывают, что $H$ и $H'$ могут быть определены посредством пределных переходов прямо из статистики сообщения, без конкретизации различных состояний и вероятностей перехода.

Теорема 5: Пусть $p(B_i)$ - вероятность последовательности символов $B_i$ от источника, и пусть

$$G_N = - \frac1N \sum_i p(B_i) \log p(B_i)$$

где суммирование производится по всем последовательностям $B_i$, содержащим $N$ символов. Тогда $G_N$ - монотонно убывающая функция $N$ и

$$\lim_{N\to\infty} G_N = H.$$

Теорема 6: Пусть $p(B_i , S_j)$ - вероятность того, что за последовательностью $B_i$ следует символ $S_j$, и $p_{B_i}(S_j) = p(B_i,S_j)/p(B_i)$ - условная вероятность $S_j$ после $B_i$. Пусть

$$F_N = - \sum_{i,j} p(B_i,S_j) \log p_{B_i}(S_j)$$

где суммирование производится по всем блокам $B_i$ длиной $N-1$ символов и по всем символам $S_j$. Тогда $F_N$ - монотонно убывающая функция $N$,

и $\lim_{N\to\infty} F_N = H$.

Эти результаты получаются в приложении 3. Они показывают, что серия приближений к $H$ может быть получена при рассмотрении статистической структуры последовательностей длиной $1,2,\dots,N$ символов. $F_N$ является наилучшим приближением. Фактически $F_N$ является энтропией $N$-того приближения для источника, описанного выше типа. Если статистическое влияние на расстояниях, больших $N$, отсутствует, то есть если условная вероятность последуующего символа при знании ($N-1)$ предыдущего не изменяется конкретизацией любого предшествующего им, то $F_N = H$. $F_N$, естественно, явлется условной энтропией последующего симвода при знании ($N-1)$ предыдущих, тогда как $G_N$ - энтропия на символ блоков длины $N$.

Назовем отношение энтропии источника к максимальному значению, которое она может принимать, будучи ограниченной теми же предшествующими символами, относительной энтропией. Это - наибольший возможный коэффициент сжатия при кодировании с использованием того же самого алфавита. Назовем разность единицы и относительной энтропии избыточностью. Избыточность английского языка, при рассмотрении статистических структур на масштабах не более восьми букв, составляет порядка $50\%$. Это значит, что: когда мы пишем английский текст, половина его определяется статистической структурой языка, а половина выбирается нами свободно. Оценка $50\%$ получается несколькими независимыми методами, дающими примерно одинаковый результат, - расчетом энтропии приближений к английскому языку, удалением с последующим восстановлением части букв из английского текста, и так далее. Так, если текст может быть полностью восстановлен после удаления из него половины букв, его избыточность должна быть больше $50\%$. Еще один метод основан на некторвых известных результатах криптографии.

Две крайности избыточности английской прозы - Основной Английский (Бейсик Инглиш, Basic English) и книга Джеймса Джойса ``Поминки по Финнегану''. Словарь Бейсик Инглиш ограничен 850 словами, и его избыточность очень велика, что отражается в уведичении обьема сообщения при переаоде его в данный диалект. Джойс же, наоборот, расширяет лексикон, достигая таким образом уплотнения семантического содержания.

С избыточностью языка связано существование загадок-кроссвордов. При нулевой избыточности любое буквосочетание является приемлемым текстом, и любой двумерный массив букв образует кроссворд. Если же избыточность достаточно велика, язык налашаем слишком много ограничений, что делает невозможным существование больших кроссвордов. Более тщательный анализ показывает, что при случайной природе ограничений языка большие кроссворды возможны лишь при избыточности его порядка $50\%$. При избыточности $30\%$ становятся возможными трехмерные кроссворды, и так далее.

Представление операций кодирования и декодирования

Мы все еще не представили математически операции, производимые передатчиком и премником при кодировании и декодировании информации. Назовем оба этих прибора дискретным преобразователями. Преобразователь получает на вход некоторый набор входных символов, и выдает набор выходных символов. Преобразователь может иметь внутреннюю память, так что информация на выходе будет зависеть не только от текущего поступившего на вход символа, но также и от всех предшествующих. Мы будет считать внутреннюю память конечной, то есть предполагать наличие у преобразователя конечного числа внутренних состояний $m$, таких, что символ на выходе является функцией символа на входе и текущего состояния. Следующее состояние является еще одной функцией этих двух величин. Таким образом, преобразователь может быть описан двумя функциями:

где

$x_n$- $n$-тый входной символ.
$\alpha_n$- состояние преобразователя при получении $n$-того входного символа.
$y_n$- выходной символ (или последовательность символов), формируемый при получении символа $x_n$ в состоянии $\alpha_n$.

Если выходной символ одного из преобразователей может быть подан на вход другого, их можно соединить последовательно и получить еще один преобразователь. Если существует преобразователь, преобразующий выходную информацию первого в его же входную, первый преобразователь назовем несингулярным, а второй - обратным к нему.

Теорема 7: Выходная последовательность преобразователя с конечным числом состояний является последовательностью от статистического источника с конечным числом состояний, с энтропией (в единицу времени), не большей энтропии входной последовательности. Если преобразователь является несингулярным, эти энтропии равны.

пусть $\alpha$ описывает состояние источника, выдающего последовательность символов $x_i$, $\beta$ - состояние преобразователя, дающего на выходе блоки символов $y_j$. Систему можно описать прямым произведением пространств их состояний, то есть пространством пар $(\alpha,\beta)$. Соединим две точки этого пространства $(\alpha_1,\beta_1 )$ и $(\alpha_2,\beta_2 )$ линией, если $\alpha_1$ может сгенерировать $x$, переводящий $\beta_1$ в $\beta_2$ так, что эта линия дает вероятность такого $x$. Пометим такую линию набором символов $y_j$, выданных преобразователем. Энтропия его может быть рассчитана как взвешенная сумма по всем состояниям. Если мы вначале просуммируем по $\beta$, результирующий член будет не большим соответствующего для $\alpha$, так как энтропия не возрастает. Если преобразователь несингулярен, соединим его со входом обратного ему. Если $H'_1$, $H'_2$ и $H'_3$ - энтропии на выходе источника, первого и второго преобразователей соответственно, то $H'_1 \ge H'_2 \ge H'_3 = H'_1$ и, следовательно, $H'_1 = H'_2$.

Пусть мы имеем набор ограничений на возможные последовательности, которые можно предстваить в виде линейного графа, подобного изображенному на рис. 2. Если вероятности $p_{ij}^{(s)}$ приписаны всевозможным линиям, соединяющим состояние $i$ с состоянием $j$, эта система становится источником. Одно из сопоставлений максимизирует энтропию на выходе (см. приложение 4).

Теорема 8: Пусть система ограничений рассматривается как канал с пропускной способностью $C=\log W$. Если мы примем

$$
p_{ij}^{(s)} = \frac{B_j}{B_i}
W^{-\ell_{ij}^{(s)}}
$$

где $\ell_{ij}^{(s)}$ - длительность $s$-того символа, переводящего систему из состояния $i$ в $j$, и $B_i$ удовлетворяет условию

$$
B_i = \sum_{s,j} B_j
W^{-\ell_{ij}^{(s)}}
$$

то $H$ максимальна и равна $C$.

Надлеащим выбором вероятностей перехода энтропия символов в канале может быть доведена до пропускной способности канала.

Основная теорема для канала без шума

Теперь мы обоснуем интерпретацию $H$ как темпа генерации информации, показав, что $H$ определяет требуемую для наиболее эффективного кодирования пропускную способность канала.

Теорема 9: Пусть энтропия источника есть $H$ (бит на символ), а пропускная способность канала - $C$ (бит в секунду). Тогда возможно так закодировать информацию от источника, что средний темп ее передачи по каналу будет , где $\epsilon$ может быть сделана в произвольной степени малой. Невозможно передать информацию в темпе, большем .

Утверждение теоремы о невозможносит передачи с темпом, большим , может быть доказана с использованием того, что энтропия подаваемого в канал за секунду набора символов равна энтропии источника, так как преобразователь должен быть несингулярным, и, кроме того, эта энтропия не может быть больше пропускной способности канала. Следовательно, $H' \le C$, и число символов в секунду $= H'/H \le C/H$.

Первая же часть теоремы доказывается двумя различными методами. Первый заключается в рассмотрении набора всех последовательностей $N$ символов, генерируемых источником. Для больших $N$ мы можем разбить их на две группы: содержащую последовательности короче $2^{(H+\eta)N}$ символов и содержащую последовательности короче $2^{RN}$ ($R$ здесь есть логарифм числа различных символов) с полной вероятностью меньше $\mu$. С ростом $N$ $\eta$ и $\mu$ стремятся к нулю. Число сигналов длительности $T$ в канале больше $2^{(C-\theta)T}$ (где $\theta$ мало) при достаточно больших $T$. Если мы примем

$$T = \biggl( \frac H C + \lambda \biggr) N$$

то число последовательностей символов канала для группы большой вероятности будет бостаточно большим при больших $N$ и $T$ (и малой $\lambda$), а кроме того, будет еще несколько последовательностей малой вероятности. Группа высокой вероятности кодируется произвольным однозначным сопоставлением с элементами этого множества. Остальные последовательности кодируются более длинными последовательностями, начинающимися и заканчивающимися элементами, не используемыми для кодирования группы высокой вероятности. Эти элементы (отдельные символы или их группы) сигнализируют начало и конец для другой кодировки. Между ними дается достаточное время для передачи сообщений малой вероятности. Это требует

$$T_1 = \biggl(\frac R C + \varphi \biggr) N$$

где $\varphi$ мало. Средний темп передачи символов сообщения в секунду тогда будет больше, чем

$$\biggl[(1-\delta) \frac T N + \delta \frac{T_1}{N} \Biggr]^{-1} = \biggl[(1-\delta) \Bigl(\frac H C + \lambda \Bigr) + \delta \Bigl(\frac R C + \varphi \Bigr) \biggr]^{-1}.$$

С ростом $N$ $\delta$, $\lambda$ и $\varphi$ стремятся к нулю, а темп стремится к C / H.

Другим способом такого кодирования (и. следовательно, доказательства теоремы) можно описать следующим образом. Отсортируем сообщения длины $N$ по убыванию вероятности, $p_1 \ge p_2 \ge p_3 \dots \ge p_n$. Пусть - суммарная вероятность вплоть до $p_s$ (не включая $p_s$). Вначале закодируем в двоичную систему. Двоичным кодом для сообщения $s$ будет представление $P_s$ двоичным числом. Это представление размещается на $m_s$ позициях, где $m_s$ - целое число, удовлетворяющее условию

$$\log_2 \frac{1}{p_s} \le m_s < 1 + \log_2 \frac{1}{p_s}. $$

Таким образом, сообщения с высокой вероятностью представляются более коротким кодом, чем маловероятные. Из этих неравенств получаем

$$\frac{1}{2^{m_s}} \le p_s < \frac{1}{2^{m_s-1}}.$$

Код для $P_s$ будет отличаться от всех последующих в одном или более из составляющих его $m_s$ символов, так как все остальные $P_i$ как минимум на $\frac{1}{2^{m_s}}$ больше, и их двоичные представления различаются в первых $m_s$ позициях. Следовательно, все коды различны, и восстановление сообщения по его коду возможно. Если последовательности канала сами по себе не являются двоичными, они могут быть сведены к ним произвольным образом так, чтобы двоичный код однозначно преобразовывался бы в сигнал, приемлемый для канала.

Среднее число $H'$ двоичных цифр на символ исходного сообщения может быть легко оценено. Имеем

$$H' = \frac1N \sum m_s p_s.$$

В то же время

$$\frac1N \sum \Bigl( \log_2 \frac{1}{p_s} \Bigr) p_s \le \frac1N \sum m_s p_s < \frac1N \sum \Bigl( 1 + \log_2 \frac{1}{p_s} \Bigr) p_s$$

и следовательно

$$G_N \le H' < G_N + \frac1N$$

С ростом $N$ $G_N$ стремится к $H$, энтропии источника, и $H'$ стремится к $H$.

Осюда видно, что неэффективность кодирования, то есть использование не всех из $N$ символов, может быть доведена до $\frac1N$ с добавлением разницы между истинной энтропией $H$ и ее оценкой $G_N$ по последовательностям длины $N$. Процент времени, избыточного по отношению к идеальному случаю, соответственно, может быть сделан меньшим

$$\frac{G_N}{H} + \frac{1}{HN} - 1.$$

Этот метод кодирования практически совпадает с предложенным независимо R. M. Fano (Technical Report No. 65, The Research Laboratory of Electronics, M.I.T., March 17, 1949.), который заключается в сортировке сообщений длины $N$ по убыванию их вероятности. В дальнейшем эти сообщения делятся на две группы с как можно более близкими полными вероятностями. Для сообщений первой группы первой двоичной цифрой будет 0, для второй - 1. Группы таким же образом делятся далее, вплоть до того, что в каждой группе остается по одному сообщению. Легко видеть, что с небольшой разницей (в основном в последнем знаке) это аналогично процессу, описанному нами выше.

Обсуждение и примеры

В электротехнике для получения максимальной передачи мощности от генератора к нагрузке генератор должен обладать такими свойствами, чтобы с точки зрения нагрузки его сопротивление было равно сопротивлению ее. В нашем случае ситуация примерно аналогична. Преобразователь, который занимается кодированием сообщения, должен соответствовать источнику в статистическом смысле. Источник и преобразователь с точки зрения канала должны обладать статистическими свойствами источника, максимизирующего энтропию в канале. Содержанием теоремы 9 является то, что, хотя идеальное соответствие в общем случае невозможно, мы можем приближаться к нему с какой угодно степенью точности. Отношение действительного темпа передачи к пропускной способности канала $C$ может быть названо эффективностью системы кодирования. Она, естественно, равна отношению действительной энтропии символов в канале к максимально возможному значению.

В общем случае идеальное или почти идеальное кодирование требует длительных задержек и передатчике и приемнике. В рассматриваемом случае отсутствия шума главной функцией этих задержек является достаточно тщательное сопоставление вероятностей последовательностей соответствующих длин. При хорошем кодировании логарифм совместной вероятности длинного сообщения должен быть пропорционален длительности соответствующего сигнала, точнее

$$\Bigl| \frac{\log p^{-1}}{T} - C \Bigr|$$

должно быть мало практически для всех длинных сообщений.

Если источник генерирует только одно фиксированное сообщение, его энтропия равна нулю, и канал не требуется. К примеру, вычислительная машина для расчета последовательных цифр числа $\pi$ выдает детерминированную последовательность без случайной составляющей. Для передачи такого сигнала нет нужды в канале - достаточно построить вторую аналогичную машину. Однако, иногда это непрактично. В таком случае мы можем пренебречь некоторой информацией о структуре сигнала. Можно рассматривать цифры числа $\pi$ как случайную последовательность и разработать систему для передачи произвольной цифровой информации. Аналогично мы могли бы воспользоваться лишь частью нашего знания статистической структуры английского языка. Для такого случая можно рассмотреть источник с максимальной энтропией, удовлетворяющий выбранным нами статистическим условиям. Энтропия такого источника определяет пропускную способность канала, которая является необходимой и достаточной. Так, в случае передачи числа $\pi$ единственным статистическим условием является то, что все символы выбираются из набора $0, 1,\dots, 9$; для английского текста мы можем оставить лишь требование соответствия частот букв. Тогда источник с максимальной энтропией является первым приближением к английскому языку, и его энтропия определяет требуемую пропускную способность канала.

В качестве простого примера вышеизложенных результатов рассмотрим источник, генерирующий последовательность независимых букв, выбранных из A, B, C, D с вероятностями $\frac12$, $\frac14$, $\frac18$, $\frac18$ соответственно. Тогда

Следовательно, для такого источника можно разработать систему представления сообщений двоичным кодом со степенью сжатия вплоть до $\frac74$ двоичных цифр на символ. В данном примере это предельное значение может быть достигнуто при использовании следующего кода (полученного методом, использованным во втором варианте доказательства теоремы 9):

$$
\begin{array}{c@{\hspace{2em}}r}
A & 0 \\
B & 10 \\
C & 110 \\
D & 111
\end{array}
$$

Среднее число двоичных знаков, использованных для кодирования последовательности длиной $N$ символов будет

Легко видеть, что двоичные знаки 0 и 1 имеют вероятности $\frac12$ каждый, следовательно, $H$ для закодированной последовательности равно одному биту на символ. Так как в среднем мы имеем $\frac74$ двоичных знаков на исходный символ, энтропия в единицу времени остается неизменной. Наибольшей возможной энтропией исходного набора будет $\log 4=2$, достигаемая при вероятностях букв $A$, $B$, $C$, $D$, равных $\frac14$ каждая. Таким образом, относительная энтропия равна $\frac78$ Двоичная последовательность может быть отображена на множество исходных символов при помощи следующей таблицы:

$$
\begin{array}{c@{\hspace{2em}}c}
00 & A' \\
01 & B' \\
10 & C' \\
11 & D'
\end{array}
$$

Такое двойное преобразование кодирует исходное сообщение теми же символами, но с коэффициентом сжатия $\frac78$.

В качестве еще одного примера рассмотрим источник, выдающий буквы A и B с вероятностями $p$ для A и $q$ для B. При $p \ll q$

В такой ситуации можно построить достаточно хорошую систему кодирования сообщений в двоичном канале, посылая некоторую специльную последовательность, скажем, 0000, для маловероятного символа A, и затем число, характеризующее количество следующих за ним символов B. Это количество может быть охарактеризовано двоичным представлением при удалении всех чисел, содержащих специальную последовательность. В нашем случае все числа вплоть до 16 представляются как обычно, 16 представляется следующим числом, не содержащим специальной последовательности, а именно $17 = 10001$, и так далее.

Можно показать, что при $p \to$ система кодирования стремится к идеальной при надлежащем выборе специальной последовательности.


<< Введение | Оглавление | Часть 2. Дискретный зашумленный канал >>
Астронет