Измерение семантической информации с помощью относительной энтропии[]
Введение в теорию семантической информации[]
Наряду с шенноновской синтаксической теорией информации существует и еще одна теория информации - семантическая. Основоположником этой теории является советский математик Юлий Анатольевич Шрейдер (1927-1998). В семантической теории информации под информацией принято понимать сведения, обладающие новизной. Давайте попытаемся разобраться в двух часто встречающихся ситуациях. Ситуация первая - когда вам сообщают что-либо уже известное, например, что дважды два - четыре, или что после ночи наступает день. Ситуация вторая - когда вам сообщают что-либо на неизвестном вам языке, когда вы видите совершенно незнакомую математическую формулу, пусть даже имеющую богатый смысл, т.е. нечто совершенно вам непонятное. Обе ситуации можно описать при помощи выражений "известно все" или неизвестно "ничего". Эти выражения говорят о противоположности двух описанных ситуаций. Однако у них есть и нечто общее. Этим общим является наличие всех компонентов коммуникации: источника и приемника информации, потока информации от источника к приемнику. Однако, как в первой, так и во второй ситуации знания последнего остались без изменений, т.е. информация была передана, приемник ее получил, но обнаружить это невозможно! Если мозг приемника не отразил никаких изменений о внешнем мире после получения сообщения, а это случилось как впервой, так и во второй ситуациях, следовательно, передачи, точнее говоря, получения информации не произошло.
Таким образом, суть семантической теории информации состоит в том, что количество информации, извлекаемое человеком из сообщения, можно определить степенью изменения его знаний. Действительно, если о получении информации судить только по изменениям в знаниях, то чем больше изменений произошло в знаниях, тем больше информации было получено.
Все здание человеческого знания, согласно этой модели, можно рассматривать в виде множества смысловыражающих элементов (терминов), так называемого тезауруса русского языка , а знания конкретного человека (приемника информации) - как тезаурус индивидуума , который является подмножеством . Источником информации будем считать некоторый текст, который также обладает своим тезаурусом . Свяжем с каждым термином случайное событие - употребление этого термина конкретным индивидуумом.
Определение1. 'Тезаурусом русского языка называется множество непересекающихся случайных событий , выбранных из алгебры вероятностного пространства , образующих разбиение:
и имеющих эвентологическое распределение (Э-распределение) , где - вероятность события - употребления термина в русском языке, а
Определение2. Тезаурусом индивидуума называется подмножество
тезауруса русского языка , заданное на
вероятностном пространстве с
Э-распределением , где
- вероятность события - употребления термина индивидуумом ,
а
Определение3. Тезаурусом текста автором которого является индивидуум , называется подмножество тезауруса русского языка , заданное на вероятностном пространстве с Э-распределением , где - вероятность события - употребления индивидуумом термина в тексте , а
Тезаурус имеет сложную структуру, в которой одни понятия и отношения, группируясь, образуют другие, в свою очередь образующие все более сложные понятия и отношения. И так как тезаурус является способом представления знаний, а знания у разных людей различны, то, естественно, отличаются и соответствующие им тезаурусы. Тезаурус ребенка, например, намного беднее тезауруса взрослого человека, т.е. содержит гораздо меньше элементов и отношений между ними. Теперь можно четко сформулировать смысл семантической модели информации. Заменяя понятие «знание» понятием «тезаурус», можно утверждать, что человек получает информацию только в том случае, когда в его знаниях, т.е. в его тезаурусе после получения сообщения произошли какие-либо изменения. И чем больше изменений внесло сообщение в тезаурус приемника, тем большее количество информации он получил из этого сообщения. Изменить же тезаурус - это значит изменить случайные события, входящие в него, или распределение вероятностей этих событий.
Процесс передачи семантической информации[]
Попытаемся применить изложенный выше подход к моделированию процесса передачи семантической информации. Пусть имеется тезаурус русского языка - множество случайных событий (употребления того или иного термина в русском языке) с вероятностным распределением (Э-распределением) этих событий. Пусть источник информации - это некоторый текст сообщения, имеющий фиксированный тезаурус , т.е. фиксированный набор случайных событий с Э-распределением. Этот текст передается приемнику
информации, обладающему некоторым тезаурусом . При этом тезаурус источника накладывается на тезаурус приемника. В результате происходит сопоставление, сравнение их тезаурусов. Рассмотрим возможные варианты этого процесса. Если в тезаурусе приемника тезаурус источника (в дальнейшем вместо выражений тезаурус и тезаурус мы будем употреблять соответственно и ) содержится целиком, то никаких изменений в не происходит, следовательно, приемник не извлекает из текста сообщения никакой информации. Этот случай совпадает с первой из двух ситуаций, о которых мы говорили ранее, когда сообщение содержит сведения, уже известные получателю. Графически это можно представить как полное вхождение, включение в
Предположим теперь, что какая-то часть содержится в . Это значит, что в можно обнаружить такие же случайные события, как и в ; в последнем, кроме этого, содержатся события, которых нет в . Таким образом, и имеют «общую часть». Графически этот случай может быть выражен как пересечение двух тезаурусов. Когда в входят случайные события, каких нет в , то приемник не извлечет из текста сообщения никакой информации и изменения его тезауруса не произойдет. Этот случай соответствует второй из рассмотренных выше ситуаций, когда сообщение является полной «загадкой» для его получателя. Графически этому случаю соответствуют непересекающиеся тезаурусы.
Если теперь предположить, что чем больше тезаурус приемника, тем больше вероятность того, что в нем будут содержаться события, составляющие тезаурус источника, то количество информации, получаемое из сообщения, будет зависеть в итоге от мощности тезауруса приемника. Пусть
- это доля мощности тезауруса приемника информации в мощности тезауруса источника информации . Тогда зависимость свидетельствует о том, что нулевой доле соответствует нулевое количество полученной из сообщения информации (ситуация вторая). Такое же (нулевое)количество информации соответствует и максимальной доле (ситуация первая). Наибольшее же количество информации извлекается приемником из текста сообщения, когда доля близка к . Этой зависимости соответствует график на рис.5. Фактически тезаурус приемника измеряется относительно тезауруса источника информации. Таким образом, эффективность передачи информации зависит от соотношения тезаурусов источника и приемника.
Предложение1. В качестве измерителя семантической информации можно использовать приращение относительной информации, которая определяется следующим образом:
где - некоторое Э-распределение тезауруса приемника , а - некоторое фиксированное Э-распределение тезауруса источника (распределение тезауруса некоторого текста). Приращение семантической информации по времени: