Читаем Беседы об информатике полностью

Чтобы все стало совсем ясно, давайте рассмотрим такой пример. Пусть имеется строка текста, содержащая миллион символов. Пусть буква «а» встречается в этой строке 500 тысяч раз. Поделив пятьсот тысяч на миллион, мы получим величину 0,5, которая представляет собой среднюю частоту, с которой в рассматриваемом тексте встречается буква «а». С учетом всех оговорок мы можем считать также величину 0,5 вероятностью появления буквы «а» в данном тексте.

Далее поступаем согласно К. Шеннону. Берем двоичный логарифм от величины 0,5 и называем то, что получилось, количеством информации, которую переносит одна-единственная буква «а» в рассматриваемом тексте.

Продолжаем анализ дальше. Пусть буква «б» встречается в том же самом тексте 250 тысяч раз. Делим 250 тысяч на миллион и получаем, что средняя частота (вероятность), с которой в данном тексте встречается буква «б», равна 0,25. Снова берем двоичный логарифм от величины 0,25 и получаем величину, равную количеству информации (по Шеннону), которое в данном тексте сопровождает появление каждый буквы «б». Такую же точно операцию мы проделываем далее для букв «в», «г», «д» и т. д.

Теперь теория К. Шеннона предлагает нам вычислить среднее количество информации, приходящееся на один символ. Для того чтобы вычислить среднее для какого-то количества чисел, мы должны сначала сложить между собой все эти числа, а полученную сумму разделить на общее количество чисел. Сейчас мы это и проделаем, но применим одну хитрость.

Сначала сложим все числа, равные количеству информации, переносимой буквой «а». Полученную сумму сразу разделим на количество, как говорят, вхождений буквы «а» в изучаемый текст. Здесь мы применяем хорошо известное не только в математике, но и в литературе правило: от перестановки слагаемых сумма не меняется.

Затем складываем между собой числа, равные количеству информации, переносимой буквой «б». Делим полученную сумму на количество вхождений буквы «б» и т. д. Просим читателя подумать и убедиться, что мы действительно вычислили самое настоящее среднее. Просто при суммировании мы брали буквы не в том порядке, в каком они входят в текст, а сначала взяли все буквы «а», потом все буквы «б» и т. д. Интересно заметить, что точно так же поступают опытные кассиры, когда подсчитывают мелочь. Сначала сортируют монетки, а потом подсчитывают количество пятачков, трехкопеечных монет и т. д.

Итак, вместо того чтобы сначала просуммировать все количества информации, беря слагаемые в том порядке, в каком встречаются буквы в тексте, а затем разделить полученную сумму на общее количество букв, мы сначала суммируем все числа, относящиеся к букве «а», и делим сумму на общее число букв «а» в тексте, затем поступаем так же с буквой «б» и т. д. А затем складываем между собой полученные промежуточные результаты.

Обратите внимание на то, что единица, деленная на число вхождений, скажем, буквы «а», и есть не что иное, как частота или в нашем случае вероятность встретить букву «а» в данном тексте. Значит, логарифм от средней частоты, с которой встречается буква «а», да еще поделенной на общее число вхождений буквы «а», представляет собой произведение вероятности вхождения буквы «а» на двоичный логарифм этой вероятности.

Общий итог вычислений, равный по Шеннону средней информации на символ, представляет собой сумму членов вида: вероятность, помноженная на логарифм этой же самой вероятности, — причем общее число суммируемых членов равно общему числу букв в исследуемом тексте.

А теперь самое интересное. На памятнике немецкому ученому Л. Больцману (1844–1906) высечена формула, выведенная им в 1877 году и связывающая вероятность состояния физической системы и величину энтропии этой системы. Мы не станем сейчас разбираться в смысле терминов: вероятность, состояние и энтропия. Скажем только, что энтропия — это термодинамическая величина, описывающая состояние нагретого тела, и что относительно этой самой энтропии выведен один из законов — так называемое второе начало термодинамики, — претендующий на роль одного из фундаментальных законов природы.

Так вот, формула, высеченная на памятнике Л. Больцмана, абсолютно совпадает с формулой, предложенной К. Шенноном для среднего количества информации, приходящейся, на один символ. Совпадение это произвело столь сильное впечатление, что даже количество информации стали, называть энтропией.

Перейти на страницу:

Все книги серии Эврика

Похожие книги

Городской Пассажирский Транспорт Санкт-Петербурга: Политика, Стратегия, Экономика (1991-2014 гг.)
Городской Пассажирский Транспорт Санкт-Петербурга: Политика, Стратегия, Экономика (1991-2014 гг.)

Монография посвящена актуальным вопросам регулирования развития городского пассажирского транспорта Санкт-Петербурга. Рассматриваются вопросы реформирования городского пассажирского транспорта в период с 1991 по 2014 годы. Анализируется отечественный и зарубежный опыт управления, организации и финансирования перевозок городским пассажирским транспортом. Монография предназначена для научных работников и специалистов, занимающихся проблемами городского пассажирского транспорта, студентов и аспирантов, преподавателей экономических вузов и факультетов, предпринимателей и руководителей коммерческих предприятий и организаций сферы городского транспорта, представителей органов законодательной и исполнительной власти на региональном уровне. Автор заранее признателен тем читателям, которые найдут возможным высказать свои соображения по существу затронутых в монографии вопросов и укажут пути устранения недостатков, которых, вероятно, не лишена предлагаемая работа.

Владимир Анатольевич Федоров

Экономика / Технические науки / Прочая научная литература / Внешнеэкономическая деятельность
Компьютерные сети. 5-е издание
Компьютерные сети. 5-е издание

Перед вами — очередное, пятое издание самой авторитетной книги по современным сетевым технологиям, написанной признанным экспертом в этой области Эндрю Таненбаумом в соавторстве с профессором Вашингтонского университета Дэвидом Уэзероллом. Первая версия этого классического труда появилась на свет в далеком 1980 году, и с тех пор каждое издание книги неизменно становилось бестселлером и использовалось в качестве базового учебника в ведущих технических вузах. В книге последовательно изложены основные концепции, определяющие современное состояние и тенденции развития компьютерных сетей. Авторы подробнейшим образом объясняют устройство и принципы работы аппаратного и программного обеспечения, рассматривают все аспекты и уровни организации сетей — от физического до уровня прикладных программ. Изложение теоретических принципов дополняется яркими, показательными примерами функционирования Интернета и компьютерных сетей различного типа. Пятое издание полностью переработано с учетом изменений, происшедших в сфере сетевых технологий за последние годы и, в частности, освещает такие аспекты, как беспроводные сети стандарта 802.12 и 802.16, сети 3G, технология RFID, инфраструктура доставки контента CDN, пиринговые сети, потоковое вещание, интернет-телефония и многое другое.

А. Гребенькова , Джеймс Уэзеролл

Технические науки