Я говорю это все потому, что идея «Вы можете Х так как вам заблагорассудится» сильно мешает понять, как делать Х с умом. «Это свободная страна, и я имею право на свое мнение» стоит на пути у искусства поиска истины. «Я могу определить слово так, как захочу» — стоит на пути разделения реальности на естественные составные части. И даже кажущееся разумным «Прикрепленные к словам ярлыки случайны» стоит на пути осведомленности о компактности. Стихосложения тоже, если уж говорить об этом, — Толкиен однажды заметил, как красиво звучит фраза «cellar door»; таков уровень осведомленности нужен, чтобы использовать язык как Толкиен.
Длина слов так же играет нетривиальную роль к когнитивной науке языка:
Давайте рассмотрим слова «сиденье», «стул» и «мебель». «Сиденье» — более специфическая категория, чем «стул»; «мебель»— более общая. Но большая часть стульев объединена сходными способами их использования — похожие движения, чтобы сесть или встать, похожие причины для сидения — отдых, принятие пищи, чтение. «Сиденья» в этом отношении тоже не слишком отличаются. «Мебель» же включает в себя вещи вроде кроватей, столов, по-разному использующихся и требующих разных телодвижений.
В терминологии когнитивной психологии «стул» относится к базовым категориям.
У людей есть привычка говорить и, предположительно, думать на базовом уровне категоризации. Проводить границы вокруг «стульев», чем вокруг более конкретной категории «сидений», или же вокруг более общей категории «мебели». Человек скорее предложит присесть на стул, чем сесть на сидение или посидеть на мебели.
Так что тут нет совпадения относительно длины этих слов. Базовые категории обычно имеют более короткие названия, и существительные с короткими названиями обычно относятся к базовым категориям. Это не универсальный лингвистический закон, но такая тенденция определенно присутствует. Частое употребление сопутствует коротким словам, а короткие слова — частому употреблению.
Или же как выразил это Дуглас Хофштадтер, есть причины на то, чтобы в английском языке «the» означало «the», а «antidisestablishmentarianism» использовалось для «antidisestablishmentarianism», а не наоборот.
Общая информация и плотность в пространстве вещей
Предположим, у вас есть система ХХ, которая может находиться в одном из 8 состояний и все они равновероятны (относительно того, что вы о них знаете на данный момент), и система YY с 4 равновероятными состояниями.
Энтропия ХХ, как следует из рассказанного вчера — 3 бита; нам потребуется задать 3 да/нет вопроса, чтобы точно узнать состояние ХХ. Энтропия YY, как следует из рассказанного вчера — 2 бита; нам потребуется задать 2 да/нет вопроса. Это может показаться очевидным (с учетом того, что 23=823=8 и 22=422=4 — три вопроса помогут выявить правду между 8 возможными вариантами, а 2 между 4), но хочу напомнить, что если бы вероятности не были бы равными, мы смогли бы использовать более хитрый код для обнаружения, например, состояния YY (1,75 вопросов в среднем). Но раз уж для Х и Y вероятности распределены равномерно, схитрить у нас не получится.
Какова общая энтропия объединенной системы (X,Y)(X,Y)?
Возможно вам придет в голову ответ: «Для XX потребует 3 вопроса, для YY — 2, так что нам потребуется задать всего 5 вопросов, чтобы узнать (X,Y)(X,Y)».
Но что если эти две переменные связаны и, узнав что-то о YY, мы узнаем кое-то и о XX?
В данном случае предположим, что обе переменные либо четные либо нечетные.
И если мы получим сообщение в 3 бита (получим 3 ответа), узнаем, что ХХ находится в состоянии 5, то будем знать, что YY либо в состоянии 1 либо в 3, но не в 2 или 4. Так что лишь один вопрос «YY в состоянии 3?» и ответ «нет» понадобится нам, что бы знать состояние объединенной системы
(X,Y):X=X5,Y=Y1(X,Y):X=X5,Y=Y1
И обнаружили мы это с помощью 4 вопросов.
Точно так же, если мы узнаем, что YY в 4 состоянии, с помощью 2 вопросов, то нам понадобится лишь два вопроса, чтобы узнать, в каком из состояний (2,4,6,8)(2,4,6,8) находится ХХ. Опять же, лишь 4 вопроса, чтобы узнать состояние связанной системы.
Общая энтропия двух переменных определяется как разность между энтропией независимых систем и энтропией связанной системы :
I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)
В данном случае между системами есть 1 бит общей информации. Узнав ХХ, мы получаем 1 бит информации о YY (что сокращает пространство возможностей с 4 до 2, снижает размер в два раза). А информация о состоянии YY сокращает пространство возможностей с 8 до 4.
Но как насчет случаев, где масса вероятности распределена не равномерно? Вчера, например, мы обсуждали случай YY, где вероятности были распределены как 1/21/2, 1/41/4, 1/81/8, 1/81/8 для 4 возможных состояний. Давайте условимся, что так будет выглядеть распределение вероятностей для YY, если мы будем рассматривать YY независимо. Как если бы мы знали YY и больше ничего. И введем еще переменную ZZ с 2 возможными состояниями, с вероятностями 3/83/8 и 5/85/8.