Читать книгу - "Рациональность: от ИИ до зомби - Элиезер Шломо Юдковски"
К тому моменту, когда мы начинаем говорить о данных с сорока бинарными признаками, число возможных примеров превышает триллион — но число возможных концептов переваливает за два в триллионной степени. Чтобы сузить это суперэкспоненциальное пространство концептов, вам пришлось бы увидеть больше триллиона примеров, прежде чем вы смогли бы сказать, что входит в концепт, а что — нет. Фактически, вам пришлось бы увидеть каждый возможный пример.
И это при сорока бинарных признаках, заметьте. Сорок бит, или 5 байт, которые нужно классифицировать просто как «Да» или «Нет». Сорок бит означают 240 возможных примеров и 2240 возможных концептов, которые классифицируют эти примеры как положительные или отрицательные.
Таким образом, здесь, в реальном мире, где для описания объектов требуется гораздо больше 5 байт, а триллион примеров получить невозможно, и в обучающих данных присутствует шум, мы даже думаем только о высокорегулярных концептах. Человеческий разум — да и вся наблюдаемая Вселенная — и близко не достаточно велики, чтобы рассмотреть все остальные гипотезы.
С этой точки зрения обучение не просто опирается на индуктивное смещение, оно почти целиком является индуктивным смещением — если сравнить количество концептов, отсеиваемых априори, с количеством тех, что отсеиваются одними лишь свидетельствами.
Но какое отношение (поинтересуетесь вы) всё это имеет к правильному использованию слов?
Именно поэтому у слов есть как интенсионалы, так и экстенсионалы.
В предыдущем эссе я пришел к выводу:
Чтобы разделять реальность по её сочленениям, нужно проводить границы вокруг скоплений необычайно высокой плотности вероятности.
Я намеренно опустил важную оговорку в этом (слегка отредактированном) утверждении, поскольку до этого момента не мог её объяснить. Лучше было бы сказать так:
Чтобы разделять реальность по её сочленениям, нужно проводить простые границы вокруг скоплений необычайно высокой плотности вероятности в Пространстве вещей.
Иначе вы будете просто заниматься джерримендерингом в Пространстве вещей. Вы станете создавать странные, несвязные границы, очерчивающие наблюдаемые примеры — примеры, которые невозможно описать сообщением короче самих ваших наблюдений, — и говорить: «Вот то, что я видел раньше, и то, чего я ожидаю увидеть больше в будущем».
В реальном мире ничто крупнее молекул не повторяется точь-в-точь. Сократ по своей форме во многом похож на всех тех других людей, что были уязвимы для болиголова, но его форма не точь-в-точь такая же. Поэтому ваша догадка о том, что Сократ — «человек», опирается на проведение простых границ вокруг человеческого кластера в Пространстве вещей. А не на правило вроде: «Объекты, чья форма в точности соответствует [описанию формы размером 5 мегабайт 1], и обладающие [множеством других характеристик], или чья форма в точности соответствует [описанию формы размером 5 мегабайт 2], и [обладающие множеством других характеристик]... являются людьми».
Если вы не проводите простые границы вокруг своего опыта, вы не можете делать на его основе выводы. Поэтому вы пытаетесь описать «искусство» с помощью интенсиональных определений вроде «то, что призвано пробуждать любую сложную эмоцию ради самого её пробуждения», вместо того чтобы просто указывать на длинный список вещей, которые являются или не являются искусством.
На самом деле приведенное выше утверждение о том, «как разделять реальность по её сочленениям», несколько напоминает проблему курицы и яйца: вы не можете оценить плотность реальных наблюдений, пока не проведете хотя бы минимальное разделение. К тому же распределение вероятностей возникает из проведения границ, а не наоборот — если бы у вас уже было распределение вероятностей, у вас было бы всё необходимое для выводов, так зачем вообще возиться с проведением границ?
И это дает нам еще один — да-да, очередной — повод с подозрением относиться к утверждению, будто «слово можно определять как угодно». Если вспомнить о суперэкспоненциальном размере Пространства концептов, становится ясно, что выделение одного конкретного концепта для рассмотрения — это проявление немалой дерзости, причем не только для нас, но и для любого разума с ограниченной вычислительной мощностью.
Предлагать нам слово «виггин», определенное как «черноволосый зеленоглазый человек», без каких-либо причин для выведения этого конкретного концепта на уровень нашего осознанного внимания — это примерно как если бы детектив заявил: «Ну, у меня нет ни малейшей зацепки в пользу той или иной версии о том, кто мог убить этих сирот... заметьте, даже интуиции нет... но рассматривали ли мы в качестве подозреваемого Джона К. Уиффлхейма из дома 1234 по Норкл-роуд?»
*
1. Том М. Митчелл, Machine Learning (McGraw-Hill Science/Engineering/Math, 1997).
177. Условная независимость и наивный Байес.
Ранее я говорил о взаимной информации между X и Y, обозначаемой как I(X;Y), которая представляет собой разность между энтропией совместного распределения вероятностей, H(X,Y), и суммой энтропий маргинальных распределений, H(X) + H(Y).
Я приводил пример переменной X с восемью состояниями, от X1 до X8, которые равновероятны, если мы ещё не получили никаких свидетельств; и переменной Y с состояниями от Y1 до Y4, которые также равновероятны, если мы ещё не получили никаких свидетельств. Если теперь мы рассчитаем маргинальные энтропии H(X) и H(Y), то обнаружим, что энтропия X составляет 3 бита, а энтропия Y — 2 бита.
Однако мы также знаем, что X и Y либо оба чётные, либо оба нечётные; и это всё, что нам известно о связи между ними. Таким образом, для совместного распределения (X,Y) существует всего 16 возможных состояний, все они равновероятны, что дает совместную энтропию в 4 бита. Это дефект энтропии в 1 бит по сравнению с 5 битами энтропии, которые были бы, если бы X и Y были независимы. Этот дефект энтропии и есть взаимная информация — сведения, которые X сообщает нам о Y, или наоборот, благодаря чему после того, как мы узнаём значение одного из них, наша неопределенность относительно другого снижается.
Предположим, однако, что существует третьё переменная, Z. Переменная Z имеет два состояния, «чётное» и «нечётное», идеально скоррелированные с чётностью или нечётностью (X,Y). По сути, мы предположим, что Z — это просто вопрос: «Являются ли X и Y чётными или нечётными?»
Если у нас нет свидетельств о X и Y, то у самой Z на основе имеющейся информации обязательно будет 1 бит энтропии. Между Z и X существует 1 бит взаимной информации, и между Z и Y — 1 бит взаимной информации. И, как отмечалось ранее, 1 бит взаимной информации между X и
Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.
Оставить комментарий
- Яна29 май 16:31Двойное отцовство - Таня ВолодинаКлассная история! Не похожа ни на одну про отношения МЖМ, которые я читала до этого. Очень приятные харизматичные герои, мастерски написанные характеры главных
- Аида06 май 10:49Дикарь королевских кровей. Книга 2. Леди-фаворитка - Анна Сергеевна ГавриловаЧитала легко, местами хоть занудно. Но, это лучше, чем 70% подобной тематики произведений.
- вера02 май 00:32Сокровище в пелёнках - Ирина Агуловатекст не четкий трудно читать наверное надоест сброшу книгу может посоветуете как улучшить
- Калинин максим30 апрель 10:11Время Темных охотников - Евгений ГаглоевНедавно прочитал книгу «Время тёмных охотников» и хочу поделиться своими впечатлениями. Автор создал увлекательный мир, полный тайн и загадок. Сюжет затягивает с первых







