Как понять теорию вероятностей

Как понять теорию вероятностей

Теория вероятностей – это математическая основа для количественной оценки нашей неопределенности относительно мира. Это позволяет нам (и нашему программному обеспечению) эффективно рассуждать в ситуациях, когда невозможно быть уверенным.

Теория вероятностей подробнее тут: natalibrilenova.ru/teoriya-veroyatnostej/ лежит в основе многих алгоритмов машинного обучения. Цель этого поста – охватить словарный запас и математику, необходимые для применения теории вероятностей к приложениям машинного обучения по теории вероятностей.

 

 

 

Теория вероятности

Что именно я сек вероятность? Большинство людей знают, что вероятность события – это некоторое значение от 0 до 1, которое указывает, насколько вероятно событие произойдет. Кажется достаточно простым, но откуда на самом деле берутся эти значения?

Объективистская перспектива , что случайность имеет фундаментальное значение для Вселенной. Они сказали бы, что вероятность того, что честная монета выпадет орлом, равна 0,5, потому что такова природа честных монет. С другой стороны, субъективистская точка зрения состоит в том, что вероятности представляют нашу степень уверенности в том, что событие произойдет. Если бы мы знали начальное положение монеты и то, как была приложена сила, мы могли бы с уверенностью определить, выпадет ли она орлом или решкой. С этой точки зрения вероятность – это мера нашего невежества (например, незнание того, как сила применяется к монете).

Лично я субъективист. Если у нас есть правильные измерения, мы сможем предсказать что угодно с уверенностью. Одна из областей, где это (пока) не так, – это квантовая механика. Чтобы понять некоторые квантовые явления, мы должны рассматривать их как действительно случайные. Возможно, однажды мы лучше поймем, как работает Вселенная, и, следовательно, как правильно предсказать эти явления.

Теория вероятности и математика

Вначале я предположил, что теория вероятностей – это математическая основа. Как и в случае с любой математической структурой, существует некоторый словарь и важные аксиомы, необходимые для полного использования теории в качестве инструмента машинного обучения.

Теория вероятности – это возможность различных результатов. Набор всех возможных результатов называется пространством выборки . Примерное пространство для подбрасывания монеты: {орла, решка}. Пространство для образца для температуры воды – это все значения от точки замерзания до точки кипения. Одновременно возможен только один результат в пространстве выборки, и пространство выборки должно содержать все возможные значения. Пространство выборки часто обозначается как Ω (заглавная омега), а конкретный результат – как ω (строчная омега). Представим вероятность события ω как P (ω).

Говоря простым языком, вероятность любого события должна быть от 0 (невозможно) до 1 (наверняка), а сумма вероятностей всех событий должна быть 1. Это следует из того факта, что пространство выборки должно содержать все возможные результаты. . Следовательно, мы уверены (вероятность 1), что произойдет один из возможных исходов.

Случайная величина х, является переменной , которая случайным образом принимает значения из выборочного пространства. Мы часто указываем курсивом конкретное значение, которое может принимать x. Например, если x представляет результат подбрасывания монеты, мы можем обсудить конкретный результат как x = орел. Случайные переменные могут быть дискретными, как монета, или непрерывными (могут принимать бесчисленное количество возможных значений).

Чтобы описать вероятность каждого возможного значения случайной величины x, мы задаем распределение вероятностей . Мы пишем x ~ P (x), чтобы указать, что x является случайной величиной, взятой из распределения вероятностей P (x). Распределения вероятностей описываются по-разному в зависимости от того, является ли случайная величина дискретной или непрерывной.

Совместные распределения в теории вероятностей

Распределение по нескольким случайным величинам называется совместным распределением вероятностей . Мы можем записать набор случайных величин в виде вектора x . Совместное распределение по x определяет вероятность любого конкретного набора всех случайных величин, содержащихся в x . Чтобы прояснить это, давайте рассмотрим две случайные величины x и y. Мы записываем совместную вероятность как P (x = x , y = y ) или просто P ( x , y ) для краткости. Я говорю это вслух: «Вероятность того, что x = x и y = y». Если обе случайные величины дискретны, мы можем представить совместное распределение в виде простой таблицы вероятностей. Например, давайте рассмотрим совместное распределение верхней одежды, которую я ношу, с погодными условиями (во вселенной, где это единственные варианты).

Независимость и условная независимость в теории вероятностей

В предыдущем примере мы видели, что P ( x | y ) ≠ P ( x ), потому что наблюдение y дало нам информацию о x . Так всегда бывает? Давайте представим, что P ( x, y ) представляет собой совместное распределение, где x представляет количество мороженого в магазине, а y представляет количество раз в день, когда на Луну ударяет какой-либо объект. Дает ли знание одной из ценностей какую-либо информацию о другой? Конечно, нет! Итак, в этом случае P ( x | y ) = P ( x )! Подставляя это в цепное правило, мы обнаруживаем, что в этом сценарии мы получаем P ( x, y ) = P ( x | y) ⋅ P ( y ) = P (x ) ⋅ P ( y). Это непосредственно подводит нас к нашему определению независимости . Две переменные x и y называются независимыми, если P ( x, y ) = P ( x ) ⋅ P ( y ).

Похожая концепция – это условная независимость . Две переменные x и y называются условно независимыми для другой переменной z, если P ( x, y | z ) = P ( x | z ) ⋅ P ( y | z ). Давайте сделаем пример, чтобы понять, о чем идет речь.

Предположим, что x – случайная величина, указывающая, взял ли я на работу зонтик, а y – случайная величина, показывающая, мокрая ли моя трава. Кажется довольно очевидным, что эти события не являются независимыми. Если я принесла зонтик, это, вероятно, означает, что идет дождь, а если идет дождь, моя трава мокрая. Теперь предположим, что мы наблюдаем переменную z, которая означает, что на самом деле на улице идет дождь. Теперь, независимо от того, принесла ли я на работу зонтик, вы знаете, что у меня трава мокрая. Так что из-за дождя мой зонт не зависел от мокрой травы!

Независимость и условная независимость становятся очень важными, когда нам нужно представить очень большие совместные распределения. Независимость позволяет нам использовать более простые термины для нашего распределения, обеспечивая эффективное использование памяти и более быстрые вычисления. Мы увидим это конкретно в следующем посте о байесовских сетях!

 

 

 

Теория вероятностей и функции случайных величин

Часто бывает полезно создавать функции, которые принимают на вход случайные переменные. Рассмотрим поход в казино. Играть в мою любимую игру «угадай число от 1 до 10» стоит 2 доллара. Если вы угадаете правильно, вы выиграете 10 долларов. Если вы угадаете неправильно, вы ничего не выиграете. Пусть x будет случайной величиной, показывающей, правильно ли вы угадали. Тогда мы можем написать функцию h ( x ) = {$ 8, если x = 1, и – $ 2, если x = 0}. Другими словами, если вы угадаете, вы получите 10 долларов минус 2 доллара, которые вы заплатили за игру, в противном случае вы просто потеряете свои 2 доллара. Возможно, вам будет интересно узнать заранее, каким будет ожидаемый результат.

Ожидаемое значение или ожидание функции h (x) от случайной величины x ~ P (x) – это среднее значение h ( x ), взвешенное с помощью P (x).

Если бы x был непрерывным, мы бы заменили суммирование интегралом (держу пари, что вы уже видите закономерность). Таким образом, математическое ожидание действует как средневзвешенное значение по h ( x ), где веса – это вероятности каждого x .

Какова ожидаемая ценность игры в угадайку в казино, если мы предположим, что у нас есть 1/10 шанс угадать правильное число?

? [ h (x)] = P (выигрыш) ⋅ h (выигрыш) + P (проигрыш) ⋅ h (проигрыш) = (1/10) ⋅ 8 долларов США + (9/10) ⋅ (- 2 доллара США) = 0,80 доллара США + ( – 1,80 доллара) = – 1 доллар. Так что в среднем мы теряем 1 доллар каждый раз, когда играем!

Еще одно приятное свойство ожиданий – это то, что они линейны. Предположим, что g – еще одна функция от x, а α и β – константы.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Яндекс.Метрика