Теорема Байеса — одна из основных теорем элементарной теории вероятностей, которая определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях; по формуле Байеса можно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений.
Математическая формулировка[]
- ,
где
- — априорная вероятность гипотезы A;
- — вероятность гипотезы A при наступлении события B (апостериорная вероятность);
- — вероятность наступления события B при истинности гипотезы A;
- — вероятность наступления события B.
Применение[]
Борьба со спамом[]
Для непосредственного определения вероятности отнесения того или иного сообщения к спаму используются созданные в процессе «обучения» фильтра словари. Т. е. берется полный архив старых, выделенных вручную сообщений и передается на вход программе обучения для дальнейшего анализа. Программа определяет частотные словари для каждого типа сообщений — сколько раз каждое слово появлялось в письмах из данной папки. Когда словари окончательно созданы, вероятность принадлежности нового письма к спаму вычисляется по Байесу для каждого слова из письма. Нормализацией и суммированием вероятностей слов получают общую вероятность принадлежности к спаму для всего письма. Данная система работает с точностью 97—99 %, в процессе дальнейшего обучения точность можно повысить практически до 100 %.
Применение теоремы Байеса позволяет обходиться без формирования «черных списков» почтовых адресов, байесовские фильтры могут самостоятельно опознать «плохое» письмо по его контексту, ненамного уступая в этом умении человеку.
Прочее[]
...
См. также[]
- Байесовская вероятность
- Предшествующая вероятность
- Последующая вероятность
- Субъективная вероятность (обзор)
- Байесовский вывод
- Spam Bully — байесовский спам-фильтр.
Литература[]
- Берд Киви. Теорема преподобного Байеса. Журнал "Компьютерра", 24 августа 2001 г.
- Paul Graham. A plan for spam (англ.) Персональный сайт Paul Graham.