Перекрёстная энтропия
В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей , вместо «истинного» распределения .
Перекрестная энтропия для двух распределений и над одним и тем же вероятностным пространством определяется следующим образом:
- ,
где — энтропия , и — расстояние Кульбака—Лейблера от до (также известная как относительная энтропия).
Для дискретного и это означает
Ситуация для непрерывного распределения аналогична:
Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.
NB: Запись иногда используется как для перекрёстной энтропии, так и для совместной энтропии и .
Минимизация перекрёстной энтропии
Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.