Энтропия языка

Энтропия языка — статистическая функция текста на определённом языке либо самого языка, определяющая количество информации на единицу текста.

С математической точки зрения энтропия языка определяется как

где  — сообщение,  — его энтропия,  — длина сообщения.

Согласно Клоду Шеннону и Томасу Каверу (англ. Thomas Cover), для английского языка эта величина составляет от 1,3 до 2,3 бита на букву.

Литература

  • Шнайер Б. Глава 11. Математические основы. Энтропия языка. // Прикладная криптография. Протоколы, алгоритмы, исходные тексты на языке Си = Applied Cryptography. Protocols, Algorithms and Source Code in C. М.: Триумф, 2002. — С. 269. — 816 с. 3000 экз. — ISBN 5-89392-055-4.
  • C. E. Shannon. Prediction and entropy of printed English (англ.) // Bell Systems Technical Journal. — 1951. Vol. 30. P. 50—64. Архивировано 5 февраля 2007 года.
  • Cover, T., King, R. A convergent gambling estimate of the entropy of English // Information Theory, IEEE Transactions on. — 1978. Т. 24, вып. 4. С. 413 - 421. ISSN 0018-9448.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.