Абсолютная энтропия языка

Абсолютная энтропия языка — величина, равная максимуму информации, которую можно передать единицей данного языка. В теории информации обычно под единицей языка понимают один символ (букву) соответствующего алфавита, а абсолютная энтропия вычисляется при условии равновероятности всех последовательностей символов.

Если в алфавите языка используется различных букв, то абсолютная энтропия языка (бит на букву) можно вычислить как:

Данная величина не учитывает возможную непроизносимость полученных «слов».

Для английского языка эта величина примерно равна 4,7 бита на букву. Данная величина намного больше фактической энтропии языка, так как английский язык, как и все естественные языки, обладает избыточностью.

Литература

  • Шнайер Б. Глава 11. Математические основы. Энтропия языка. // Прикладная криптография. Протоколы, алгоритмы, исходные тексты на языке Си = Applied Cryptography. Protocols, Algorithms and Source Code in C. М.: Триумф, 2002. — С. 269. — 816 с. 3000 экз. — ISBN 5-89392-055-4.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.