Частотность

Частотность (или относительная частотность) — отношение количества экземпляров данного объекта к полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.

Расчёт частотности слов осуществляется по формуле:

где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации. Высокие показатели частотности гласных называются ассонансом. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.

Не следует путать термины частотность и частота.

Частотность букв русского языка

Статистика частотности букв русского языка (на материале НКРЯ):[1]

букварангупотребленийчастотность
а3404870088,01% 8.01
 
б2180517671,59% 1.59
 
в9229307194,54% 4.54
 
г1985646401,70% 1.7
 
д13150521182,98% 2.98
 
е2426912138,45% 8.45
 
ё331849280,04% 0.04
 
ж2547469160,94% 0.94
 
з2083299041,65% 1.65
 
и4371531427,35% 7.35
 
й2361062621,21% 1.21
 
к11176534693,49% 3.49
 
л10222301744,40% 4.4
 
м12162030603,21% 3.21
 
н5338388816,70% 6.7
 
о15541448110,97% 10.97
 
п14142015722,81% 2.81
 
р8239168254,73% 4.73
 
с7276270405,47% 5.47
 
т6316209706,26% 6.26
 
у15132457122,62% 2.62
 
ф3113357470,26% 0.26
 
х2449041760,97% 0.97
 
ц2824388070,48% 0.48
 
ч2273001931,44% 1.44
 
ш2636787380,73% 0.73
 
щ2918224760,36% 0.36
 
ъ321854520,04% 0.04
 
ы1795959411,90% 1.9
 
ь1887846131,74% 1.74
 
э3016101070,32% 0.32
 
ю2732207150,64% 0.64
 
я16101390852,01% 2.01
 

См. также

Примечания

  1. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики (Дата обращения: 23 апреля 2017)

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.