Частотность букв таджикского языка

Первые исследования по частотности встречаемости букв в таджикском языке были предприняты в 2001 году[1] и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Но ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе[2],[3]

Статистика

Статистика частотности букв таджикского языка без учёта пробелов:

РангБукваУпотребленийЧастотностьИнформативность
1А19583616,54 % 16.54
 
0,429 0.429
 
2О1000388,45 % 8.45
 
0,301 0.301
 
3Р870847,35 % 7.35
 
0,277 0.277
 
4И869917,35 % 7.35
 
0,277 0.277
 
5Н810616,84 % 6.84
 
0,265 0.265
 
6Д801826,77 % 6.77
 
0,263 0.263
 
7У552824,67 % 4.67
 
0,206 0.206
 
8Б527174,45 % 4.45
 
0,200 0.2
 
9М496754,19 % 4.19
 
0,192 0.192
 
10Т423253,57 % 3.57
 
0,172 0.172
 
11С323922,74 % 2.74
 
0,142 0.142
 
12К321052,71 % 2.71
 
0,141 0.141
 
13Ш308612,61 % 2.61
 
0,137 0.137
 
14Ҳ301752,55 % 2.55
 
0,135 0.135
 
15З288352,43 % 2.43
 
0,131 0.131
 
16Е252842,13 % 2.13
 
0,118 0.118
 
17Г221901,87 % 1.87
 
0,108 0.108
 
18В187551,58 % 1.58
 
0,095 0.095
 
19Х182481,54 % 1.54
 
0,093 0.093
 
20Л146941,24 % 1.24
 
0,079 0.079
 
21Ӯ139671,18 % 1.18
 
0,076 0.076
 
22Ф129761,10 % 1.1
 
0,071 0.071
 
23П124251,05 % 1.05
 
0,069 0.069
 
24Ч100000,84 % 0.84
 
0,058 0.058
 
25Ҷ87480,74 % 0.74
 
0,052 0.052
 
26Й84470,71 % 0.71
 
0,051 0.051
 
27Ӣ78740,66 % 0.66
 
0,048 0.048
 
28Я68700,58 % 0.58
 
0,043 0.043
 
29Ё64540,54 % 0.54
 
0,041 0.041
 
30Қ46500,39 % 0.39
 
0,031 0.031
 
31Ғ27340,23 % 0.23
 
0,020 0.02
 
32Э15030,13 % 0.13
 
0,012 0.012
 
33Ъ14880,13 % 0.13
 
0,012 0.012
 
34Ж8670,07 % 0.07
 
0,008 0.008
 
35Ю5740,05 % 0.05
 
0,005 0.005
 
Сумма1184307100,00 %4,358


Статистика частотности букв таджикского языка с учётом пробела:

РангБукваУпотребленийЧастотностьИнформативность
1Пробел26598318,34 % 18.34
 
0,449 0.449
 
2А19583613,50 % 13.5
 
0,390 0.39
 
3О1000386,90 % 6.9
 
0,266 0.266
 
4Р870846,00 % 6
 
0,244 0.244
 
5И869916,00 % 6
 
0,243 0.243
 
6Н810615,59 % 5.59
 
0,233 0.233
 
7Д801825,53 % 5.53
 
0,231 0.231
 
8У552823,81 % 3.81
 
0,180 0.18
 
9Б527173,63 % 3.63
 
0,174 0.174
 
10М496753,43 % 3.43
 
0,167 0.167
 
11Т423252,92 % 2.92
 
0,149 0.149
 
12С323922,23 % 2.23
 
0,122 0.122
 
13К321052,21 % 2.21
 
0,122 0.122
 
14Ш308612,13 % 2.13
 
0,118 0.118
 
15Ҳ301752,08 % 2.08
 
0,116 0.116
 
16З288351,99 % 1.99
 
0,112 0.112
 
17Е252841,74 % 1.74
 
0,102 0.102
 
18Г221901,53 % 1.53
 
0,092 0.092
 
19В187551,29 % 1.29
 
0,081 0.081
 
20Х182481,26 % 1.26
 
0,079 0.079
 
21Л146941,01 % 1.01
 
0,067 0.067
 
22Ӯ139670,96 % 0.96
 
0,065 0.065
 
23Ф129760,89 % 0.89
 
0,061 0.061
 
24П124250,86 % 0.86
 
0,059 0.059
 
25Ч100000,69 % 0.69
 
0,050 0.05
 
26Ҷ87480,60 % 0.6
 
0,044 0.044
 
27Й84470,58 % 0.58
 
0,043 0.043
 
28Ӣ78740,54 % 0.54
 
0,041 0.041
 
29Я68700,47 % 0.47
 
0,037 0.037
 
30Ё64540,45 % 0.45
 
0,035 0.035
 
31Қ46500,32 % 0.32
 
0,027 0.027
 
32Ғ27340,19 % 0.19
 
0,017 0.017
 
33Э15030,10 % 0.1
 
0,010 0.01
 
34Ъ14880,10 % 0.1
 
0,010 0.01
 
35Ж8670,06 % 0.06
 
0,006 0.006
 
36Ю5740,04 % 0.04
 
0,004 0.004
 
Сумма1450290100,00 %4,246

Примечания

  1. Усманов З. Д., Солиев О. М. Проблема раскладки символов на компьютерной клавиатуре — Душанбе: Ирфон, 2010, 104 с.
  2. Усманов З. Д., Косимов А. А. Частотность букв таджикской литературы — Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112—115
  3. Косимов А. А. Басомади такроршавии ҳарфҳои адабиёти тоҷик — Маҷаллаи «Шафақ», Нашрияи Кумиҷроияи Ҳизби Халқии Демократии Тоҷикистон дар шаҳри Хуҷанд, 24.11.2015, № 21, с. 2.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.