Частотность букв таджикского языка
Первые исследования по частотности встречаемости букв в таджикском языке были предприняты в 2001 году[1] и связывались с определениями «наилучшей» раскладки букв на компьютерной клавиатуре и объёма репрезентативной выборки для получения достоверных статистических результатов. Но ниже приведены результаты на основе статистической обработки произведений отдельных поэтов и писателей и сформирована общая картина частотности букв в классической и современной таджикской литературе[2],[3]
Статистика
Статистика частотности букв таджикского языка без учёта пробелов:
Ранг | Буква | Употреблений | Частотность | Информативность | ||
---|---|---|---|---|---|---|
1 | А | 195836 | 16,54 % | 0,429 | ||
2 | О | 100038 | 8,45 % | 0,301 | ||
3 | Р | 87084 | 7,35 % | 0,277 | ||
4 | И | 86991 | 7,35 % | 0,277 | ||
5 | Н | 81061 | 6,84 % | 0,265 | ||
6 | Д | 80182 | 6,77 % | 0,263 | ||
7 | У | 55282 | 4,67 % | 0,206 | ||
8 | Б | 52717 | 4,45 % | 0,200 | ||
9 | М | 49675 | 4,19 % | 0,192 | ||
10 | Т | 42325 | 3,57 % | 0,172 | ||
11 | С | 32392 | 2,74 % | 0,142 | ||
12 | К | 32105 | 2,71 % | 0,141 | ||
13 | Ш | 30861 | 2,61 % | 0,137 | ||
14 | Ҳ | 30175 | 2,55 % | 0,135 | ||
15 | З | 28835 | 2,43 % | 0,131 | ||
16 | Е | 25284 | 2,13 % | 0,118 | ||
17 | Г | 22190 | 1,87 % | 0,108 | ||
18 | В | 18755 | 1,58 % | 0,095 | ||
19 | Х | 18248 | 1,54 % | 0,093 | ||
20 | Л | 14694 | 1,24 % | 0,079 | ||
21 | Ӯ | 13967 | 1,18 % | 0,076 | ||
22 | Ф | 12976 | 1,10 % | 0,071 | ||
23 | П | 12425 | 1,05 % | 0,069 | ||
24 | Ч | 10000 | 0,84 % | 0,058 | ||
25 | Ҷ | 8748 | 0,74 % | 0,052 | ||
26 | Й | 8447 | 0,71 % | 0,051 | ||
27 | Ӣ | 7874 | 0,66 % | 0,048 | ||
28 | Я | 6870 | 0,58 % | 0,043 | ||
29 | Ё | 6454 | 0,54 % | 0,041 | ||
30 | Қ | 4650 | 0,39 % | 0,031 | ||
31 | Ғ | 2734 | 0,23 % | 0,020 | ||
32 | Э | 1503 | 0,13 % | 0,012 | ||
33 | Ъ | 1488 | 0,13 % | 0,012 | ||
34 | Ж | 867 | 0,07 % | 0,008 | ||
35 | Ю | 574 | 0,05 % | 0,005 | ||
Сумма | 1184307 | 100,00 % | 4,358 |
Статистика частотности букв таджикского языка с учётом пробела:
Ранг | Буква | Употреблений | Частотность | Информативность | ||
---|---|---|---|---|---|---|
1 | Пробел | 265983 | 18,34 % | 0,449 | ||
2 | А | 195836 | 13,50 % | 0,390 | ||
3 | О | 100038 | 6,90 % | 0,266 | ||
4 | Р | 87084 | 6,00 % | 0,244 | ||
5 | И | 86991 | 6,00 % | 0,243 | ||
6 | Н | 81061 | 5,59 % | 0,233 | ||
7 | Д | 80182 | 5,53 % | 0,231 | ||
8 | У | 55282 | 3,81 % | 0,180 | ||
9 | Б | 52717 | 3,63 % | 0,174 | ||
10 | М | 49675 | 3,43 % | 0,167 | ||
11 | Т | 42325 | 2,92 % | 0,149 | ||
12 | С | 32392 | 2,23 % | 0,122 | ||
13 | К | 32105 | 2,21 % | 0,122 | ||
14 | Ш | 30861 | 2,13 % | 0,118 | ||
15 | Ҳ | 30175 | 2,08 % | 0,116 | ||
16 | З | 28835 | 1,99 % | 0,112 | ||
17 | Е | 25284 | 1,74 % | 0,102 | ||
18 | Г | 22190 | 1,53 % | 0,092 | ||
19 | В | 18755 | 1,29 % | 0,081 | ||
20 | Х | 18248 | 1,26 % | 0,079 | ||
21 | Л | 14694 | 1,01 % | 0,067 | ||
22 | Ӯ | 13967 | 0,96 % | 0,065 | ||
23 | Ф | 12976 | 0,89 % | 0,061 | ||
24 | П | 12425 | 0,86 % | 0,059 | ||
25 | Ч | 10000 | 0,69 % | 0,050 | ||
26 | Ҷ | 8748 | 0,60 % | 0,044 | ||
27 | Й | 8447 | 0,58 % | 0,043 | ||
28 | Ӣ | 7874 | 0,54 % | 0,041 | ||
29 | Я | 6870 | 0,47 % | 0,037 | ||
30 | Ё | 6454 | 0,45 % | 0,035 | ||
31 | Қ | 4650 | 0,32 % | 0,027 | ||
32 | Ғ | 2734 | 0,19 % | 0,017 | ||
33 | Э | 1503 | 0,10 % | 0,010 | ||
34 | Ъ | 1488 | 0,10 % | 0,010 | ||
35 | Ж | 867 | 0,06 % | 0,006 | ||
36 | Ю | 574 | 0,04 % | 0,004 | ||
Сумма | 1450290 | 100,00 % | 4,246 |
Примечания
- Усманов З. Д., Солиев О. М. Проблема раскладки символов на компьютерной клавиатуре — Душанбе: Ирфон, 2010, 104 с.
- Усманов З. Д., Косимов А. А. Частотность букв таджикской литературы — Доклады Академии наук Республики Таджикистан, 2015, т.58, № 2, с. 112—115
- Косимов А. А. Басомади такроршавии ҳарфҳои адабиёти тоҷик — Маҷаллаи «Шафақ», Нашрияи Кумиҷроияи Ҳизби Халқии Демократии Тоҷикистон дар шаҳри Хуҷанд, 24.11.2015, № 21, с. 2.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.