Корпус Хамшахри
Корпус Хамшахри (перс. پیکره همشهری) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри», одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group[1], базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада[2], на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.
Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.
Версия 1.0
Эта версия содержала более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, отчеты, редакционные статьи, литература, науки, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (порядка 140 КБ) со средним значением 1,8 КБ.
Корпус доступен в нескольких форматах для загрузки[2]:
- текст с тегами: 560 МБ
- В таблицах SQL Server 2000: 712 МБ.
Версия 2.0
Эта версия была запущена 20 октября 2008 года, по сравнению с предыдущей имеет несколько новых функций:
- Другие новости: 323 616 текстовых историй в 3206 файлах XML (файл на каждый день);
- Увеличение периода публикаций: с 22 июня 1996 года по 13 мая 2007 года;
- Больший объём: 1,42 ГБ без сжатия;
- Стандартная кодировка: Unicode XML;
- Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач поиска изображений;
- Категоризированные новости: новостные сюжеты были классифицированы полуавтоматически (для задач классификации текста и категоризации).
Корпус доступен для загрузки в формате XML.
Ссылки
- Hamshahri Corpus Homepage (англ.)
- irBlogs Collection Homepage (англ.)