Корпус Хамшахри

Корпус Хамшахри (перс. پیکره همشهری) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри», одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group[1], базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада[2], на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.

Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.

Версия 1.0

Эта версия содержала более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, отчеты, редакционные статьи, литература, науки, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (порядка 140 КБ) со средним значением 1,8 КБ.

Корпус доступен в нескольких форматах для загрузки[2]:

  • текст с тегами: 560 МБ
  • В таблицах SQL Server 2000: 712 МБ.

Версия 2.0

Эта версия была запущена 20 октября 2008 года, по сравнению с предыдущей имеет несколько новых функций:

  • Другие новости: 323 616 текстовых историй в 3206 файлах XML (файл на каждый день);
  • Увеличение периода публикаций: с 22 июня 1996 года по 13 мая 2007 года;
  • Больший объём: 1,42 ГБ без сжатия;
  • Стандартная кодировка: Unicode XML;
  • Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач поиска изображений;
  • Категоризированные новости: новостные сюжеты были классифицированы полуавтоматически (для задач классификации текста и категоризации).

Корпус доступен для загрузки в формате XML.

Примечания

  1. DBRG News Database Research Group
  2. Hamshahri Database Research Group

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.