Корпус Хамшахри

Корпус Хамшахри (перс. پیکره همشهری‎) — корпус текстов на персидском языке, основанный на контенте иранской газеты «Хамшахри», одного из первых онлайн-изданий на персидском языке. Первоначально собран и составлен Эхсаном Дарруди из DBRG Group[1], базирующейся в Тегеранском университете. Позднее группа под руководством Али Ахмада[2], на основе этого корпуса создала первую базу персидских текстов, пригодную для задач информационного поиска.

Корпус Хамшахри был создан путем сканирования новостных статей с веб-сайта газеты «Хамшахри» и последующей обработки HTML-страниц для создания стандартного текстового корпуса, пригодного для стандартного поиска информации.

Версия 1.0

Эта версия содержала более 160 000 статей, охватывающих следующие тематические категории: политика, городские новости, экономика, отчеты, редакционные статьи, литература, науки, общество, зарубежные новости, спорт и т. д. Размер документов варьируется от коротких новостей (менее 1 КБ) до довольно длинных статей (порядка 140 КБ) со средним значением 1,8 КБ.

Корпус доступен в нескольких форматах для загрузки[2]:

текст с тегами: 560 МБ
В таблицах SQL Server 2000: 712 МБ.

Версия 2.0

Эта версия была запущена 20 октября 2008 года, по сравнению с предыдущей имеет несколько новых функций:

Другие новости: 323 616 текстовых историй в 3206 файлах XML (файл на каждый день);
Увеличение периода публикаций: с 22 июня 1996 года по 13 мая 2007 года;
Больший объём: 1,42 ГБ без сжатия;
Стандартная кодировка: Unicode XML;
Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает их пригодными для задач поиска изображений;
Категоризированные новости: новостные сюжеты были классифицированы полуавтоматически (для задач классификации текста и категоризации).

Корпус доступен для загрузки в формате XML.

Примечания

DBRG News Database Research Group
Hamshahri Database Research Group

Ссылки

Hamshahri Corpus Homepage (англ.)
irBlogs Collection Homepage (англ.)

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] DBRG News Database Research Group

[ham-2] Hamshahri Database Research Group

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD