Генеральный интернет-корпус русского языка

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году. Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.

Генеральный интернет-корпус русского языка
URL webcorpora.ru
Коммерческий нет
Тип сайта образовательный/научный проект
Регистрация есть: необходима для получения доступа к поиску
Язык(-и) русский
Расположение сервера Россия
Начало работы 2012 год
Текущий статус работает и развивается
Рейтинг Alexa
 11 960 651 (9 сентября 2017)[1]

Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную[2] возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ, МФТИ, РГГУ, НГУ, НИУ ВШЭ, ИЯ РАН, ЮФУ, ЧГУ, ВГПУ, ИСАА МГУ.

Научные руководители проекта:

В создании и поддержке проекта участвовали:

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на «Вконтакте», 40 % — на Живой Журнал, еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал[5]. В сегменте Новостей собраны материалы из источников: РИА Новости, Regnum, Lenta.ru, Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы[5]. Большую часть текстов создают записи за 20132014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты, начиная с 1994 года[6].

ПодкорпусСлов, млнТекстов
Блоги@Mail.ru7079882120
ВКонтакте9820193770717
Живой Журнал811073229158
Журнальный зал31356547
Новостной подкорпус (РИА Новости, Regnum, Lenta.ru, Росбалт)8512964897
Весь корпус19801279903439

ГИКРЯ является одним из немногих мега-корпусов, достигающих объемом нескольких миллиардов слов.

КорпусЯзыкиДоступСайтОбъемВозможности
COW: Free, Large Web Corpora in European LanguagesАнглийский, французский, немецкий, испанский, шведский, нидерландскийбесплатно, после регистрации, возможен ознакомительный доступ без регистрацииhttps://web.archive.org/web/20160221212019/https://webcorpora.org/порядка 30 млрд словформат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL, стране, городу и т. д.
Sketch Engineанглийский, французский, немецкий, итальянский, арабский, русский, испанский, португальский, корейский, японский, китайский; больше языков доступны платноплатно, после регистрации, возможен ознакомительный доступhttps://www.sketchengine.co.uk/86 млрд словконкордансы, скетч-грамматика, тезаурусы, KWIC, морфоразметка, поиск по CQP
Aranea Corporaанглийский, русский, финский, французский, немецкий, венгерский, испанский, итальянский, голландский, польский, словацкийбесплатно, после регистрации, возможен ознакомительный доступ без регистрацииhttp://sketch.juls.savba.sk/aranea_about/ около 14 млрд словnoSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языкарусскийбесплатно, регистрация по запросуhttp://www.webcorpora.ru/20 млрд словформат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета, полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE)английский, спецификация 20 стран мирабез регистрацииhttp://corpus.byu.edu/glowbe/1,9 млрд словKWIC, конкордансы, коллокаты, сравнение результатов по диалектам, CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Примечания

  1. webcorpora.ru Competitive Analysis, Marketing Mix and Traffic - Alexa (англ.). Alexa Internet. — Глобальный рейтинг сайта «Генеральный интернет-корпус русского языка». Дата обращения: 9 сентября 2017.
  2. ВЛАДИМИР БЕЛИКОВ. Дата обращения: 26 декабря 2019.
  3. Automatic Classification of Web Texts Using Functional Text Dimensions
  4. Коллектив | ГИКРЯ. Дата обращения: 26 декабря 2019.
  5. Корпус | ГИКРЯ. Дата обращения: 26 декабря 2019.
  6. #geekrya #geekrya_stats За какие.. | ГИКРЯ Генеральный интернет-корпус русского языка | VK

Литература

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.