Корпус современного американского английского языка

Корпус современного американского английского (англ. Corpus of Contemporary American English, COCA) — электронный корпус текстов, созданный профессором корпусной лингвистики Марком Дэвисом из Brigham Young University в 2000—2003 годах на основе текстов журнала Time, написанных с 1923 года[1].

Это наибольший (450 млн слов) корпус текстов американского варианта английского языка и единственный свободно доступный корпус на этом языке, включающий большое разнообразие текстов различных жанров. Он составлен из более чем 160 тыс. текстов, включая по 20 млн слов за каждый год с 1990 по 2011. Это наиболее широко используемый структурированный корпус текстов, ежемесячно его используют примерно 10 000 человек.

Другие корпусы Дэвиса

TIME Magazine corpus

Корпус составлен более чем из 275000 статей из архива журнала TIME Архивная копия от 20 октября 2013 на Wayback Machine и содержит больше 100 миллионов слов из текстов, написанных с 1923 по 2006 год. TIME Magazine Corpus интегрирован в общую систему других корпусов, созданных Марком Дэвисом (которая также включает в себя базы данных Corpus of Historical American English (COHA), Corpus del Español или Corpus of American Soap Operas)[2].

Принцип работы

Архитектура корпуса построена по принципу других проектов Марка Дэвиса, например корпуса современного американского английского языка — Corpus of Contemporary American English (COCA). Существует центральная база n-граммов, которая содержит информацию о каждом из ста миллионов слов корпуса. Они связаны с таблицами, позволяющими анализировать регистр, а также с отдельными таблицами для синонимов, лемм и форм, появляющихся у слова с течением времени.

Разметка текстов производилась с помощью CLAWS-теггера (Constituent Likelihood Automatic Word-tagging System)[3]. Эта же программа использовалась при создании других корпусов Марка Дэвиса, а также Британского национального корпуса.

Оборудование для корпуса было подобрано так, чтобы обеспечить крайне быстрый поиск — как правило, он занимает менее секунды даже для самых сложных запросов, содержащих словоформу, часть речи, частоту и регистр.

Возможности использования

TIME Magazine Corpus позволяет производить поиск как отдельных слов и словосочетаний, так и специфических грамматических форм или синонимических рядов, а также увидеть контекст их употребления и изменение частоты использования.

Корпус позволяет исследовать:

  • изменение частоты и контекста использования слов и фраз, связанных с переменами в культурной и социальной жизни общества
  • языковые перемены в морфологии и грамматических конструкциях
  • колебания частоты использования тех или иных групп слов со временем
  • семантические изменения слов на протяжении XX века

Доступ

Доступ к корпусу предоставляется бесплатно.

Необходима регистрация с предоставлением электронного адреса либо информации об организации и статусе пользователя в зависимости от требуемого уровня доступа. Уровней доступа пять в трёх категориях: not researcher, semi-researcher, researcher. Все они различаются объёмом предоставляемой информации в сутки (если начинающему пользователю доступно совершение 100 запросов в день, то профессор или аспирант, зарегистрированный в качестве исследователя, за тот же период времени может выполнить поиск 600 раз).

См. также

Примечания

  1. Kauhanen, Henri The Corpus of Contemporary American English: Background and history. VARIENG (21 марта 2011). Дата обращения: 13 октября 2011.
  2. Список корпусов, созданных Марком Дэвисом. По данным Google Analytics на март 2012 года, к услугам этой базы данных ежемесячно прибегают более 100 тысяч уникальных пользователей.
  3. CLAWS part-of-speech tagger for English

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.