Авторский инвариант
Авторский инвариант (англ. writer invariant, authorial invariant, author's invariant) — это количественная характеристика литературных текстов или некий параметр, который однозначно характеризует своим поведением произведения одного автора или небольшого числа «близких авторов», и принимает существенно разные значения для произведений разных групп авторов. Авторский инвариант применяется в задаче идентификации авторства текста.
Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.
Описание
Основные свойства, которыми должна обладать числовая характеристика авторского инварианта:
- Она должна быть достаточно «массовой», интегральной, чтобы слабо контролироваться автором на сознательном уровне. Другими словами, она должна быть его «бессознательным параметром», коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и типичное для него состояние.
- Искомый параметр должен сохранять «постоянное значение» для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является инвариантом.
- Параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.
Такими количественными характеристиками могут быть:
- Длина предложений, то есть среднее число слов в предложении.
- Длина слов, то есть среднее количество слогов в слове.
- Общая частота употребления служебных слов - предлогов, союзов, частиц, то есть процентное содержание служебных слов.
- Частота употребления существительных, то есть их процентное содержание.
- Частота употребления глаголов, то есть их процентное содержание.
- Частота употребления прилагательных (в процентах).
- Частота употребления предлога «в» (в процентах).
- Частота употребления частицы «не» (в процентах).
- Количество служебных слов в предложении, то есть среднее число союзов, предлогов и частиц в предложении.
Идентификация авторства текста
Задача идентификации авторства текста
Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:[1]
— множество текстов,
— множество авторов.
Для некоторого подмножества текстов авторы известны , т.е. существует множество пар «текст–автор» . Необходимо установить, кто из множества является истинным автором остальных текстов (анонимных или спорных)
Методика идентификации автора неизвестного текста
Методика включает последовательность следующих действий:[1]
- Выбор модели представления текстов в виде наборов признаков.
- Выбор группы признаков для проверки и формирования из неё авторского инварианта.
- Выбор классификаторов и их параметров.
- Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классификатора.
- Непосредственно определение авторства неизвестного текста.
- Принятие итогового решения об авторе текста ансамблем классификаторов в случае, если удалось найти несколько информативных групп признаков текста.
Программное обеспечение для идентификации авторства текста
Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:[2]
Название программы (Application name) | Автор (Developer) | Сайт (Website) | Описание (Description) |
---|---|---|---|
Программы для определения авторства текста | |||
Штампомер | Делицын Л. Л. | Штампомер | Программа статистического анализа текста и определения авторства. |
Лингвоанализатор[3] | Хмелев Д. В. | Лингвоанализатор | Программа математического анализа структуры текста. Работает онлайн. Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения. |
СМАЛТ | ПетрГУ | СМАЛТ | Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству. |
Стилеанализатор | Шевелев О. Г. | — | Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора. |
Программы выявления плагиата | |||
Антиплагиат | ЗАО «Анти-Плагиат», «Форексис» | Антиплагиат | Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете. |
Плагиат Информ | «СофтИнформ» | Плагиат Информ | Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей. |
АУРА-Текст | СПбГУ | АУРА-Текст (недоступная ссылка) | Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики. |
Программы интеллектуального анализа данных | |||
Intelligent Miner for Text | IBM | Intelligent Miner for Text | Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации. |
TextAnalyst, PolyAnalyst | Мегапьютер Интеллидженс | TextAnalyst, PolyAnalyst | PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами Text Mining: создание семантической сети текста, аннотация текста, кластеризация и классификация документов. |
Text Miner | SAS | Text Miner (недоступная ссылка с 13-05-2013 [3207 дней] — история) | Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными. |
SemioMap | Semio Corporation | — | Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть, сервер представляет эту сеть в виде графиков. |
Oracle Text, Oracle Data Mining | Oracle | Oracle Text, Oracle Data Mining | Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат. |
Knowledge Server | Autonomy | Knowledge Server | Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке. |
Программы, составляющие психологический портрет автора текста | |||
ЛИНГВА-ЭКСПРЕСС | Батов В. И. | — | Программа выявления особенностей речевого поведения и характера автора. |
Prostyle | США | — | Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами. |
ВААЛ | Белянина В. П. | ВААЛ | Программа фоносемантического анализа текста. |
Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов.[4] Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.[5]
См. также
Примечания
- Обобщенная методика идентификации автора неизвестного текста, 2010, с. 1.
- Обзор программного обеспечения для идентификации авторства текста, 2008, с. 182.
- Распознавание автора текста с использованием цепей А.А. Маркова, 2000.
- Обзор программного обеспечения для идентификации авторства текста, 2008, с. 183.
- Обзор программного обеспечения для идентификации авторства текста, 2008, с. 184.
Литература
- на русском языке
- Романов А. Шелупанов А. Бондарчук С. Обобщенная методика идентификации автора неизвестного текста // Доклады Томского государственного университета систем управления и радиоэлектроники : журнал. — 2010. — № 1(21). — С. 108-112. — ISSN 1818-0442.
- Романов А. Идентификация авторства текста : Материалы конф. / Научная сессия ТУСУР-2006, Томск, 4-7 мая, 2006. — В-Спектр, 2006. — С. 115-116. — ISBN 5-91191-003-9.
- Романов А. Обзор программного обеспечения для идентификации авторства текста : Материалы конф. / Научная сессия ТУСУР-2007, Томск, 5-8 мая, 2008. — В-Спектр, 2008. — С. 182-184. — ISBN 978-5-91191-080-8.
- Хмелев Д. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ : журнал. — 2000. — № 2. — С. 115-126. — ISSN 0130-0075.
- на других языках
- Bensefia A., Paquet T., Heutte L. Information Retrieval Based Writer Identification (англ.) : Материалы конф. / ICDAR '03, Edinburgh, Scotland, August 3-6, 2003. — 2003. — P. 946-950. — ISBN 0-7695-1960-1. (недоступная ссылка)
- Bensefia A., Nosary A., Paquet T., Heutte L. Writer Identification By Writer’s Invariants (англ.) : Материалы конф. / IWFHR '02, Ontario, Canada, August 6-8, 2002. — 2002. — P. 274-279. — ISBN 0-7695-1692-0. Архивировано 28 октября 2005 года.
- Seropian A., Grimaldi M., Vincent N. Writer Identification based on the fractal construction of a reference base (англ.) : Материалы конф. / ICDAR '03, Edinburgh, Scotland, August 3-6, 2003. — 2003. — P. 1163-1167. — ISBN 0-7695-1960-1. (недоступная ссылка)