ЛингвоАнализатор
ЛингвоАнализатор
Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите!

КРАТКИЙ КАТАЛОГ РЕСУРСОВ, ИМЕЮЩИХ ОТНОШЕНИЕ К ЛИНГВОАНАЛИЗАТОРУ


Д. ХМЕЛЁВ

30 Ноября 2000

(изменено 24 октября 2001)





Программы, доступные через сеть


Несколько талантливых забавных лингвистических программ собрано на Весёлой литературной страничке Миши Гринчука, которую поддерживает Лёша Тарасов. Сами программы разработаны Михаилом Ивановичем Гринчуком в те незапамятные времена, когда 286 компьютер стоил три тысячи долларов, а потому, кстати, занимают (скорее, даже не занимают) смешной объем места на диске и их архивы находятся в свободном доступе. Также, имеются в наличии онлайн-версии двух программ:
  • Универсальный отгадчик отгадывает то, что вы задумали с помощью серии наводящих вопросов.
  • Трепло - кладезь мудрости, генерируемой в соответствии с заданным количеством фраз.
Отмечу лишь, что идеи, лежащие в основе Лингвоанализатора, появились в результате строгой статистической проверки именно шуточных программ Михаила Ивановича Гринчука.

На сервере Текстология.RU работает Атрибутор, анонсированный ранее. Как выяснилось, он весьма близкий родственник Лингвоанализатора, непосредственно использующий идеи в него заложенные и даже базирующийся на выборке, которую я использовал в своём первом исследовании по определению авторства (Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. Вестник МГУ, сер.9: филология, N2, 2000, с.115-126; Khmelev D.V. Disputed Authorship Resolution through Using Relative Empirical Entropy for Markov Chains of Letters in Human Language Text. Journal of Quantitative Linguistics, 2000, Volume 7, No 3, pp.201-207.). Создатели Атрибутора ставят себе в заслугу то, что они "подчистили и дополнили" мою исследовательскую выборку текстов, от которой я и не ожидал абсолютной идеальности и которую и нельзя было летом 1998 года пополнить "дополненными" текстами, появившимися в сети значительно позднее.

Мне постоянно твердят о существовании некоего Штампомера Леонида Делицына, но я так и не смог найти программу с таким именем, которая работала бы в сети или, хотя бы, официальную страничку с описанием программы, результатами работы и возможностью послать текст на анализ. Единственное, что я видел - это несколько текстов с размеченными служебными словами безо всяких дополнительных комментариев. Буду весьма признателен за всякую дополнительную информацию по этому вопросу. На настоящий же момент единственной программой в открытом доступе за авторством Леонида Делицына является Худломер, соотносящая входной текст (до 1000 слов) одной из четырёх категорий: разговорного, худла, газетного и научного, информация о которых любезно предоставлена автором по электронной почте:
"За этими категориями стоит т.н. "функциональные стили" языка, описание которых есть в книжках, например, в "Стилистике" Розенталя. Отличие состоит в том, что худломер выделяет 4 стиля:
- разговорный
- художественная литература
- информационные (газетные) статьи
- научно-деловой стиль
а не 5 стилей, как у Розенталя, где научный и деловой стиль разделены. Причиной является то, что без использования специализированных словарей научный и деловой стиль разделить (мне лично) не удаётся" -- Л.Д.

Экспертная система ВААЛ пытается классифицировать тексты по фоносемантике и эмоциональной доминанте. По-видимому, в свободном доступе находятся запускаемые программы. Я их не загружал и не запускал, поделитесь впечатлениями!

Небольшой каталог лингвистических программ поддерживает Дмитрий Любич в разделе "Анализаторы" каталога Интеллектуальные ресурсы" (http://irs.da.ru).




Перечень некоторых важных работ


Несколько важных работ, приведённых в библиографии к Краткой истории разработки методик определения авторского стиля находятся в свободном доступе в интернете.

Работа В.П. Фоменко и Т.Г. Фоменко Авторский инвариант русских литературных текстов. с предисловием А.Т. Фоменко находится в конце длинного файла с текстом книги А.Т. Фоменко Новая хронология Греции: Античность в средневековье. Возможно, эта книга доступна в библиотеках. Эта работа важна хотя бы в том отношении, что в ней впервые производится обширный численный эксперимент на многих разных писателях и на основе этого численного эксперимента делается заключение об устойчивости доли служебных слов на протяжении всей жизни писателя, т.е., обнаружен замечательный авторский инвариант, который можно использовать, в частности, для определения плагиата.

В библиотеке сервера Текстология.RU приведены две классические работы наших соотечественников о перспективах определения авторства с использованием формально- количественных методов.
  • Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора. Стилеметрический этюд. Эта статья об использовании количественных характеристик (в частности, комбинаций употреблений предлогов в и на и частицы не) для определения авторства.
  • Марков А.А. Об одном применении статистического метода. Это самый первый отклик с критикой статьи Морозова. Академик А.А. Марков, создатель плодотворной математической теории так называемых цепей Маркова, возразил не против метода Морозова, а против не тщательной проверки Морозовым устойчивости предлагаемых количественных характеристик (которые действительно оказываются неустойчивыми!) и также предостерёг последующих исследователей от использования таких характеристик, которые при увеличении объёма текста сходятся к средним характеристикам русского языка. Результаты А.А. Маркова были подтверждены последующими исследователями, а подмеченная им неустойчивость характеристик действительно являлась (до разработки Лингвоанализатора) одним из основных препятствий в разработке надёжных универсальных методов определения авторства.
В книге От Нестора до Фонвизина. Новые методы определения авторства. М.: Издат. группа "Прогресс", 1994 активно используется подход к классификации текстов с использованием грамматических классов слов. Сам подход к такой классификации описан в статье Л.И. Бородкина Математические методы и компьютер в задачах атрибуции текстов, которая также находится в библиотеке сервера Текстология.RU. Там читатель найдёт алгоритм построения ориентированного графа переходов между словами разных грамматических классов, а также методику определения связи текстов друг с другом. К числу врождённых недостатков этого способа относится низкая устойчивость, связанная с большим количеством используемых грамматических классов (в выборе которых, кстати, наблюдается большой произвол), а также необходимость человеческого вмешательства в процесс соотнесения слов их грамматическим классам.

К сожалению, мне не удалось найти в открытом доступе работы западных специалистов относительно задачи определения авторства. Тем, кто имеет доступ к библиографическим базам данных, сообщу лишь несколько фамилий учёных, ныне активно работающих в этой области. Это R.H. Baayen, R.S. Forsyth, H. van Halteren, D.I. Holmes, F.J. Tweedie, B. Kjell и S. Singh. Список далеко не полон и представляет лишь тех авторов, с работами которых я когда-либо встречался.




Математика, компьютеры, лингвистика и литература


Довольно хорошо известно, что математика имеет тесные связи с лингвистикой. В частности, уже упоминавшийся создатель цепей Маркова академик А.А. Марков впервые использовал свой новый математический аппарат испытаний, связанных в цепь, для объяснения распределения числа гласных и согласных в первой главе Евгения Онегина.

Другим выдающимся математиком, который живо интересовался лингвистикой и внёс в неё значительный вклад, был А.Н. Колмогоров. В 24 номере журнала Новое Литературное обозрение в 1997 году была напечатана большая статья В.А. Успенского (который также математик) об Андрее Николаевиче Колмогорове и его работах в лингвистике. Сама статья доступна из Журнального зала.

Некоторые современные работы по квантитативной лингвистике (т.е., количественному языкознанию) можно найти на листе рассылки по гуманитарному языкознанию humlang.newmail.ru, который поддерживается А.А. Поликарповым.

Довольно много информации приведено в электронном журнале Текстология.RU. В частности, там перечислены актуальные на нынешний день проблемы атрибуции текстов.

Идея о машинах или программах, производящих нетривиальные лингвистические операции многократно высказывалась фантастами. Наиболее ранним упоминанием мистической машины, определяющей объективную ценность текста, по-видимому, является рассказ Mensura Zoili японского писателя Акутагава Рюноске. К этой идее также обращались Аркадий и Борис Стругацкие в своей повести Хромая судьба. Главный герой романа Бориса Стругацкого (как С. Витицкого) Поиск предназначения, или Двадцать седьмая теорема этики занимался на досуге некоей лингвистической программой, которая генерировала афоризмы. Активно занимался генерацией афоризмов Дмитрий Любич, который недавно издал книгу 1000 афоризмов из афоризмов, сгенерированных машиной. Его рекомендации о том, как забавляться с афоризмами, можно найти в его главе (http://lg.i-connect.ru) из книжки "Компьютерные игры", под ред. д.т.н. проф. М. Б. Игнатьева, Л.: Лениздат, 1988. Дальнейшие описания лингвистических игр читатель найдёт в книге Лингвистические игры того же Дмитрия Любича.

В заключение, хочется отметить, что приведённые ссылки вовсе не претендуют на полноту, а являются лишь отражением знаний автора этой заметки о сетевых публикациях и проектах в этой области.

Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите!
Rambler's Top100 Service  
©1999 Программа лингвоанализа, Дмитрий Хмелёв.
©1999--2002 Автор программы, редактор, Дмитрий Хмелёв.
©1999 Идеи, редактура, Дмитрий Ватолин.
©1999 Рисунки, Егор Славинский.
©1999-2000 Web-интерфейс, Павел Петриенко.
TopList

Версия: 2.02.00