Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите! |
|
|
Программы, доступные через сеть |
Несколько талантливых забавных лингвистических программ собрано на Весёлой литературной страничке Миши Гринчука, которую поддерживает Лёша Тарасов. Сами программы разработаны Михаилом Ивановичем Гринчуком в те незапамятные времена, когда 286 компьютер стоил три тысячи долларов, а потому, кстати, занимают (скорее, даже не занимают) смешной объем места на диске и их архивы находятся в свободном доступе. Также, имеются в наличии онлайн-версии двух программ:
На сервере Текстология.RU работает Атрибутор, анонсированный ранее. Как выяснилось, он весьма близкий родственник Лингвоанализатора, непосредственно использующий идеи в него заложенные и даже базирующийся на выборке, которую я использовал в своём первом исследовании по определению авторства (Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. Вестник МГУ, сер.9: филология, N2, 2000, с.115-126; Khmelev D.V. Disputed Authorship Resolution through Using Relative Empirical Entropy for Markov Chains of Letters in Human Language Text. Journal of Quantitative Linguistics, 2000, Volume 7, No 3, pp.201-207.). Создатели Атрибутора ставят себе в заслугу то, что они "подчистили и дополнили" мою исследовательскую выборку текстов, от которой я и не ожидал абсолютной идеальности и которую и нельзя было летом 1998 года пополнить "дополненными" текстами, появившимися в сети значительно позднее. Мне постоянно твердят о существовании некоего Штампомера Леонида Делицына, но я так и не смог найти программу с таким именем, которая работала бы в сети или, хотя бы, официальную страничку с описанием программы, результатами работы и возможностью послать текст на анализ. Единственное, что я видел - это несколько текстов с размеченными служебными словами безо всяких дополнительных комментариев. Буду весьма признателен за всякую дополнительную информацию по этому вопросу. На настоящий же момент единственной программой в открытом доступе за авторством Леонида Делицына является Худломер, соотносящая входной текст (до 1000 слов) одной из четырёх категорий: разговорного, худла, газетного и научного, информация о которых любезно предоставлена автором по электронной почте: "За этими категориями стоит т.н. "функциональные стили" языка, описание которых есть в книжках, например, в "Стилистике" Розенталя. Отличие состоит в том, что худломер выделяет 4 стиля: - разговорный - художественная литература - информационные (газетные) статьи - научно-деловой стиль а не 5 стилей, как у Розенталя, где научный и деловой стиль разделены. Причиной является то, что без использования специализированных словарей научный и деловой стиль разделить (мне лично) не удаётся" -- Л.Д. Экспертная система ВААЛ пытается классифицировать тексты по фоносемантике и эмоциональной доминанте. По-видимому, в свободном доступе находятся запускаемые программы. Я их не загружал и не запускал, поделитесь впечатлениями! Небольшой каталог лингвистических программ поддерживает Дмитрий Любич в разделе "Анализаторы" каталога Интеллектуальные ресурсы" (http://irs.da.ru). |
Перечень некоторых важных работ |
Несколько важных работ, приведённых в библиографии к Краткой истории разработки методик определения авторского стиля находятся в свободном доступе в интернете. Работа В.П. Фоменко и Т.Г. Фоменко Авторский инвариант русских литературных текстов. с предисловием А.Т. Фоменко находится в конце длинного файла с текстом книги А.Т. Фоменко Новая хронология Греции: Античность в средневековье. Возможно, эта книга доступна в библиотеках. Эта работа важна хотя бы в том отношении, что в ней впервые производится обширный численный эксперимент на многих разных писателях и на основе этого численного эксперимента делается заключение об устойчивости доли служебных слов на протяжении всей жизни писателя, т.е., обнаружен замечательный авторский инвариант, который можно использовать, в частности, для определения плагиата. В библиотеке сервера Текстология.RU приведены две классические работы наших соотечественников о перспективах определения авторства с использованием формально- количественных методов.
К сожалению, мне не удалось найти в открытом доступе работы западных специалистов относительно задачи определения авторства. Тем, кто имеет доступ к библиографическим базам данных, сообщу лишь несколько фамилий учёных, ныне активно работающих в этой области. Это R.H. Baayen, R.S. Forsyth, H. van Halteren, D.I. Holmes, F.J. Tweedie, B. Kjell и S. Singh. Список далеко не полон и представляет лишь тех авторов, с работами которых я когда-либо встречался. |
Математика, компьютеры, лингвистика и литература |
Довольно хорошо известно, что математика имеет тесные связи с лингвистикой. В частности, уже упоминавшийся создатель цепей Маркова академик А.А. Марков впервые использовал свой новый математический аппарат испытаний, связанных в цепь, для объяснения распределения числа гласных и согласных в первой главе Евгения Онегина. Другим выдающимся математиком, который живо интересовался лингвистикой и внёс в неё значительный вклад, был А.Н. Колмогоров. В 24 номере журнала Новое Литературное обозрение в 1997 году была напечатана большая статья В.А. Успенского (который также математик) об Андрее Николаевиче Колмогорове и его работах в лингвистике. Сама статья доступна из Журнального зала. Некоторые современные работы по квантитативной лингвистике (т.е., количественному языкознанию) можно найти на листе рассылки по гуманитарному языкознанию humlang.newmail.ru, который поддерживается А.А. Поликарповым. Довольно много информации приведено в электронном журнале Текстология.RU. В частности, там перечислены актуальные на нынешний день проблемы атрибуции текстов. Идея о машинах или программах, производящих нетривиальные лингвистические операции многократно высказывалась фантастами. Наиболее ранним упоминанием мистической машины, определяющей объективную ценность текста, по-видимому, является рассказ Mensura Zoili японского писателя Акутагава Рюноске. К этой идее также обращались Аркадий и Борис Стругацкие в своей повести Хромая судьба. Главный герой романа Бориса Стругацкого (как С. Витицкого) Поиск предназначения, или Двадцать седьмая теорема этики занимался на досуге некоей лингвистической программой, которая генерировала афоризмы. Активно занимался генерацией афоризмов Дмитрий Любич, который недавно издал книгу 1000 афоризмов из афоризмов, сгенерированных машиной. Его рекомендации о том, как забавляться с афоризмами, можно найти в его главе (http://lg.i-connect.ru) из книжки "Компьютерные игры", под ред. д.т.н. проф. М. Б. Игнатьева, Л.: Лениздат, 1988. Дальнейшие описания лингвистических игр читатель найдёт в книге Лингвистические игры того же Дмитрия Любича. В заключение, хочется отметить, что приведённые ссылки вовсе не претендуют на полноту, а являются лишь отражением знаний автора этой заметки о сетевых публикациях и проектах в этой области. |
Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите! |
©1999 Программа лингвоанализа, Дмитрий Хмелёв. ©1999--2002 Автор программы, редактор, Дмитрий Хмелёв. ©1999 Идеи, редактура, Дмитрий Ватолин. ©1999 Рисунки, Егор Славинский. ©1999-2000 Web-интерфейс, Павел Петриенко. |