Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Постановка задачиПусть дан текст на русском языке. Попробуем решить следующие задачи: 1. Определение автора из множества известных, книги которых у нас уже проанализированы. 2. Определение основных факторов оказывающих наибольшее влияние на распределение частот слов в тексте. 3. Определение соционического типа автора текста с помощью частотного анализа. Новая методика определения авторства по тексту на естественном языке Первая попытка создания методики для определения автора текста была сделана еще в самом начале 20 века Морозовым. Позднее она была подвергнута критике специалистом по теории вероятностей и математической статистике Марковым. Уже в наше время была предложена интересная методика определения авторства текста с использованием буквенной и грамматической информации, которая использует формальную математическую модель последовательности букв (и любых других элементов) текста как реализации цепи Маркова. Известный пример с определением авторства романа «Тихий Дон», об ответе на которой спорят несколько десятилетий, показывает, что данная проблема до сих пор актуальна. В настоящий момент, в связи с бурным развитием вычислительной техники встает вопрос о попытках автоматизировать этот процесс. В частности, математиком Хетсо была предложена методика на основе следующих параметров:
C помощью нее он провел компьютерный анализ текстов Шолохова, подтвердивший его авторство. Известно, что клуб любителей творчества Пушкина собирал информацию о частотном распределении слов великого поэта. На это занятие им понадобилось несколько лет кропотливого труда. К счастью, с приходом новейших технологий, туже самую операцию компьютер способен сделать за несколько минут с гораздо большей точностью. Методика, которая описывается в этой статье, была случайно получена мной в качестве побочного эффекта при исследовании возможности определения соционического типа автора текста на естественном языке. До этого я не читал материалов по данной теме. Cлова русского языка имеют огромную разницу в распределении частот. Например, слово «время» встречается в 500 раз чаще чем «удивительный». В качестве эталона распределения частот слов русского языка был взят частотный словарь Шарова (общее количество различных слов более 60000), который составлен на основе анализа 40 миллионов слов и является более адекватным чем аналогичный известный частотный словарь Засориной, который был составлен в 1977 году и использовал для анализа всего лишь 1 миллион слов. В базу данных Oracle были закачаны результаты частотного анализа 104 книг 38 человек (количество книг для каждого писателя было от 1 до 14) общим размером более 30 Мегабайт чистого текста, в которых использовано почти 6 миллионов слов. Для анализа были написаны несколько программ на PL/SQL. Алгоритм
Если взять больше 10000 слов, то редкие слова оказывают слишком большое влияние на результат, если меньше, то информации становится недостаточно. Учитывая такое количество слов текст должен быть достаточно большим, желательно от 30 Kb, причем чем больше, тем лучше. На текстах малой длины частоты неустойчивы и сильно зависят от предметной области. К аналогичным выводам пришел польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения: «границей объема текста (ниже которой результаты не достоверны, а выше – достоверны) является пять тысяч словоформ». По данному методу для всех 104 книг автор был определен верно в 102 случаях с двумя ошибками определения для Александра Пушкина «Том 7. История Пугачева. Исторические статьи и материалы» и «Том 9. Письма». Также при правильном определении авторства для для нескольких небольших рассказов Николая Гоголя разница между следующим писателем была не очень большой. Для книг, не участвовавших в формировании словаря данный метод не проверялся, можно понять, что он будет работать на следующем примере. Были взяты 38 словарей писателей. 104 словаря для книг, в том числе пять из них Льва Толстого. В нижеприведенной таблице показано расстояние по словарям для книги Льва Толстого «Юность», если произведение не указано имеется в виду частотный словарь писателя.
Отсюда видно, что все пять книг Толстого плюс словарь писателя попали на первые 14 позиций, то есть книги Толстого находятся достаточно близко друг к другу, поэтому чем больше будет проанализировано данных для составления частотных словарей писателей, тем более надежным будет результат. Жанр произведений Но вернемся к Пушкину и одной из ошибок определения автора по тому 7 «История Пугачева. Исторические статьи и материалы»:
и к правильному определению автора по тому 2 «Стихотворения 1823-1936»:
Вывод, который напрашивается из этих двух таблиц: есть три достаточно далеко расположенные друг от друга группы произведений Пушкина: поэзия (Тома 1-4), письма (Том 9) и проза (Том 7 «История Пугачева. Исторические статьи и материалы»). Таким образом наглядно показано, что кроме собственно авторства частота слов в тексте очень сильно зависит от жанра произведений. Еще одно подтверждения этого было получено, когда были проанализированы два ЖЖ-дневника (авторы имеют психологические типы СЭЭ и ЛСЭ) и сообщения на форуме (автор СЛИ). Казалась бы большое расхождение должны были бы дать разница в стиле, возрасте, образе жизни, психотипе и словарном запасе. Один из словарей был составлен по дневнику журналистки Таты Олейник (Почти_новая_горжетка), у которой словарный запас оказался самым большим по первым 80 книгам. Тем не менее по данной методике расстояния между этими тремя словарями получились относительно небольшими, для одного из словарей два других оказались ближайшими из 37 словарей. Таким образом язык on-line дневников и форумов, близкий к разговорному сильно отличается от литературного и научного, причем это отличие можно выявить с помощью данной методики или ее модификации. А значит ее можно применять для больших социологических и психолингвистических исследований русского языка на больших корпусах текстов. Предметная область Полную версию таблицы расстояний между 28 словарями писателей, психологов и социоников в базе данных можно посмотреть здесь. В качестве психотипа стоит моя версия Далее проанализируем полученную таблицу. Отсортируем список по возрастанию расстояния от словаря Агаты Кристи:
Все писатели сверху! Отсюда следует, что профессия, а значит и предметная область существенно влияют на частотный анализ. Аналогично отсортируем список по возрастанию расстояния от словаря Абрахама Маслоу:
Заметим, что наиболее близкими оказались словари практически всех психологов за исключением Александра Лоуэна. Теперь проверим остается ли действовать это правило для социоников:
Соционики сверху, далее подряд все психологи, опять же за исключением Лоуэна. Таким образом наша гипотеза о существенном влиянии предметной области на распределение частот слов в тексте еще раз подтвердилась. Хотя это правило выполняется не всегда, например, для Гуленко, словарь Филатовой опять же оказывается сверху, но словарь Аушры находится в конце списка. Так почему же словарь Лоуэна расположен настолько далеко от остальных психологов? Объем анализируемого текста Для ответа на этот вопрос построим таблицу для самого Лоуэна:
Получается, что для самого Лоуэна словари психологов оказываются ближе, чем все остальные. Так в чем же дело? Мне кажется в данном случае есть две основные причины:
Еще одним фактор, который может воздействовать на частоту вхождения слов, время написания книги, подробно не анализировался. А теперь переходим к самому интересному для социоников. Попытка определения психотипа Отсортируем список по возрастанию расстояния от словаря Германа Гессе:
Опять все писатели сверху, то есть влияние предметной области определяется достаточно точно. Но если посмотреть на психотип ИЛИ, то он получается разбросанным по всей таблице. Аналогичные результаты видны и в остальных таблицах, приводимых выше. Я собрал версии о психотипах известных людей большинства известных социоников и построил эталонный список на основе их анализа. В нем, как представители типа интуитивно-логических интровертов (ИЛИ), оказались Герман Гессе, Станислав Лем и Гарсия Маркес (мое мнение — ЭСЭ), по поводу психотипа Карла Густава Юнга мнения социоников разделились между ИЛИ и ЛИИ. В любом случае при замене версий типов Маркеса и Юнга на более распространенные общая картина не меняется, то есть данная методика, использующая частотный анализ первых 5000-10000 наиболее употребляемых слов не может дать определение психотипа (точнее совпадения с наиболее вероятными версиями). Итак, в целом частотные словари оказались достаточно устойчивыми на больших массивах информации. То есть каждый их нас обладает своим неповторимым частотным словарем и аналогично почерку его можно идентифицировать с достаточно большой вероятностью. Это дает надежду возможности определения психотипа на основе его анализа. О семантическом подходе в соционике писали Вайсбанд, Филимонов, Ритчик, Шепетько, Аушра. Прокофьева, Ермак, питерская группа социоников, а также авторы этого сайта (я и Елена Заманская) составили свои семантические словари по каждой из функций. Первые же идеи, которая приходят в голову для модификации данной методики: отфильтровать слова русского языка и рассматривать только те, которые относят к наполнению соционических функций, а также попробовать использовать при типировании основные дихотомии Юнга и признаки Рейнина. Данное исследование было проведено. О его результатах читайте в следующей статье. Заключение Итак в данной статье:
Полученные результаты показывают, что психотип влияет на частоту употребления слов в русском языке в целом меньше, чем предметная область, жанр и размер анализируемого текста. Сам анализируемый текст должен быть достаточно большим, иначе выводы будут ненадежными! Данная статья не претендует на полноценное исследование, так как, например, для оценки надежности новой методики определения авторства нужно обработать гораздо большое число книг и источников информации. Возможно я это сделаю в будущем. Олег Хрулев Список литературы
|