Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста

Постановка задачи

Пусть дан текст на русском языке. Попробуем решить следующие задачи:

1. Определение автора из множества известных, книги которых у нас уже проанализированы.

2. Определение основных факторов оказывающих наибольшее влияние на распределение частот слов в тексте.

3. Определение соционического типа автора текста с помощью частотного анализа.

Новая методика определения авторства по тексту на естественном языке

Первая попытка создания методики для определения автора текста была сделана еще в самом начале 20 века Морозовым. Позднее она была подвергнута критике специалистом по теории вероятностей и математической статистике Марковым.

Уже в наше время была предложена интересная методика определения авторства текста с использованием буквенной и грамматической информации, которая использует формальную математическую модель последовательности букв (и любых других элементов) текста как реализации цепи Маркова.

Известный пример с определением авторства романа «Тихий Дон», об ответе на которой спорят несколько десятилетий, показывает, что данная проблема до сих пор актуальна. В настоящий момент, в связи с бурным развитием вычислительной техники встает вопрос о попытках автоматизировать этот процесс. В частности, математиком Хетсо была предложена методика на основе следующих параметров:

Средняя длина слова в буквах, вычисляемая на основании выборок размером 500 текстовых слов.
Общее распределение длины слова.
Средняя длина предложения в словах, вычисляемая на основании выборок размером в 30 предложений.
Общее распределение длины предложения.
Лексический спектр текста на уровня словаря.
Лексический спектр текста на уровне текста.
Индекс разнообразия лексики.

C помощью нее он провел компьютерный анализ текстов Шолохова, подтвердивший его авторство.

Известно, что клуб любителей творчества Пушкина собирал информацию о частотном распределении слов великого поэта. На это занятие им понадобилось несколько лет кропотливого труда. К счастью, с приходом новейших технологий, туже самую операцию компьютер способен сделать за несколько минут с гораздо большей точностью.

Методика, которая описывается в этой статье, была случайно получена мной в качестве побочного эффекта при исследовании возможности определения соционического типа автора текста на естественном языке. До этого я не читал материалов по данной теме.

Cлова русского языка имеют огромную разницу в распределении частот. Например, слово «время» встречается в 500 раз чаще чем «удивительный». В качестве эталона распределения частот слов русского языка был взят частотный словарь Шарова (общее количество различных слов более 60000), который составлен на основе анализа 40 миллионов слов и является более адекватным чем аналогичный известный частотный словарь Засориной, который был составлен в 1977 году и использовал для анализа всего лишь 1 миллион слов.

В базу данных Oracle были закачаны результаты частотного анализа 104 книг 38 человек (количество книг для каждого писателя было от 1 до 14) общим размером более 30 Мегабайт чистого текста, в которых использовано почти 6 миллионов слов. Для анализа были написаны несколько программ на PL/SQL.

Алгоритм

Составление частотного словаря для каждой книги.
На основе нескольких книг создается частотный словарь писателя.
C помощью частотного словаря Шарова происходит нормализация. То есть полученные значения частоты употребления слов делятся на средние в русском языке.
Вводится понятие расстояния между словарями, как сумма квадратов разностей частот между отдельными анализируемыми словами.
При этом если слово есть в одном словаре, но совсем отсутствует в другом, то оно не учитывается (для чего это сделано объясняется ниже)
Учитываются первые 5000-10000 наиболее употребляемых слов русского языка.
В качестве результата берется словарь с минимальным расстоянием.

Если взять больше 10000 слов, то редкие слова оказывают слишком большое влияние на результат, если меньше, то информации становится недостаточно. Учитывая такое количество слов текст должен быть достаточно большим, желательно от 30 Kb, причем чем больше, тем лучше. На текстах малой длины частоты неустойчивы и сильно зависят от предметной области. К аналогичным выводам пришел польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения: «границей объема текста (ниже которой результаты не достоверны, а выше – достоверны) является пять тысяч словоформ».

По данному методу для всех 104 книг автор был определен верно в 102 случаях с двумя ошибками определения для Александра Пушкина «Том 7. История Пугачева. Исторические статьи и материалы» и «Том 9. Письма». Также при правильном определении авторства для для нескольких небольших рассказов Николая Гоголя разница между следующим писателем была не очень большой. Для книг, не участвовавших в формировании словаря данный метод не проверялся, можно понять, что он будет работать на следующем примере.

Были взяты 38 словарей писателей. 104 словаря для книг, в том числе пять из них Льва Толстого. В нижеприведенной таблице показано расстояние по словарям для книги Льва Толстого «Юность», если произведение не указано имеется в виду частотный словарь писателя.

№	Автор	Произведение	Расстояние
1	Лев Толстой	Юность	0
2	Лев Толстой	Частотный словарь автора	168
3	Лев Толстой	Детство	289
4	Лев Толстой	Война и мир. Том 2	307
5	Джек Лондон	Частотный словарь автора	373
6	Герман Гессе	Эссе	385
7	Николай Гоголь	Частотный словарь автора	393
8	Герман Гессе	Частотный словарь автора	396
9	Федор Достоевский	Частотный словарь автора	403
10	Федор Достоевский	Записки из мертвого дома	404
11	Иван Тургенев	Новь	406
12	Лев Толстой	Хаджи-Мурат	415
13	Иван Тургенев	Казаки	421
14	Лев Толстой	Частотный словарь автора	422
…	…	…	…
142	Жан-Поль Сартр	Частотный словарь автора	8668

Отсюда видно, что все пять книг Толстого плюс словарь писателя попали на первые 14 позиций, то есть книги Толстого находятся достаточно близко друг к другу, поэтому чем больше будет проанализировано данных для составления частотных словарей писателей, тем более надежным будет результат.

Жанр произведений

Но вернемся к Пушкину и одной из ошибок определения автора по тому 7 «История Пугачева. Исторические статьи и материалы»:

№	Автор	Произведение	Расстояние
1	Александр Пушкин	Том 7 История Пугачева. Исторические статьи и материалы	0
2	Станислав Лем	Звездные дневники Йохана Тихого	341
3	Джек Лондон	Частотный словарь автора	363
4	Станислав Лем	Частотный словарь автора	364
5	Антон Чехов	Частотный словарь автора	375
6	Герман Гессе	Эссе	397
…	…	…	…
39	Александр Пушкин	Частотный словарь автора	545
…	…	…	…
49	Александр Пушкин	Том 2 Стихотворения 1823-1836	575
…	…	…	…
71	Александр Пушкин	Том 4 Евгений Онегин Драматические произведения	650
…	…	…	…
73	Александр Пушкин	Том 1 Стихотворения 1814-1822	657
…	…	…	…
129	Александр Пушкин	Том 9 Письма	2436
…	…	…	…

и к правильному определению автора по тому 2 «Стихотворения 1823-1936»:

№	Автор	Произведение	Расстояние
1	Александр Пушкин	Том 2 Стихотворения 1823-1836	0
2	Александр Пушкин		53
3	Александр Пушкин	Том 1 Стихотворения 1814-1822	143
4	Александр Пушкин	Том 3 Поэмы, сказки	144
5	Александр Пушкин	Том 4 Евгений Онегин Драматические произведения	162
6	Антон Чехов	Рассказы	420
…	…	…	…
35	Александр Пушкин	Том 7 История Пугачева. Исторические статьи и материалы	575
…	…	…	…
130	Александр Пушкин	Том 9 Письма	2456
…	…	…	…

Вывод, который напрашивается из этих двух таблиц: есть три достаточно далеко расположенные друг от друга группы произведений Пушкина: поэзия (Тома 1-4), письма (Том 9) и проза (Том 7 «История Пугачева. Исторические статьи и материалы»). Таким образом наглядно показано, что кроме собственно авторства частота слов в тексте очень сильно зависит от жанра произведений.

Еще одно подтверждения этого было получено, когда были проанализированы два ЖЖ-дневника (авторы имеют психологические типы СЭЭ и ЛСЭ) и сообщения на форуме (автор СЛИ). Казалась бы большое расхождение должны были бы дать разница в стиле, возрасте, образе жизни, психотипе и словарном запасе. Один из словарей был составлен по дневнику журналистки Таты Олейник (Почти_новая_горжетка), у которой словарный запас оказался самым большим по первым 80 книгам. Тем не менее по данной методике расстояния между этими тремя словарями получились относительно небольшими, для одного из словарей два других оказались ближайшими из 37 словарей. Таким образом язык on-line дневников и форумов, близкий к разговорному сильно отличается от литературного и научного, причем это отличие можно выявить с помощью данной методики или ее модификации. А значит ее можно применять для больших социологических и психолингвистических исследований русского языка на больших корпусах текстов.

Предметная область

Полную версию таблицы расстояний между 28 словарями писателей, психологов и социоников в базе данных можно посмотреть здесь. В качестве психотипа стоит моя версия

Далее проанализируем полученную таблицу. Отсортируем список по возрастанию расстояния от словаря Агаты Кристи:

№	Автор	ТИМ	Расстояние	Профессия
1	Агата Кристи	СЛИ	0	писатель
2	Иван Тургенев	ЭСИ	242	писатель
3	Станислав Лем	ИЛИ	256	писатель
4	Антон Чехов	ЛИИ	285	писатель
5	Федор Достоевский	ЭИИ	286	писатель
6	Джек Лондон	ЛИЭ	322	писатель
7	Теодор Драйзер	ЭСИ	350	писатель
8	Виктор Гюго	ЭСЭ	351	писатель
9	Николай Гоголь	ЭИЭ	355	писатель
10	Лев Толстой	СЭЭ	356	писатель
11	Жюль Верн	ЭСЭ	382	писатель
12	Пауло Коэльо	ЭИИ	386	писатель
13	Гарсия Маркес	ЭСЭ	401	писатель
14	Ги де Мопассан	СЛИ	420	писатель
15	Герман Гессе	ИЛИ	428	писатель
16	Зигмунд Фрейд	ИЛЭ	552	психолог
17	Карл Юнг	ИЛИ	574	психолог
18	Эрик Берн	ИЛЭ	713	психолог
19	Александр Пушкин	ИЭЭ	725	поэт
20	Иван Крылов	ИЛИ	742	баснописец
21	Билл Гейтс	ЛИЭ	790	бизнесмен
22	Абрахам Маслоу	ИЭЭ	850	психолог
23	Эрих Фромм	ЭИИ	932	психолог
24	Екатерина Филатова	ЭИИ	952	соционик
25	Жан-Поль Сартр	СЛИ	952	философ
26	Виктор Гуленко	ЛИИ	1 040	соционик
27	Аушра Аугустинавичюте	ИЛЭ	2 604	соционик
28	Александр Лоуэн	СЭИ	3 381	психолог

Все писатели сверху! Отсюда следует, что профессия, а значит и предметная область существенно влияют на частотный анализ.

Аналогично отсортируем список по возрастанию расстояния от словаря Абрахама Маслоу:

№	Автор	ТИМ	Расстояние	Профессия
1	Абрахам Маслоу	ИЭЭ	0	психолог
2	Карл Юнг	ИЛИ	294	психолог
3	Эрих Фромм	ЭИИ	295	психолог
4	Зигмунд Фрейд	ИЛЭ	369	психолог
5	Эрик Берн	ИЛЭ	479	психолог
6	Пауло Коэльо	ЭИИ	653	писатель
7	Станислав Лем	ИЛИ	654	писатель
8	Антон Чехов	ЛИИ	691	писатель
9	Билл Гейтс	ЛИЭ	695	бизнесмен
10	Герман Гессе	ИЛИ	707	писатель
11	Екатерина Филатова	ЭИИ	708	соционик
12	Лев Толстой	СЭЭ	719	писатель
13	Виктор Гюго	ЭСЭ	727	писатель
14	Джек Лондон	ЛИЭ	728	писатель
15	Жюль Верн	ЭСЭ	751	писатель
16	Иван Тургенев	ЭСИ	781	писатель
17	Теодор Драйзер	ЭСИ	793	писатель
18	Федор Достоевский	ЭИИ	830	писатель
19	Агата Кристи	СЛИ	850	писатель
20	Николай Гоголь	ЭИЭ	851	писатель
21	Ги де Мопассан	СЛИ	866	писатель
22	Гарсия Маркес	ЭСЭ	898	писатель
23	Виктор Гуленко	ЛИИ	914	соционик
24	Александр Пушкин	ИЭЭ	1 075	поэт
25	Иван Крылов	ИЛИ	1 238	баснописец
26	Жан-Поль Сартр	СЛИ	1 581	философ
27	Аушра Аугустинавичюте	ИЛЭ	1 707	соционик
28	Александр Лоуэн	СЭИ	2 968	психолог

Заметим, что наиболее близкими оказались словари практически всех психологов за исключением Александра Лоуэна.

Теперь проверим остается ли действовать это правило для социоников:

№	Автор	ТИМ	Расстояние	Профессия
1	Аушра Аугустинавичюте	ИЛЭ	0	соционик
2	Екатерина Филатова	ЭИИ	1 169	соционик
3	Виктор Гуленко	ЛИИ	1 294	соционик
4	Зигмунд Фрейд	ИЛЭ	1 578	психолог
5	Эрих Фромм	ЭИИ	1 670	психолог
6	Карл Юнг	ИЛИ	1 703	психолог
7	Абрахам Маслоу	ИЭЭ	1 707	психолог
8	Эрик Берн	ИЛЭ	1 709	психолог
9	Пауло Коэльо	ЭИИ	2 143	писатель
10	Лев Толстой	СЭЭ	2 154	писатель
11	Антон Чехов	ЛИИ	2 272	писатель
12	Билл Гейтс	ЛИЭ	2 284	бизнесмен
13	Герман Гессе	ИЛИ	2 307	писатель
14	Джек Лондон	ЛИЭ	2 346	писатель
15	Теодор Драйзер	ЭСИ	2 369	писатель
16	Иван Тургенев	ЭСИ	2 378	писатель
17	Станислав Лем	ИЛИ	2 401	писатель
18	Виктор Гюго	ЭСЭ	2 433	писатель
19	Ги де Мопассан	СЛИ	2 470	писатель
20	Николай Гоголь	ЭИЭ	2 505	писатель
21	Жюль Верн	ЭСЭ	2 510	писатель
22	Федор Достоевский	ЭИИ	2 529	писатель
23	Гарсия Маркес	ИЛИ	2 544	писатель
24	Александр Пушкин	ИЭЭ	2 591	поэт
25	Агата Кристи	СЛИ	2 604	писатель
26	Иван Крылов	ИЛИ	2 968	баснописец
27	Жан-Поль Сартр	СЛИ	3 194	философ
28	Александр Лоуэн	СЭИ	3 861	психолог

Соционики сверху, далее подряд все психологи, опять же за исключением Лоуэна. Таким образом наша гипотеза о существенном влиянии предметной области на распределение частот слов в тексте еще раз подтвердилась.

Хотя это правило выполняется не всегда, например, для Гуленко, словарь Филатовой опять же оказывается сверху, но словарь Аушры находится в конце списка.

Так почему же словарь Лоуэна расположен настолько далеко от остальных психологов?

Объем анализируемого текста

Для ответа на этот вопрос построим таблицу для самого Лоуэна:

№	Автор	ТИМ	Расстояние	Профессия	Объем текста
1	Александр Лоуэн	СЭИ	0	психолог	28 816
2	Зигмунд Фрейд	ИЛЭ	2 698	психолог	229 669
3	Карл Юнг	ИЛИ	2 778	психолог	206 119
4	Эрих Фромм	ЭИИ	2 928	психолог	123 063
5	Абрахам Маслоу	ИЭЭ	2 968	психолог	72 763
6	Гарсия Маркес	ЭСЭ	2 993	писатель	31 583
7	Пауло Коэльо	ЭИИ	2 998	писатель	206 341
8	Джек Лондон	ЛИЭ	3 009	писатель	518 348
9	Лев Толстой	СЭЭ	3 017	писатель	256 137
10	Станислав Лем	ИЛИ	3 023	писатель	180 395
11	Герман Гессе	ИЛИ	3 069	писатель	115 476
12	Николай Гоголь	ЭИЭ	3 087	писатель	166 778
13	Екатерина Филатова	ЭИИ	3 109	соционик	157 332
14	Ги де Мопассан	СЛИ	3 111	писатель	60 620
15	Эрик Берн	ИЛЭ	3 155	психолог	110 248
16	Виктор Гюго	ЭСЭ	3 162	писатель	774 221
17	Иван Тургенев	ЭСИ	3 171	писатель	257 121
18	Антон Чехов	ЛИИ	3 181	писатель	209 448
19	Виктор Гуленко	ЛИИ	3 248	соционик	33 628
20	Теодор Драйзер	ЭСИ	3 266	писатель	245 036
21	Жюль Верн	ЭСЭ	3 316	писатель	143 855
22	Федор Достоевский	ЭИИ	3 316	писатель	382 849
23	Агата Кристи	СЛИ	3 381	писатель	140 406
24	Билл Гейтс	ЛИЭ	3 390	бизнесмен	87 808
25	Александр Пушкин	ИЭЭ	3 536	поэт	340 188
26	Иван Крылов	ИЛИ	3 738	баснописец	7 545
27	Аушра Аугустинавичюте	ИЛЭ	3 861	соционик	19 135
28	Жан-Поль Сартр	СЛИ	4 037	философ	14 477

Получается, что для самого Лоуэна словари психологов оказываются ближе, чем все остальные. Так в чем же дело? Мне кажется в данном случае есть две основные причины:

Для анализа была взята книга «Вы и ваше тело» по телесно-ориентированной терапии, которая отличается от остальных психологических направлений своеобразием лексики достаточно сильно
В последнем столбце указано количество анализируемых слов. Для Лоуэна, Аушры, Сартра, Крылова оно относительно мало. Хотя эта проблема частично решается пятым пунктом алгоритма, малое количество анализируемых слов делает словарь неустойчивым.

Еще одним фактор, который может воздействовать на частоту вхождения слов, время написания книги, подробно не анализировался.

А теперь переходим к самому интересному для социоников.

Попытка определения психотипа

Отсортируем список по возрастанию расстояния от словаря Германа Гессе:

№	Автор	ТИМ	Расстояние	Профессия
1	Герман Гессе	ИЛИ	0	писатель
2	Лев Толстой	СЭЭ	213	писатель
3	Джек Лондон	ЛИЭ	234	писатель
4	Иван Тургенев	ЭСИ	240	писатель
5	Пауло Коэльо	ЭИИ	256	писатель
6	Ги де Мопассан	СЛИ	261	писатель
7	Станислав Лем	ИЛИ	265	писатель
8	Виктор Гюго	ЭСЭ	283	писатель
9	Антон Чехов	ЛИИ	302	писатель
10	Теодор Драйзер	ЭСИ	305	писатель
11	Федор Достоевский	ЭИИ	312	писатель
12	Гарсия Маркес	ЭСЭ	336	писатель
13	Николай Гоголь	ЭИЭ	348	писатель
14	Жюль Верн	ЭСЭ	407	писатель
15	Агата Кристи	СЛИ	428	писатель
16	Александр Пушкин	ИЭЭ	450	поэт
17	Карл Юнг	ИЛИ	485	психолог
18	Зигмунд Фрейд	ИЛЭ	495	психолог
19	Эрик Берн	ИЛЭ	654	психолог
20	Эрих Фромм	ЭИИ	705	психолог
21	Абрахам Маслоу	ИЭЭ	707	психолог
22	Билл Гейтс	ЛИЭ	712	бизнесмен
23	Иван Крылов	ИЛИ	723	баснописец
24	Екатерина Филатова	ЭИИ	827	соционик
25	Жан-Поль Сартр	СЛИ	961	философ
26	Виктор Гуленко	ЛИИ	1 021	соционик
27	Аушра Аугустинавичюте	ИЛЭ	2 307	соционик
28	Александр Лоуэн	СЭИ	3 069	психолог

Опять все писатели сверху, то есть влияние предметной области определяется достаточно точно.

Но если посмотреть на психотип ИЛИ, то он получается разбросанным по всей таблице. Аналогичные результаты видны и в остальных таблицах, приводимых выше. Я собрал версии о психотипах известных людей большинства известных социоников и построил эталонный список на основе их анализа. В нем, как представители типа интуитивно-логических интровертов (ИЛИ), оказались Герман Гессе, Станислав Лем и Гарсия Маркес (мое мнение — ЭСЭ), по поводу психотипа Карла Густава Юнга мнения социоников разделились между ИЛИ и ЛИИ. В любом случае при замене версий типов Маркеса и Юнга на более распространенные общая картина не меняется, то есть данная методика, использующая частотный анализ первых 5000-10000 наиболее употребляемых слов не может дать определение психотипа (точнее совпадения с наиболее вероятными версиями).

Итак, в целом частотные словари оказались достаточно устойчивыми на больших массивах информации. То есть каждый их нас обладает своим неповторимым частотным словарем и аналогично почерку его можно идентифицировать с достаточно большой вероятностью.

Это дает надежду возможности определения психотипа на основе его анализа.

О семантическом подходе в соционике писали Вайсбанд, Филимонов, Ритчик, Шепетько, Аушра.

Прокофьева, Ермак, питерская группа социоников, а также авторы этого сайта (я и Елена Заманская) составили свои семантические словари по каждой из функций.

Первые же идеи, которая приходят в голову для модификации данной методики: отфильтровать слова русского языка и рассматривать только те, которые относят к наполнению соционических функций, а также попробовать использовать при типировании основные дихотомии Юнга и признаки Рейнина. Данное исследование было проведено. О его результатах читайте в следующей статье.

Заключение

Итак в данной статье:

Показано, что частотный словарь человека достаточно устойчив на больших объемах текста и неустойчив на малых.
Была предложена новая методика определения автора текста на естественном языке. Основными плюсами данной методики являются ее надежность, простота и возможность автоматического использования. К минусам можно отнести то, что анализируемый текст должен быть достаточно большим для надежного определения авторства. Возможно в дальнейшем удастся синтезировать ее с методикой Хетсо.
Показано, что на частоту употребления слов существенно влияет не только автор, но также предметная область, жанр и размер анализируемого текста.
Переводчик оказывает гораздо меньшее влияние на распределение частот.
C помощью частотного анализа по наиболее употребительным словам не удается определять соционический тип без дополнительной фильтрации по семантическим словарям.

Полученные результаты показывают, что психотип влияет на частоту употребления слов в русском языке в целом меньше, чем предметная область, жанр и размер анализируемого текста.

Сам анализируемый текст должен быть достаточно большим, иначе выводы будут ненадежными!

Данная статья не претендует на полноценное исследование, так как, например, для оценки надежности новой методики определения авторства нужно обработать гораздо большое число книг и источников информации. Возможно я это сделаю в будущем.

Олег Хрулев

Список литературы

1	Н.А. Морозов	Новое орудие объективного исследования древних документов
2	А.А. Марков	Об одном применении статистического метода
3	Г. Хетсо	Методика, основанная на методах математической статистики
4	Л.И. Бородкин	Математические методы и компьютер в задачах атрибуции текстов
5	О.В. Кукушкина, А.А. Поликарпов, Д.В. Хмелёв	Определение авторства текста с использованием буквенной и грамматической информации
6	С.А. Шаров	Частотный словарь Шарова
7	Л.Н. Засорина	Частотный словарь Засориной
8	Р.М. Фрумкина	Психолингвистика

Месяц: Февраль 2009

Хрулев О. Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста

Часть 1. Применение частотного анализа в соционике. Новая методика определения авторства текста

Постановка задачи