Опыты практической самоорганизации

Определим самоорганизацию как процесс упорядочения системы, вызванный исключительно ее внутренними причинами. В данной статье приведено описание модели процесса и результаты наблюдений за изменениями состояния лингвистической системы.

Модель
Имеется около 500 реальных текстов разной тематики объемом от 50 до 10000 слов, скопированные из Интернета. Тексты сгруппированы в классификатор из 17 разделов (кластеров), который был подготовлен интуитивно, "по разумению составителя". В процессе испытаний он выступает как эталон организации данного материала. Для исследования запускается программа, которая из исходного неупорядоченного массива текстов формирует собственный каталог. Каталоги, составленные человеком и программой, сравниваются, в качестве критерия успешной работы программы принимается число совпадений в родственных по тематике разделах.

Исследовалось влияние внутренних параметров алгоритма на процесс формирования разделов каталога.

Алгоритм
Модель работает с разделами каталога, каждый из разделов может состоять из любого количества текстов, начиная с одного.

В исходном неупорядоченном состоянии принимается, что каталог содержит столько разделов, сколько имеется в системе текстов (498), т.е. каждый текст интерпретируется как раздел, состоящий из одного текста. Далее запускается программа, в процессе работы которой тексты объединяются в большие и малые разделы, которые затем, в процессе взаимодействия между собой, объединяются, сокращаются, рассыпаются, пока система не придет в какое-то устойчивое состояние.

Программа многократно повторяет один и тот же цикл, который для каждого раздела текущего каталога последовательно выполняет поиск новых разделов для объединения. При обнаружении выполняется анализ получившейся сборки, из нее удаляются тексты, тематика которых не соответствует "направлению" нового раздела, т.е. его совокупной тематике. Каждый исключенный текст образует новый раздел, содержащий только этот один текст.

Цикл начинается с того, что случайным образом выбирается один из разделов каталога и последовательно происходит сравнение его тематики со всеми другими разделами текущего каталога, для чего по специальной формуле вычисляется параметр Si - степень совпадения раздела с другими по содержанию. Решение об объединении принимается, если его значение превышает константу H1 (Si>H1). При анализе получившейся сборки, решение об удалении из нее текста принимается, если параметр соответствия общей тематики ниже константы H2 (Si
После сравнения выбранного раздела каталога со всеми другими, цикл завершается.

Циклы повторяются до тех пор, пока происходят изменения каталога. Если этого не происходит, работа завершается принудительно. После каждого цикла можно наблюдать развитие системы по текущему состоянию каталога. При этом, оператор может только наблюдать, но не имеет возможности влиять на этот процесс, т.е. субъективный фактор на этапе формирования каталога отсутствует. После спонтанных объединений, распадов и перемещений текстов из раздела в раздел, система чаще всего приходит к устойчивому состоянию, в котором значимые изменения уже не происходят. По окончании каждого цикла, состояние системы фиксируется, текущий каталог сравнивается с эталонным, что дает возможность после окончания всего процесса наблюдать историю развития системы от начального неупорядоченного до конечного. Как правило, "прогрессивная" фаза развития, когда расхождение с эталоном уменьшается, достигает максимума, после чего начинается "деградация", показатель соответствия эталону снижается.

Для вычисления параметра соответствия Si была принята формула вычисления относительной информации в текстах, приведенная в [1], с некоторыми изменениями:
i = n
S = 100*Σ(W1i*W2i)/(1+Gi/Z) (1)
i
где: W1i,W2i - частоты употребления i-го слова в двух сопоставляемых разделах. Частоты определяются по словарю раздела, в который включаются слова всех входящего в него текстов (стоп-слова, естественно, исключены)
n - число совпадающих слов.
Gi - усредненная частота употребления i-го слова в языке, определяемая как отношение количества текстов, в которых встречается i-е слово к общему количеству исследованных текстов.
Z=1/15 - константа.
Множитель 100 введен для лучшего восприятия цифр

Изменения формулы в сравнении с [1] коснулись исключения множителей, содержащих логарифмы. Их наличие повышает точность вычисления относительной информации, но искажает абсолютные значения, которые необходимы для сравнения с константами H1 и H2. Значения H1 изменялись в диапазоне 0.075 - 0.4. Для H2 принимались разные варианты: H2=H1, H2>H1, H2<H1.

Результаты
Основным параметром, по которому оценивается результат работы алгоритма, принята величина Е - число текстов, входящих в одни и те же разделы, каталогов, составленных программой и человеком. В качестве разделов, подлежащих учету при вычисления Е, принимались только разделы, содержащие более 5 текстов (т.е. разделы, содержащие 1-5 текстов не учитывались).

Процесс становления каталога происходит во времени. Время фиксируется в начале цикла, т.е. в момент случайного выбора раздела каталога для его сравнения с другими элементами массива. Принято Т = номер такого события, отсчитываемый от начального момента, когда тексты (= разделы каталога) неупорядоченные. Процесс обрывался, когда изменения прекращались или происходило циклическое повторение состояний, т.е. сложившийся классификатор уже не мог измениться. Однако, для некоторых значений H1 и H2 этого тоже не происходило, процесс уходил в бесконечность и прерывался.

Результаты испытаний сведены в таблицу. В таблице приняты обозначения:
N - номер испытания
Т - номер цикла в испытании
H1,H2 - границы объединения/размежевания разделов
Emаx - максимальное общее число совпадений в разделах "человеческого" и машинного каталогов
Tm - значение T, при котором число совпадающих текстов Е максимальное (E=Emax)
Cm - число разделов каталога для момента Tm
Ce - число разделов каталога на момент прерывания процесса
Te - номер цикла завершения процесса
Символом n обозначены прерванные испытания

Таблица


N	H1	H2	E(max)	Cm	Tm	E(end)	Ce	Te
1	0.075	0.075	280	28	441	190	1	492
2	0.1	0.1	273	26	443	186	1	523	n
3	0.15	0.15	286	25	446	185	5	580
4	0.18	0.18	285	22	607	249	12	920
5	0.2	0.2	283	22	470	249	12	622
6	0.22	0.22	290	21	475	283	20	829
7	0.24	0.24	292	29	491	283	23	642
8	0.27	0.27	288	27	569	284	25	715
9	0.3	0.3	270	27	565	265	26	764
10	0.4	0.4	242	29	725	233	25	1004
11	0.5	0.5	184	22	351	184	22	995

12	0.18	0.3	303	22	618	261	18	1251	n
13	0.22	0.3	302	25	484	296	23	701	n
14	0.22	0.3	317	26	454	302	22	975
15	0.22	0.3	313	24	532	304	23	760
16	0.24	0.3	301	26	813	301	26	813
17	0.3	0.22	283	30	552	273	25	827

18	0.2	0.2	276	20	491	271	18	1810	n

Испытания с 1 по 11 проводились для разных значений границ H1, причем граница H2 устанавливалась равной H1. Равенство H2=H1 означает, что условие объединения (H1) и условие выхода одинаковы.

Испытания с 12 по 16 проводились для варианта H1<H2.

В испытании 17 обратная ситуация H1>H2, т.е. легче войти, чем выйти.

Испытания 13, 14, 15 проводились при всех одинаковых условиях.

В испытаниях с 1 по 17 текст, вошедший в объединенный раздел, полностью теряет свою самостоятельность и существует только как его составная часть, для системы этого текста нет.

В испытании 18 допускается свобода. Она заключается в том, что любой текст, вне зависимости от его принадлежности и статуса в своем разделе может его в любое время покинуть, образовать собственный раздел (из одного текста) и в таком качестве стандартным образом взаимодействовать в системе со всеми другими элементами. - Так происходило, когда генератор случайных чисел называл номер "связанного" текста.

Комментарии к результатам
Изменение параметра соответствия Е на начальном этапе (до Т=500) происходит для всех вариантов примерно одинаково - поступательный рост до максимума, затем - спад. Такую ситуацию можно объяснить тем, что вначале ресурс, из которого берется пополнение, достаточно велик и из него извлекаются отдельные тексты, которые в полной мере соответствуют тематике зарождающихся разделов. По мере исчерпания ресурса все чаще возникает взаимодействие крупных сборок, которые лишь приблизительно соответствуют друг другу. При их объединении остаются тексты, не удовлетворяющие условиям вновь образующегося раздела и отторгаются, пополняя ряды одиноких текстов, которые начинают искать других партнеров для объединения. На этом этапе значения граничных констант H1 и H2 начинают играть большую роль. Из таблицы видно, что конечные состояния сильно различаются.

При H1=H2=0.07, после достижения максимума соответствия система деградирует и в конце концов образуется один единственный раздел, который включает в себя все тексты. Такое состояние фактически ничем не отличается от исходного, однако формальное существование этого все поглощающего раздела препятствует каким-либо изменениям. Состояние стабильно и при существующих константах измениться не может, история завершается.

Наилучший результат (максимальное значение Е) при Н1=Н2 дают значения границ входа/выхода, лежащие в пределах 0.24 - 0.27. При меньших значениях система деградирует, образуя большие сборки разнородных текстов. При больших значениях - напротив, многие тексты остаются за пределами классификатора (для границы 0.4 в таком положении оказывается четверть массива).

Предоставление свободы выхода, предпринятое в испытании 17, принципиально не изменяет результат, однако это направление требует дополнительных исследований.

Некоторая альтернатива свободы присутствует во всех испытаниях, т.к. после объединения двух любых разделов происходит проверка всех составляющих их текстов на соответствие новому образованию. Тексты, для которых параметр связи меньше Н2 исключаются из нового раздела, т.е. получают "принудительную" свободу. В испытаниях с 12 по 14 граница выхода Н2 выше границы объединения Н1. Такое соотношение определенно улучшает конечный результат.

Обобщение
Модель имеет формальный характер - она оперирует только числами и математическими зависимостями, никак не учитывает семантику. Это обстоятельство дает возможность ее применения для анализа поведения (истории) любых других систем. Для этого необходимо выделить общие признаки составляющих систему элементов, математические зависимости и константы, определяющие влияние признаков на взаимодействие элементов системы. Рассмотрим физическую систему, в которой параметр соответствия S будем интерпретировать как силу притяжения.

Описание физической модели (без привязки к лингвистике).
Имеется неупорядоченное конечное множество разнообразных элементов, обладающих свойством взаимного притяжения. Сила притяжения каждого элемента к каждому другому разная. Она зависит от его внутреннего наполнения и вычисляется по конкретной формуле. Запускается процесс взаимодействия случайно выбранного элемента со всеми другими. В результате возникают новые образования, в которые втягиваются другие элементы. Каждое такое образование ведет себя в системе как отдельный большой элемент, обладающий обозначенным свойством. Отдельные элементы, вошедшие в него, теряют свою самостоятельность и, как таковые, в системе не присутствуют. Т.е. их "внешние интересы" представляет исключительно объект, в который они вошли. С другой стороны, каждый внутренний элемент имеет определенную силу связи со всем этим объектом. Сила связи (удержания) зависит от свойств самого элемента и от совокупных свойств всего объекта, которому он принадлежит. В процессе развития изменяется состав объекта и, соответственно, эта сила уменьшается или увеличивается. Если сила связи становится меньше некоторого заданного граничного значения, элемент выходит из объекта и возвращается к самостоятельному (независимому) существованию в системе. Т.о., запускается неуправляемый процесс взаимодействия "элементарных частиц", который приводит к их консолидациям, распаду и образования новых сборок.

Неосуществленное
Ввиду большой трудоемкости исследований на данную тему, многие вопросы остаются без ответа. Перечислим некоторые из них.
1. В работе представлены истории "естественного развития" системы для разных параметров без влияния внешних (в том числе субъективных) факторов. Система состоит из достаточно сложных объектов - текстов, для которых учитывалось от 50 до 10000 признаков (слов). Было бы интересно провести подобное исследование для других (не лингвистических) систем, например, социальных.
2. В формулу (1) входит эмпирическая константа Z=1/15. Есть основания предполагать, что здесь мы имеем дело с известной в лингвистике константой Ципфа, во всяком случае, значение 1/15 соответствует ее значению для русского языка. Если подобная константа будет проявляться в исследованиях нелингвистических систем, это будет означать, что она имеет более фундаментальный смысл.
3. Границы объединения/исключения H1 и H2 заданы как константы, однако их можно было бы определить как функции внутренних или внешних параметров.
4. Недостаточно проверено влияние фактора "свобода выхода" на историю развития системы. Здесь есть много вариантов - от абсолютной (безусловной) свободы до установления самых разнообразных условий - как внутренних, так и внешних. В испытании 18 был проверен вариант с безусловной свободой выхода.
5. Не исследовано влияние на историю консолидации внешних воздействий (например) чередование периодов, допускающих/не допускающих свободу.
6. Состязание/изъятие. Можно предложить (и проверить) ситуацию, когда выбранный раздел может взять отдельный текст из другого раздела при соблюдении определенных условий (или безусловно). (В исследовании взаимодействовали только разделы).
7. Статус признака (слова) в исследовании определялся делителем (1+Gi/Z). Можно, однако, некоторым словам, группам слов или отдельным текстам искусственно присвоить повышенный/пониженный статус, т.е. исследовать влияние субъективного фактора.
8. Целью работы программы в данном исследовании задано максимальное совпадение создаваемого каталога с эталоном, составленным человеком. Сообразно этой цели устанавливаются зависимости и подбираются константы. Однако, можно было бы задать какую-то иную цель (например, образование конкретного числа разделов) и трансформировать алгоритм для ее достижения. Но это уже другая задача и, соответственно, система.

Выводы
1. Множество разнообразных элементов при существовании простых законов взаимодействия способно к самоорганизации (систематизации).
2. Каталог формируется случайным образом, однако процесс его создания и конечный результат закономерен. Кроме алгоритма, в большой мере он определяется заданными значениями границ, т.е. системными параметрами.
3. История развития системы проходит фазу становления, достижения максимума. Далее при определенных параметрах развитие сменяется деградацией и завершается распадом либо циклическим повторением состояний.
4. При исключении внешних воздействий конечный результат развития "предопределен" - он определяется исключительно содержанием внутренних параметров взаимодействия. Здесь историю творит математика.
5. Константы и алгоритм подбирались, исходя из цели - "соответствие каталогу, составленному человеком". Есть в этом "телеологический" признак - законы развития устанавливаются, исходя из цели.

Можно попытаться применить данную модель для исследования поведения самой большой из известных систем - Вселенной, но при одном условии - если принять гипотезу П.Флоренского/С.Булгакова о "всеобщем коммунизме бытия", согласно которой "...единство мироздания делает то, что каждый атом связан со всей вселенной" (Сергей Булгаков "Философия хозяйства").

В каждое испытание в данном исследовании был вовлечен весь массив и на результат в какой-то мере оказывает влияние каждый его элемент. Применение алгоритмов, соответствующих реальным (ограниченным) взаимодействиям не дают "осязаемые" результаты. Впрочем, это тоже одна из целей дальнейших работ.

История развития системы в большой степени определяется почти субъективным параметром - установленной границей удержания элемента в сборке. Этот параметр можно назвать условием социализации, - когда элемент в системе теряет свое самостоятельность. Очень слабая, как и очень сильная социализация не дают хорошего результата, есть ее оптимальное значение, отклонение от которого снижает качество.

Ханов О.А.
01.10.2010.

Литература
1. Ханов О.А. Вычисление информации, содержащейся в текстах. Журнал "Инновации" 08 (118) август, 2008, с.107-108
2. Пиотровский Р.Г. Лингвистическая синергетика. СПб. Филологический факультет СПбГУ, 2006 ISNB 5-8465-0287-3.

В начало