СамоорганизацияПереход от неупорядоченного множества к упорядоченной системе происходит либо как результат внешнего организующего воздействия, либо посредством внутреннего развития, причиной которого может быть (например) взаимодействие элементов множества между собой. Примером внешней систематизации может служить составление библиотечного каталога, внутренней - образование планетной системы из "газопылевого облака".В данной работе приведены результаты сравнения этих двух способов систематизации на примере структуризации неупорядоченного массива текстов. "Независимым внешним упорядочиванием" здесь был анализ содержания текстов и составление каталога, разделы которого формировались из текстов одной тематики. Разделы формировались интуитивно, исходя из общего представления о содержании входящих в массив текстов, и достаточном их количестве для образования раздела. Для составления алгоритма автоматического упорядочивания была принята модель, весьма далекая от исследуемой "лингвистической реальности". Модель. Имеются неупорядоченное множество разнообразных элементов, обладающих свойством взаимного притяжения. Сила притяжения каждого элемента к каждому другому разная. Она зависит от его внутренней структуры и вычисляется по конкретной формуле. В результате случайного взаимодействия элементов между собой, в системе возникают объекты - образования из некоторого количества элементов с наибольшей силой взаимного притяжения. Каждый такой объект ведет себя в образующейся системе как отдельный элемент, обладающий обозначенным свойством притяжения. Элементы, вошедшие в объект, теряют свою самостоятельность и, как таковые, в системе не присутствуют. Т.е. их "внешние интересы" представляет исключительно объект, в который они вошли. С другой стороны, каждый внутренний элемент объекта имеет определенную силу связи со своим объектом. Эта сила зависит от свойств самого элемента и от совокупных свойств объекта, т.е. от того, из каких элементов он образовался. В процессе развития системы (изменения состава объекта) эта сила изменяется (уменьшается или увеличивается). Если сила связи становится меньше некоторого (заданного) граничного значения, элемент выходит из объекта и возвращается к самостоятельному (независимому) существованию в системе. Т.о., запускается неуправляемый процесс взаимодействия "элементарных частиц", в котором происходят следующие события: В качестве начального состояния были просчитаны два варианта. В первом варианте предполагалось пространство, заполненное исходными элементами. Последовательно каждый, случайным образом выбранный элемент, сопоставлялся со всеми другими и объединялся в объект с элементом, связь с которым максимальна и превышает заданное граничное значение. Если такого элемента в системе не оказалось, он продолжал самостоятельное существование. Развитие системы заканчивалось образованием некоторого количества объектов (новых элементов системы), сила связи которых с другими имеющимися элементами становилась недостаточной для их объединения. Происходили незначительные флуктуации, которые принципиально не изменяли конфигурацию образовавшейся системы. Во втором варианте предполагалось изначально пустое пространство, в которое последовательно вбрасывались случайным образом выбранные элементы. Каждый такой элемент аналогично предыдущему взаимодействовал со всеми имеющимися в пространстве на данный момент элементами и либо объединялся с одним из них, либо существовал самостоятельно. Перейдем теперь от модели к ее (лингвистической) реализации. В качестве исходных элементов здесь выступают отдельные законченные тексты разного содержания. "Сила притяжения" между текстами определяется по формуле вычисления относительной информации [1]: i = n H = (Pi*log(Pi)*Wi*log(Wi))/(1+15Gi) i где: Pi - частота употребления i-го слова одного из текстов Wi - частота употребления i-го слова в другом тексте n - число совпадающих слов. Gi - усредненная частота употребления i-го слова в языке, определяемая как отношение количества текстов, в которых встречается i-е слово к общему количеству текстов. Если значение относительной информации H превышает заданное граничное значение R, тексты объединяются в раздел ("объект"). Раздел имеет свои собственные параметры, используемые в формуле, и далее в системе выступает как некий новый самостоятельный текст. Тексты, вошедшие в раздел теряют свой статус и отдельно в последующих взаимодействиях и вычислениях не участвуют. После каждого изменения содержания раздела, по той же формуле происходит вычисление относительной информации в системе "весь раздел - каждый текст, входящий в этот раздел". Тексты, для которых H В исследовании было использовано 496 текстов разнообразного (случайного) содержания. Тексты не адаптировались для данной работы, объем текстов - от 50 до 10000 слов. После стабилизации системы образовались 13 разделов, 57 текстов не вошли в какие-либо разделы. Признаком стабилизации было то, что дальнейшие изменения происходили исключительно вокруг не вошедших в разделы текстов - они объединялись между собой, но затем распадались. Они пытались войти в большие разделы, которые их отторгали. Принципиальные изменения конфигурации системы на определенном этапе развития уже не происходили. "Состоявшимся" разделом считалось объединение более 10 текстов. Каталог, формируемый алгоритмом, сравнивался с каталогом, составленным для того же материала вручную. "Ручной" каталог из 16 разделов был составлен за 2 года до исследования, по другому поводу, т.е. субъективного фактора здесь быть не должно. Для оценки работы алгоритма сравнивалось количество совпадающих позиций. Результат - 302 совпадения из 437 текстов, вошедших в подготовленные автоматом разделы (69%) . Для начального состояния были просчитаны оба сценария - начальное случайное взаимодействие всех текстов ("первичный хаос") и последовательное "вбрасывание" в систему случайных текстов. После стабилизации систем принципиальных различий между ними не было. Это значит, что начальное состояние может оказывать влияние на скорость развития, но не на результат. Но это означает также, что конечный результат развития системы не есть функция ее истории. Зависимость получается иная - история развития определяется начальным состоянием. Как отмечалось, при систематизации текстов использовалась формула вычисления относительной информации H и значение границы объединения/распада R. Все остальное было либо случайным (последовательность взаимодействия) либо не имело влияния на результат (начальная конфигурация). Используемую формулу можно считать фактором объективным. Значение границы подбиралось, т.е. здесь субъективный фактор присутствовал. В процессе исследования были проверены разные варианты этих значений. Для слишком малой границы, равной константе (0.001), развитие системы начиналось и достаточно долго продолжалось нормально (ожидаемо). Однако, на определенном этапе, в результате объединения крупных и лишь частично совпадающих тематических направлений возникали "черные дыры". Это были большие разделы, которые втягивали в себя все остальное. Т.е. после определенного этапа позитивного развития начинался процесс быстрой деградации, в результате оставался только один раздел каталога, включающий в себя все тексты. Структуризация становилась формальной, фактически система приходила к начальному неупорядоченному состоянию. При выборе большой константы для граничного значения (0.03) многие тексты не могли найти объект для консолидации. Иные тексты объединялись (по субъективной оценке) плохо, но реструктуризации мешал высокий барьер. Приемлемую константу подобрать не удалось, но эмпирически все-таки было определено значение границы, при котором структуризация наилучшим образом соответствует "ручной классификации". Это переменная, вычисляемая по формуле: R=0.001*log(m), где m - число слов в тексте, относительно которого происходит вычисление информации. Были проверены также значения границы, равные const+ 0.001*log(m). Структуризация происходила правильно, но завершалась при большем количестве разделов (для const=0,015 образовалось 80 разделов). Алгоритм взаимодействия выбирался по принципу "необходимо и достаточно". Т.е. без надобности не вводились какие-либо действия, условия или ограничения. Предполагалось, что алгоритм должен быть как можно более простым. Тем не менее, первоначальную модель пришлось усложнить - ввести для системы понятие "свобода", влияние которой на формирование системы было неоднозначным. Свобода заключалась в том, что любой текст, вошедший в раздел, в любое время мог его покинуть и попытаться существовать самостоятельно в системе, с возможностью организации на своей основе нового раздела. Подробное исследование влияние фактора "свобода" в рамках данной работы не проводилось, однако некоторые выводы сделать можно. В настоящем исследовании для ускорения результата проводилось чередование алгоритмов, допускающих и не допускающих свободу. Тексты, которым предоставлялась возможность выхода из раздела, выбирались случайно. Вероятность этих действий специально не подбиралась, дополнительные условия выхода не устанавливались. При подробном исследовании этой темы следовало бы проверить влияние этих параметров на развитие системы, т.к. они определяют понятие "уровень свободы". Выводы. Метод может быть использован для прогнозирования поведения любой системы с известными законами и параметрами взаимодействия ее элементов. Литература 29.11.2008 Ханов О.А. Люди     Объекты     Годы     Темы     В начало |