Все тексты

 

Ханов Олег Алексеевич

          8-921-339-96-76

www.monitor-em.narod.ru

monitor49@mail.ru

Аннотация.

 

Предлагается метод вычисления количества информации для составления алгоритмов решения задач, требующих понимания содержания текстов (поиск, составление каталогов, аннотаций и др.). Вычисления выполняются по модифицированной формуле Шеннона. Приведено математическое обоснование метода, намечены области практического применения.

 

Annotation.


The procedure of calculation of amount of information is proposed for making up algorithms of solving sums, that need the comprehansion of the text (search, compilation of catalogues, annatotations, etc.). Calculations are fulfilmented by Shanon's modificationed formula. The substation of mathematical method is quoted, areas of practical adaptation are contemplated.

 

Вычисление информации, содержащейся в текстах.

 

Слово для текста является элементарной информационной (смысловой) единицей. Если пренебречь влиянием контекста, то по формуле Шеннона можно вычислить абсолютное количество информации, содержащейся в тексте:

                          i = n

                   H = - S Pi*log(Pi)

                     i

Для вычисления достаточно подставить в формулу значения: n - число слов в тексте и Pi - вероятность явления, обозначаемого i-ым словом.

 

Все было бы просто, если бы можно было с приемлемой достоверностью определить вероятности, входящие в формулу. В качестве вероятностей можно принять частоты употребления слов в языке. Однако, это информация не будет учитывать семантику слов, а нам интересно было бы добраться именно до «смыслового» содержания текста. Но для этого при определении вероятностей следовало бы учитывать явления, а не их отображения, т.е. следовало бы определить статистические характеристики всего, что могут обозначать слова. Это невозможно и, значит, невозможно употребление формулы Шеннона для вычисления смыслового содержания текстов.

 

Чтобы обойти это затруднение, перейдем от "абсолютного смысла" текста к относительному. Для этого выберем некоторый текст, который будем считать эталоном. Информацию других текстов будем вычислять в системе текст-эталон. Мы по-прежнему не будем учитывать семантику слов, но в данной системе это уже становится не обязательным. У нас есть эталонный текст, смысл которого интуитивно понятен, и это субъективное интуитивное понимание дает семантическую привязку всей системы к "объективной реальности".  Для любого произвольного по содержанию текста мы можем вычислить, насколько содержащаяся в нем информация соответствует эталону. Если же взять несколько эталонов, то с определенной точностью можно вычислить, "на что это похоже". 

 

Итак, вернемся к формуле Шеннона. В качестве вероятностей мы теперь все-таки примем частоты употребления слов. Здесь имеются два текста, нас интересует относительная информация, поэтому подставим в формулу для ее вычисления произведение двух частот. Такая манипуляция оправдана тем, что согласно теории, вероятность совпадения двух событий равна произведению вероятностей каждого из них. Формула для вычисления относительной информации принимает вид:

                        i = n

                   H = S Pi*log(Pi)*Wi*log(Wi),

                           i

где: Pi - частота употребления i-го слова в эталонном тексте

       Wi - частота употребления i-го слова в "испытуемом" тексте

       n  - число совпадающих слов. 

 

Дополним эту формулу делителем. Смысл операции таков. Чем чаще употребляется слово, тем к большему количеству физических объектов оно имеет отношение, тем более размыт, менее конкретен его смысл и тем меньше должен быть вклад этого слова в итоговое значение информации. Эмпирически наилучший результат дает делитель в форме: 1+15Gi, где Gi - усредненная частота употребления  i-го слова в языке, определяемая как отношение количества текстов, в которых встречается i-е слово к общему количеству текстов.

 

Окончательно, получаем следующее выражение для вычисления относительной информации:

                         i = n

                   H = S (Pi*log(Pi)*Wi*log(Wi))/(1+15Gi)          

                           i

На основании выведенной формулы был составлен алгоритм и проведена проверка его работы на массиве 300 текстов. Для проверки последовательно каждый из текстов массива выбирался в качестве эталона, выполнялось вычисление относительной информации и ранжирование результата.

 

Результат работы алгоритма приведен на сайте www.monitor-em.narod.ru. Результат представляется удовлетворительным, несмотря на весьма "грубые" инструменты, которые были при этом использованы. Здесь не учитывались синонимы, омонимы, грамматика, контекст и т.д.. Учет всех этих факторов не противоречит методу и способен улучшить результат. Необходимо отметить, что при обычном сравнении текстов по ключевым словам, в неявной форме вычисление относительной информации выполняется.

 

Определение относительного смысла широко используется в естественном языке. Лишь небольшое число языковых понятий требует явную семантическую привязку к "реальности". Подавляющее большинство слов определяется через другие, уже известные понятия.

 

Существующий алгоритм может быть использован в задачах, связанных с поиском – в Интернете, библиотеках, в книжных магазинах и т.д. Возможна разработка модификаций для решения других задач, требующих некоторого понимания смыслового содержания текстов. Среди них: автоматическое упорядочивание массивов, создание каталогов, составление аннотаций.

 

В формулу входят частоты (вероятности) употребления слов в двух текстах. Эти два параметра могут быть интерпретированы иначе. Т.е. можно попытаться ее использовать для вычисления относительной информации других объектов - от близких (иноязычные тексты), до принципиально других. Следует проверить также случайность или закономерность численного совпадения входящей в формулу эмпирической константы «15» и известной в лингвистике константы Ципфа, обратное значение которой для русского языка лежит в пределах 14,3-16,7 (http://board.rt.mipt.ru/?read=2727756).

 

В заключение отметим, что данный материал был получен в результате решения практической задачи – разработки алгоритма автоматической классификации текстов произвольного содержания.

 

30.09.07

 

Используются технологии uCoz