Алгоритм
Для проверки алгоритма была поставлена типовая задача
Задача
Имеется неупорядоченный массив текстов произвольного содержания. Объем
текстов - от 30 до 5000 слов.
Требуется составить программу, которая самостоятельно, без участия
оператора для каждого текста определяет список текстов, наиболее близких к
нему по содержанию.
Результаты работы алгоритма в виде списков, организованных в порядке
убывания процента совпадения, приведены здесь. Списки составлены на основе
вычисления информации, содержащейся в эталонном и выбираемых для сравнения
текстах с учетом значения этой информации в языковой среде.
Работа алгоритма дает удовлетворительный результат, несмотря на его
недостатки:
Не учитываются грамматические связи слов, и весьма грубо учитываются
их грамматические трансформации.
Не учитывается влияние контекста на смысл слов и словосочетаний.
Словарь (23000 слов) не проверен, выборочная проверка показывает, что
в нем имеются ошибки.
Алгоритм анализирует весь текст как единый смысловой объект. Это
некорректно. Каждый текст следовало бы разбить (соответствующей программой)
на отдельные фрагменты по смысловому признаку.
Исследуемый массив текстов статистически недостаточен для правильного
определения частот употребления слов в языке.
Недостатки не являются фатальными и могут быть устранены.
Субъективный фактор присутствовал на стадии составления словаря. В
словарь не вошли слова:
- состоящие менее чем из 3-х букв,
- слова, поддерживающие грамматику,
- "нововведения" авторов текстов,
- узкоспециальные технические термины,
- имена собственные, не являющиеся по мнению составителя
общеизвестными
Имеются ограничения, вытекающие из метода:
Ввиду того, что анализ является статистическим, размер текстов не
может быть очень малым (не менее 30 - 50 слов), иначе возможны ошибки.
Ошибки возможны при использовании "иносказаний", когда содержание
излагается лексикой других тем (как это принято, например, в баснях)
Затрудняется анализ текстов, не содержащих основного смысла,
связующего его отдельные фрагменты, или этот смысл изложен слишком кратко.
11.11.2007
Ханов О.А.
|