Требуется составить программу, которая самостоятельно, без участия оператора
для каждого текста определяет список текстов, наиболее близких к нему
по содержанию.
Результаты работы алгоритма в виде списков, организованных в порядке
убывания процента совпадения, приведены
здесь.
Списки составлены на основе вычисления
информации, содержащейся в эталонном и выбираемых для сравнения текстах с учетом значения этой информации в языковой среде.
Работа алгоритма дает удовлетворительный результат, несмотря на его
недостатки.
- Не учитываются грамматические связи слов, и весьма грубо учитываются их
грамматические трансформации.
- Не учитывается влияние контекста на смысл слов и словосочетаний.
- Словарь (23000 слов) не проверен, выборочная проверка показывает,
что в нем имеются ошибки.
- Алгоритм анализирует весь текст как единый смысловой объект. Это
некорректно. Каждый текст следовало бы разбить (соответствующей программой)
на отдельные фрагменты по смысловому признаку.
- Исследуемый массив текстов статистически недостаточен для правильного
определения частот употребления слов в языке.
Недостатки не являются фатальными и могут быть устранены.
Субъективный фактор присутствовал на стадии составления словаря. В словарь не вошли слова:
- состоящие менее чем из 3-х букв,
- слова, поддерживающие грамматику,
- "нововведения" авторов текстов,
- узкоспециальные технические термины,
- имена собственные, не являющиеся по мнению составителя общеизвестными
Имеются ограничения, вытекающие из метода
- Ввиду того, что анализ является статистическим, размер
текстов не может быть очень малым (не менее 30 - 50 слов), иначе
возможны ошибки.
- Ошибки возможны при использовании "иносказаний", когда
содержание излагается лексикой других тем
(как это принято, например, в баснях)
- Затрудняется анализ текстов, не содержащих основного смысла, связующего его отдельные фрагменты, или этот смысл изложен слишком кратко.
Ханов Олег Алексеевич
  
т. 8-921-339-96-76
   monitor49@mail.ru
  
Санкт-Петербург
  
2007г.
|
Используются технологии
uCoz