Константа Ципфа

04.02.2008. О.А.Ханов, письмо В.П.Захарову

Здравствуйте, Витор Павлович. Неделю назад мы с Вами говорили о возможности проведения исследования, свяазанного с константой Зипфа.

В формуле для вычисления относительной информации (получившейся результате независимого исследования при выполнении конкретной работы) имеется делитель (1+15Gi), аналогичный известному в теории информационного поиска множителю IDF константа Зипфа, обратное значение которой для русского языка лежит в диапазоне 14,3 - 16,7 (http://board.rt.mipt.ru/?read=2727756). Кроме численного совпадения имеются следующие основания для возможности такой связи:
1. Константа Зипфа, как и выражение "1+15Gi" - это параметр не конкретного текста, а языка в целом. Значение константы от языка зависит и значит, другие параметры, связанные с "языковой средой" также могут (должны?) быть от языка зависимы. Возможно, что коэффициент "(1/константа Зипфа)=15" такую зависимость учитывает.
2. Сравнение результатов ранжирования при использовании известного параметра "TF*IDF" и его аналога "1+15Gi" показывает, что функция соответствия более "острая". Т.е. cоответствие/несоответствие определяется более четко. Это должно означать, что по крайней мере для русского языка выражение "1+15Gi" лучше аппроксимирует "реальность".

Для проведения исследования требуется:
1. Подтвердить из надежных источников значения константы Зипфа (для русского языка = 0,06 - 0,07, для английского = 0,1). Выбрать язык (например, английский).
2. Словарь термов (английского?) языка.
3. Словарь соответствия английских словоформ "корневому слову" (например, для русского: собака = собаки = собакой ...). Возможно, для английского здесь все проще.
4. Английский словарь "стоп-слов".
/далее - по возможности/
5. Массив 50 - 300 текстов (150 - 800 слов) на английском, в электронном виде, на разные темы.

Были бы полезны переводы текстов, образцы "ручного" ранжирования и любая другая информация.
При наличии материалов я готов самостоятельно провести исследование в течение одного месяца. Естественно, о положительном результате я могу говорить лишь предположительно. Но мне кажется, что если таковой будет, он будет интересен для данного направления, и можно будет "двигаться дальше".

Прошу Вас сообщить, можете ли Вы, либо институт, либо другие, известные Вам структуры или лица, предоставить необходимые материалы либо участвовать в данном исследовании. Возможные организационные формы можно обсудить.

11.03.08 О.А.Ханов - В.П.Захарову.
Здравствуйте, Виктор Павлович. Я хотел бы вернуться к вопросу о константе Зипфа, который для меня остается открытым (подробно - в письме от 04.02.08. Ответ от 11.02 предполагал продолжение, но оно до меня не дошло). Я все-таки хотел бы продолжить работу по этой теме в контакте со специалистами, что могло бы исключить большие непроизводительные трудозатраты. Кроме того, мои планы не ограничиваются этим конкретным исследованием, а возможно, что мои наработки тоже могут быть кому-нибудь полезны. ...

С уважением, Олег Ханов.

16.03.2008. В.П.Захаров, письмо О.А.Ханову

Извините!
Надо было мне сразу сказать нет, что не обещаю, но ... я максималист, и много планирую и обещаю и ... не справляюсь! Но тем не менее, мне это интересно, поэтому постараюсь выкроить время. Когда, буду думать...

А пока что приходите завтра на семинар в 18 час.
Статья "Вычисление информации, содержащейся в тексте
Захаров Виктор Павлович

В начало