|
Константа Ципфа
04.02.2008. О.А.Ханов, письмо В.П.Захарову
Здравствуйте, Витор Павлович.
Неделю назад мы с Вами говорили о возможности проведения исследования,
свяазанного с константой Зипфа.
В формуле для вычисления относительной информации (получившейся результате
независимого исследования при выполнении конкретной работы) имеется делитель
(1+15Gi), аналогичный известному в теории информационного поиска множителю
IDF
константа Зипфа, обратное значение которой для русского
языка лежит в диапазоне 14,3 - 16,7 (http://board.rt.mipt.ru/?read=2727756).
Кроме численного совпадения имеются следующие основания для возможности
такой связи:
1. Константа Зипфа, как и выражение "1+15Gi" - это параметр не конкретного
текста, а языка в целом. Значение константы от языка зависит и значит,
другие параметры, связанные с "языковой средой" также могут (должны?)
быть от языка зависимы. Возможно, что коэффициент "(1/константа Зипфа)=15"
такую зависимость учитывает.
2.
Сравнение результатов ранжирования при использовании известного
параметра "TF*IDF" и его аналога "1+15Gi" показывает, что функция
соответствия
более "острая". Т.е. cоответствие/несоответствие определяется более четко.
Это должно означать, что по крайней мере для русского языка выражение "1+15Gi"
лучше аппроксимирует "реальность".
Для проведения исследования требуется:
1. Подтвердить из надежных источников значения константы Зипфа
(для русского языка = 0,06 - 0,07, для английского = 0,1). Выбрать
язык (например, английский).
2. Словарь термов (английского?) языка.
3. Словарь соответствия английских словоформ "корневому слову" (например, для
русского: собака = собаки = собакой ...). Возможно, для английского здесь все
проще.
4. Английский словарь "стоп-слов".
/далее - по возможности/
5. Массив 50 - 300 текстов (150 - 800 слов) на английском, в электронном виде,
на разные темы.
Были бы полезны переводы текстов, образцы "ручного" ранжирования
и любая другая информация.
При наличии материалов я готов самостоятельно провести исследование
в течение одного месяца. Естественно, о положительном результате я могу
говорить лишь предположительно. Но мне кажется, что если таковой будет,
он будет интересен для данного направления, и можно будет "двигаться дальше".
Прошу Вас сообщить, можете ли Вы, либо институт, либо другие, известные
Вам структуры или лица, предоставить необходимые материалы либо
участвовать в данном исследовании. Возможные организационные формы можно
обсудить.
11.03.08 О.А.Ханов - В.П.Захарову.
Здравствуйте, Виктор Павлович.
Я хотел бы вернуться к вопросу о константе Зипфа, который для меня остается
открытым (подробно - в письме от 04.02.08. Ответ от 11.02 предполагал
продолжение, но оно до меня не дошло). Я все-таки хотел бы продолжить работу
по этой теме в контакте со специалистами, что могло бы исключить большие
непроизводительные трудозатраты. Кроме того, мои планы не ограничиваются
этим конкретным исследованием, а возможно, что мои наработки тоже могут
быть кому-нибудь полезны. ...
С уважением, Олег Ханов.
16.03.2008. В.П.Захаров, письмо О.А.Ханову
Извините!
Надо было мне сразу сказать нет, что не обещаю, но ... я максималист,
и много планирую и обещаю и ... не справляюсь!
Но тем не менее, мне это интересно, поэтому постараюсь выкроить время.
Когда, буду думать...
А пока что приходите завтра на семинар в 18 час.
Статья "Вычисление информации, содержащейся в тексте
Захаров Виктор Павлович
В начало
|
|