Публикация статьи, письмаВ августе 2007-го года я загрузил на бесплатный хостинг narod.ru сайт с результатами исследований по вычислению относительной информации, содержащейся в текстах. Исследование было вызвано решением задач, возникающих при загрузке информацией справочных киосков, установленных в 2005 - 2006 г._________________ 29.08.2007 Ханов О.А. - Ханову С.О. www.monitor-em.narod.ru Это самореклама. На было/будет внимание можно не обращать, но к примерам и их коментариям следовало бы отнестись серьезно. Нет у меня уверенности в спрведливости утверждений - тени Рудика, Березницкого, писателя - космолога с Барочной (список можно продолжить) всегда рядом. Будет возможность - посмотри и что-нибудь как-нибудь сообщи. 30.08.2007 Ханов С.О. - Ханову О.А. Ну, держись! "...для каждого текста составить список текстов,..." Может, как-то так: требуется разработать программу сортировки текстов, которая самостоятельно, без участия оператора, составляла бы список текстов, наиболее близких по содержанию к любому выбранному тексту. "работы которого здесь приведены" - "работы которого приведены здесь" "Клик на название какого-либо текста выводит список, в котором выбранный текст является эталонным. Сам текст (эталонный) выводится кликом на его название" - ничего не понял. "дает удовлетворительный результат" - это троечка. Да плюс еще и существенные недостатки! Нельзя так говорить в выводе - зачем вообще писать, если все так плохо? Доработай сначала, а потом людям показывай. Надо писать, что "несмотря на сырость и несовершенство алгоритма, получены потрясающие результаты". И вообще, что тебя так волнуют недостатки? Это ты начальнику своему объясняй! Если ты хочешь особо подчеркнуть, что именно программа не делает и как, несмотря на это, добивается успеха, назови это ее особенностями. Да, пока не учтены: п1, п.2. Но это решаемо, если будет необходимость. "Здесь нет принципиальных проблем, основное ограничение - большая трудоемкость работ." - не понял. где нет проблем - в работе алгоритма или в его адаптации к перечисленным областям применения. И трудоемкость не понятна - чья это трудоемкость? Если программера, то, может, не стоит программировать, а составить каталог вручную? Да и не жалко его, этого программера. Итоги сильно философичы. "Признак классификации" - непонятный объект. Скобки "непроверено", "не сделано" - просто раздражают. Что за щепетильность? Кому какая разница что у тебя не сделано и не проверено? К томуже ты и так осторожен в суждениях "с большой вероятностью"(кстати, повторено 2 раза). "по запросу в виде текста" - звучит как-то диковато. Хотя что-то не придумать, как выразится иначе. "Если получится" - что опять за неуверенность? В перспективе, при удачном стечении обстоятельств, в случае, если и т.п. "(неисчерпаемая!)" - ну, это пафос. И кто такие "мы"? Краснознаменный ордена Ленина коллектив алгоритмистов, который удовлетворительно что-то не проверил, не завершил, и имеет "если получится" в перспективе? Об авторе - надо по ссылке. К тому же ты подписался в конце - т.е. стал дважды автор. Нет - трижды!, поскольку заглавие станицы тоже начинается с автора. Теперь понятно, почему "мы" - нас, авторов, вона скока! В целом, крайне неуверенная статья. Напоминает отчет на основании которого тебя будут премировать или депремировать. Не понятно что ты продаешь - себя, алгоритм, воздух? Если это попытка найти единомышленников, то надо было бы что-то сказать о методологии. Если это попытка найти споноров - тогда надо было гнать рекламу. Но ни тем, ни другим, не интересно состояние твоих дел, и не нужен им отчет, чопорно корректный во всех отношениях. Не хватает воды, лирики. Причем не филосовского трактата о строении мира слов, а легкого научнопопулярного трепа на тему смысла текстов. По форме: К дизайну претензий нет. Немного ядовит синий фон, но привыкается быстро. У тебя есть всего 2 ссылки, причем обе уводят в одно и то же место, несмотря на разное описание. Долго понимал, что это одно и тоже. "Структура сайта" при наличии 2-х ссылок - это смешно! Раздел "выводы" после "структуры сайта" - разочаровывает. Еще и поговорить-то не успели, и тут - на тебе, размышляй об этом. Очень не сразу становится понятно, что эта пресловутая "Структура сайта", собственно, и есть основонй багаж, ради которого все и задумали, а далее пойдет что-то на тему и по мотивам "Структуры сайта". И теперь самое главное: пример работы алгоритма - неочевиден. Твоя программа анализировала не названия текстов, а их содержание. Ты же предлагаешь читателю задачу совсем иную: по названию оценить адекватность подбора другого названия. По-хорошему, надо было привести все текты целиком, дабы читатель сам интуитивно понимал связь между ними. Дабы не терять время и память, предлагаю привести один, но яркий, пример автоматического выбора. Вот текст №1, а вот №2. Программа сказала, что схожесть 80%, а вам кажется - не больше 10%. Но вы вчитайтесь, и когда это сделаете, поймете что схожесть - вообще 100%! ....Вах! Да я не прав! Тексты-то есть! Можно читать и сравнивать! Вот это потому, что я не понял раздела "структура сайта"! Надо было там акцентировать: посмотри, походи по ссылкам, посмотри оригинальные тексты, сравни, пойми, и только потом иди дальше. Это сильно меняет дело. Становится понятно, что ты оправдываешь программу за ее ошибки и неточности. Но при беглом чтении виден только негатив, описанный выше. Позитив зарыт в других станицах. "Дастоинства алгоритма" - нет даже раздела! Ну, коли так, коли все равно не сделать текст слитным, то надо развивать стуктуру дальше. Сделать титул, выводы - отдельно, применение - отдельно, недостатки - отдельно. Каждый раздел даст тебе повод пофилосовствовать на эту тему, что в данном исполнении неуместно. Кроме того, титул даст тебе возможность выкладывать на свой сайт информацию, не относящуюся непосредственно к алгоритму. В общем, надо больше позитива и меньше оговорок с ненужным педантизмом. Если решишь оставить одну страницу, то обязательно добавь раздел "как это работает" перед "выводами". Это во-первых насторожит читателя и даст ему повод усомниться в том, что он правильно сделал, не пойдя по предложенной ссылке, а во-вторых, хоть немного объяснит на чем оно основано. Ну и, естественно, "достоинства" перед "недостатками". Название, кстати, не кажется удачным. "Формализация" - слово не о чем, "поиск смысла" - фраза заноше+нная. Все в целом наводит ассоциации о том, что сейчас меня нудно и долго будут учить, как искать этот пресловутый смысл. Автоматическое определение смысла текстов, автоматический классификатор, сортировка текстов - тоже плохо, но хоть не так возвышенно-отчужденно. А призраков Рудика и Березницкого я не увидел. 31.08.2007 Ханов С.О. - Ханову О.А. Ну, это вроде как лучше. По идее. Однако при таком раскладе стало как-то очень бедно с наполнением. Прошлый дизайн выглядел лучше. Главный недостаток - скупость заглавной страницы. Кроме того, первая же ссылка - результат. Результат чего именно - перестало быть ясно вовсе. "Об алгоритме" - логичнее писать вначале. Все в целом - для тех, кто уже знает тему, и хотел бы посмотреть работу. Ты ничем не привлекаешь. "На сайте приведены результаты исследования работы алгоритма вычисления и сравнения информации, содержащейся в текстах." - это единственная сложная фраза, которая видна со стороны и которая ни о чем не говорит. Ну и что? Ну что-то поработало. Зачем, почему - неясно. Да она даже с названием не связана ни одним словом! Кроме того, "результат исследования" - это просто не правда. Есть результат работы, а об исследовании ты промолчал. Что-то начинаю склоняться к выводу, что было лучше. Попробуй оставить все на первой странице, кроме раздела "об алгоритме" 09.09.07 Ханов О.А. - Ханову С.О. Смотрел сайты о поисковиках - теория и практика. Мне показалось, что моя формула не известна - она бы всплыла где-нибудь. Это стимулирует желание "застолбить". Куда обратиться - знаю, и если что-нибудь не изменилось, есть шанс. Написал черновой вариант статьи, непредвзятую рецензию на которую и пару распечаток хотелось бы получить. В статье есть ссылка на monitor-em.narod.ru, и если это еще не достало совсем - посмотри как это выглядит сейчас. До кучи, посылаю конспект статей о поисковиках - быть может есть там что-то интересное. Нашел человека, который копает рядом - www.takaev.com. Может быть свяжусь с ним, но после 17.09.07 Ханов О.А. - Ханову С.О. Журнал "Инновации". Распространяется в России и за рубежом. www.innov.eltech.ru Зарегистрироваться на сайте у иеня не получилось. Предположительно - не тот браузер? Редакция арендует помещение в ЛЭТИ, в здании "Технопарк". Если сдам в четверг, ответ будет в понедельник. Другие журналы пока не нашел. 01.10.07 Ханов О.А. - Ханову С.О. Журнал "Инновации". Для подготовки к публикации help me please. Надо: 02.10.07 Ханов О.А. - Ханову С.О. Ты оказался критиком более строгим, чем редакция журнала "Инновации". И это хорошо. Я попытался учесть замечания. Как получилось - посмотри. Если по-прежнему что-то не кажется гладким - звони или мыль. Времени не очень много - номера верстаются, авторы стучатся. 03.10.07 Ханов О.А. - Сергеевой М.Ю. Маша, спасибо огромное. Завтра, т.е. своевременно, передам в редакцию журнала исправленный вариант статьи вместе с твоим переводом аннотации. Если не будет неожиданностей, в начале года статья будет напечатана в журнале "Инновации". О.А. 03.10.07 Ханов О.А. - Ханову С.О. Адрес http://innov.eltech.ru система заглотила. НО WWW было указано в каком-то документе, а какая разница здесь, я по неграмотности своей не знаю. Вчера звонил Юрию Федоровичу. Оказалось, что его дчь знает английский, и я языковую проблему на какое-то время закрыл. Только что прочитал статью о том, что весь мир стал штудировать русский. Так что, может доживу до того времени, когда неграмотность не будет мешать жить. 15.10.07 Ханов О.А. - Марине Тадеушевне На сайте www.monitor-em.narod.ru есть информация по теме и результаты работы алгоритма. Мне трудно оценить, насколько это хорошо выглядит, но алгоритм как-то работает, это факт. На сайте алгоритма нет, он (вернее, его математическое ядро) - в приложении (formula6.doc). Меня чрезвычайно удивило отсутствие формулы, о которой идет речь, в статьях и учебниках по теории информации и по теории информационного поиска - она слишком очевидна. Быть может я не увидел, не заметил, но вероятность этого невелика, и это стимулирует попытки материализации результата в виде патента. Все, что я обнаружил - это входящий в формулу делитель (он выглядит иначе, имеет название TF-IDF, но смысл его тот же). На практике делитель лишь уточняет результат, основное дает произведение частот. Применение формулы имеет много разнообразных практических применений, и хотелось бы патентовать их - как получится и сколько успеется. Тема оказалась весьма актуальной, едва ли ни в каждой статье мелькает "TF-IDF". Если все-таки окажется, что формула известна, то все равно можно пытаться патентовать то, что еще не занято. К сожалению, патентный поиск я пока не проводил, и может оказаться, что уже занято все. Но (по моему опыту) так бывает редко. Прилагаемый файл - это статья, которая должна быть опубликовна через три месяца в журнале "Инновации". О.А. 17.10.07 Ханов О.А. В статье было отмечено, что информация текста складывается из информации, вносимой словами, она корректируется их взаимным расположением. Из анализа того, что что есть на эту тему, складывается впечатление, что 1. Информация определяется: Морфологические преобразования (существительное - прилагательное - глагол) - это тоже корректировка изначального смысла Корректировка нужна, но она все-така вторична. Основное внимание следует обратить именно на изначальный смысл слова (в теории поиска - терма, в грамматике - кореня). Этот смысл определяется исключительно по частоте употребления слова в тексте, с учетом синонимов, с учетом его значимости в языковой среде (TF-IDF). Новое - здесь. Предлагается определять смысл слова не просто по частоте употребления, но по относительной частоте. Т.е. значимость, вес слова испытуемого текста определяется не только в языковой среде, но определяется его значимость также и в эталонном тексте. 18.10.07 Ханов О.А. - Марине Тадеушевне Написал программу для известного алгоритма. Результат озадачил. Алгоритм решает ту же задачу, и делает это хорошо. Первое движение было - позвонить и притормозить весь патентосозидательный процесс. Но была ночь, а утром выглядит все немного иначе. Ситуация стала хуже. Если доселе я был уверен в абсолютном превосходстве своего "способа", то теперь его надо скурпулезно и надежно доказать (если оно существует). На сегодняшний день состояние следующее. Другие применения: Эти темы в публикациях есть, и они должны бы быть в патентах. В итоге все-таки склоняюсь к тому, чтобы патентный поиск продолжить. По результату будет понятно, в какую сторону двигаться (и можно ли двигаться) дальше. Иногда изобретение вырастает из прототипа (а не наоборот, как должно бы быть). Цели (патентования) остаются прежние: Ныне наличие патента становится одним из условий финансирования новых проектов. 19.10.2007 Марина Тадеушевна - Ханову О.А. Здравствуйте, Олег Алексеевич! Спасибо за письмо и информацию. Я начала поиск, сначала обнаружила все Ваши авторские свидетельства и патент. Затем попыталась достаточно широко заявить тему поиска "обработка информации с использованием формулы Шеннона" В патентной базе РФ ничего нет, в публикациях на поисковых сайтах что то есть, но мне трудно оценить насколько это о том, что надо, кроме того наверняка вы все это просмотрели, но кое какие адреса я выписала. Далее я сузила запрос до "поиск с обработкой информации" в разных вариантах. Сразу же появились патенты и заявки. Я планирую в понедельник послать Вам письмо с перечнем номеров заявок и патентов, которые я выявила на данный момент. Вы сможете эти решения просмотреть на сайте WWW.FIPS.RU Может быть Вы знаете как это делается, но на всякий случай объясню: Заходите на сайт, на первой странице (синей) находите "информационные ресурсы", наводите курсор, слева сверху выбираете "открытые реестры", а там выбираете "реестр российских изобретений" для просмотра описаний изобретений, или "реестр заявок на выдачу патента российской федерации на изобретение", где будут представлены формулы заявок. Потренируйтесь, например патент 2167450 и заявка 2005134946. Я считаю, что просмотрев то , что я Вам вышлю, во-первых, можно будет понять то ли я нашла, во-вторых, нужно ли патентовать и что именно. С уважением, Марина Тадеушевна. 22.10.2007 Марина Тадеушевна - Ханову О.А. Здравствуйте, Олег Алексеевич! Посылаю Вам перечень отобранных заявок и патентов на изобретения Также адреса сайтов с информацией, которая, мне так показалось, может быть полезной. Надеюсь Вы получили мое предыдущее письмо, в котором я рассказала как посмотреть информацию по заявкам и патентам. Если есть вопросы, пишите или звоните. И вообще после просмотра обязательно сообщите, что делать дальше - остановить поиск, продолжить, нужно ли смотреть зарубеж и т.д и т.п. С уважением, Марина Тадеушевна. 23.10.07 Ханов О.А. - Марине Тадеушевне Уважаемая Марина Тадеушевна! 2 письма получил. Теперь мне потребуется некоторое время, чтобы оценить "релевантность" и "пертинентность" обнаруженных документов (употребляю термины, принятые в этой теме, обозначающие соответствие запросу и соответствие по сути). Ориентируюсь на 1 неделю, но это будет зависеть от загруженности на работе, за которую мне что-то платят. К сожалению, она бесконечно далека от моих интересов. Пока я успел только все выгрузить в свой компьютер. Беглое знакомство с патентом 2305314 обнадеживает. Кажется, в таком стиле написать что-то можно. ("Способ анализа документов ... с целью повышения релевантности ..."). Я может быть не заметил, но вероятно, в открытой части WWW.FIPS.RU и нет другого варианта доступа к патентам кроме как по номеру. А хотелось бы по классификатору, иногда полезно по фамилии. Кстати, если у вас есть список номеров, относящихся к моей фамилии, мне он был бы интересен. Поскольку у себя я "авторских" следов не нахожу (не проявляя, правда, должной настойчивости). Мне это не так важно, как любопытно. Параллельно пытаюсь оценить работу своего алгоритма в сравнении с другими. Пока мне все-таки свой алгоритм нравится больше. Для продолжения работы по патенту надо сохранить такое ощущение, при этом оставаясь "беспристрастным". Все зависит от прототипа. "Известный алгоритм", с которым я провожу сравнение - это "собирательный образ", моя интерпретация признаков, которые обнаружил в разных публикациях. В действительности все может оказаться не так - лучше или хуже. Итак, resume. Прошу 1 неделю, после чего я проявлюсь в какой-нибудь форме вне зависимости от результата. Возможно, это случится раньше, если будут предложения, вопросы, или наступит полное понимание... Вобщем, начинаю работу. Время пошло... О.А. 24.10.2007 Ханов О.А. Здравствуйте, Олег Алексеевич! Вот перечень технических решений, защищенных авторскими свидетельствами, где Вы являетесь автором и патентом, где Вы являетесь автором и патентообладателем. А.С. 1173411, 1166103, 1092499, 1015374, 563724 Патент 2155451 Поиск по патентной базе РФ можно проводить, по различным видам запроса, таким образом я и обнаружила те решения, номера которых переслала. Так и быть расскажу как, хотя, мне кажется Вы и сами бы разобрались, ведь это очень просто. Заходите на сайт, на "синей" странице выбираете "поиск" далее "поисковая система", затем используя "guest" заходите в бесплатную поисковую базу . Выбираете для поиска по изобретениям "рефераты российских патентных документов", а затем "формулировка запроса". Видите таблицу в которую можно заводить различные виды запросов. Теперь уже не надо ехать в РНБ, все можно увидеть у себя на экране. Имейте в виду, что здесь Вы получите только рефераты, а полное описание в "открытых реестрах". Чтобы полностью изучить описания своих авторских свидетельств зайдите в базу ru.espacenet.com на синей странице сайта. Достаточно аналогично построению базы РФ, попробуйте сами. Заводите запрос, например "su1173411" С уважением, Марина Тадеушевна. 24.10.07 Ханов О.А. - Марине Тадеушевне Уважаемая Марина Тадеушевна! Прежде всего, спасибо за информацию. Пока я этим не воспользовался, но зато просмотрел все полученные патенты и заявки. Результат. Но как только я очистил свою память от поисковиков, всплыла предыдущая тема "Информационная система" и патент N 2155451. И я подумал, что если сузить свои претензии, то может что-нибудь и получится. Тем более что тот патент был не менее претенциозен. Я вернулся к тому, с чего несколько месяцев назад начал поисковую тему. Т.е. занимаюсь реализацией своего патента (информационная система). Недостаток патента - нет автоматического классификатора (это не теория, это практика!). Я нахожу способ, пытаюсь его запатентовать, и в качестве прототипа, естественно, пытаюсь использовать патент, который реализую. Внимательно прочитал текст, оценил качество проделанной вместе с Надеждой Леонидовной работы - что-либо изменить или добавить здесь очень трудно. Но некоторые соображения есть, они в приложении. О.А. Приложение Уважаемая Марина Тадеушевна! Мне придется немного подробнее рассказать о своих занятиях. В порядке реализации патента я установил в двух местах компьютеры со свободным доступом - нечто, похожее на банкоматы или на компьютеры для приема платежей. (По патенту это - абонентские приемники). Вместо денежных операций они давали разнообразную справочную информацию. Вся информация была систематизирована ("вручную") по различным признакам. Для дополнительного привлечения внимания к своим компьютерам я решил ввести функцию считывания и ввода информации с мобильных телефонов или миникомпьютеров ("наладонников"). Для того, чтобы вводимой информацией можно было пользоваться, она должна бы быть интегрирована в общую базу данных, попасть в "правильный" раздел. Для этого и потребовался алгоритм автоматического определения содержания текста, т.к. "вручную" это сделать принципиально невозможно. "Внутреннее содержание" каждого абонентского узла чем-то похоже на сервер поисковой системы, а для клиента работа с базой данных напоминает работу в Интернете, с той разницей, что здесь вся информация сосредоточена в одном месте и может быть упорядочена настолько, насколько позволит фантазия. Все это только похоже на Интернет, но не имеет к нему отношения, он используется исключительно как самый большой склад информации. Сходство усиливается тем, что база данных ведется в том же формате (HTML), в каком она располагается в Интернете. Если мне удастся найти хотя бы какое-то финансирование, то я восстановлю свои два "замороженных" объекта и без больших проблем запущу еще несколько. Мне кажется, что бесплатный "уличный интернет" в определенных местах имеет право на существование и должен приносить доход, подобно тому, как приносят доход бесплатные сайты и поисковики. Быть может, я ошибаюсь. До сих пор это занятие было убыточным. Формула патента 2155451 Предложение для нового патента. Недостаток известного способа - требуются некоторые нестандартные действия на передающей стороне, а именно формирование таблицы кодирования. Это ограничивает область применения системы, т.к. источник, не обладающий нестандартными средствами, свою информацию передать не может. Кроме того, система не позволяет разместить информацию клиента на локальном абонентском узле коллективного пользования посредством стандартных средств массового применения, таких как мобильный телефон или "наладонник". Для реализации этой функции недостаточно организовать вход для ввода такой информации и исключить из употребления тематические таблицы кодирования, т.к. ввод разнообразной информации без ее прикрепления к определенной тематике затруднит поиск. Предполагаемая формула (в не очень строгом варианте) 1. Способ распространения текстовой информации в многоабонентной системе, заключающийся в формировании на передающей стороне сигнала в виде кодовой последовательности и передаче его через канал связи на абонентские приемники, в которых принятый сигнал с текстовым сообщением анализируется (это вместо "декодируются") с использованием тематических таблиц, предварительно внесенных в его память, отличающийся тем, что с целью упрощения поиска (расширения области применения?) каждая тематическая таблица содержит список употребляемых по этой теме слов и предварительно вычисленные значения Fi их частот употребления в текстах данной темы, при анализе вновь поступившего текста для каждого слова вычисляется его частота повторения в этом тексте Hi, последовательно для каждой тематической таблицы выполняется вычисление суммы произведений Fi*ln(Fi)*Hi*ln(Hi) для всех обнаруженных в таблице слов текста, и при записи текста в память ему присваивается индекс темы, для таблицы которой значение суммы получилось максимальным. 2. Способ по п. 1, отличающийся тем, что слова вновь поступившего текста заносятся в соответствующую тематическую таблицу и корректируются значения частот употребления слов по этой теме. 3. Информационная система, содержащая группу узлов подготовки информации, первый канал связи, центральный узел и группу абонентских приемников, о т л и ч а ю щ а я с я тем, что с целью расширения функциональных возможностей каждый абонетский узел содержит дополнительный вход и блок приема, а вместо блока декодирования введен блок анализа принятого текста. 05.12.2007 Юрий Нешитов - Ханову О.А. Уважаемый Олег, отвечаю по поводу вашей статьи "Вычисление информации, содержащейся в текстах", присланной в журнал "Инновации". Вы затрагиваете исключительно важную тему, поддающуюся формализации с большим трудом. Не являясь экспертом в этой области, я хотел бы понять, на основании каких работ и каких концепций (кроме Шеннона) вы строите свой метод (Обычный список использованной литературы здесь мог бы помочь). С уважением, Юрий Нешитов Редактор рубрики <Контакты и Технологии> 06.12.2007 Ханов О.А. - Ханову С.О. Привет! 2 мес. назад отправил статью в журнал "Инновации". Ответ был положительный. Вчера связался с редакцией журнала. Были опасения, что не все так просто. Статья передана в раздел "Технологии", редактор этого раздела отнесся к вопросу более серъезно, чем главный редактор. Получил от него письмо, прилагаю текст. Подготовил ответ (в приложении). Т.к. это для "внешнего потребления", просьба посмотреть на него своим критическим взглядом. Спасибо. Приложение Уважаемый Юрий! Прошу извинить за многословие, но мне проще ответить на вопросы в контексте своей истории. На тему статьи я вышел случайно. Занимаясь вопросами распространения информации по широковещательным каналам, я обнаружил, что задача не может быть решена без автоматической классификации текстов произвольного содержания. Сортировка по ключевым словам не давала удовлетворительного результата, здесь требовалось что-то другое. У меня не было информации о том, как решается эта задача, и я попытался решить ее "как получится". Для ее решения были приняты некоторые "концептуальные" (возможно, очевидные) предположения: Дальнейшая логика отражена в статье. Решая задачу, я занимался оцифровкой текстов, составлением словарей, проверкой и отработкой алгоритма. Сначала было использовано произведение частот, затем были добавлены логарифмы. Много времени было положено на делитель "1+15Gi", т.к. в такой форме он давал наилучший результат, но о "физическом" смысле коэффициента "15" я и сейчас могу только предполагать. Насколько я понимаю, такого рода константы могут быть вызваны фундаментальными свойствами описываемого объекта, либо порождаются согласованием единиц измерения или неточностью аппроксимирующей функции. Т.е., если это не "фундаментальное свойство", то было бы лучше, чтобы такого коэффициента не было. Результат оказался удовлетворительный. Следовательно, исходные соображения и логика не были ошибочными. Меня удивил результат, поскольку я предполагал, что нельзя не учитывать грамматические и синонимические связи, "абберации" слов. Это было бы слишком трудоемко. Т.е. оказалось, что основной смысл текста заключается все-таки в используемых словах, а все остальное лишь уточняет и дополняет этот основной смысл. Вообще говоря, такой результат согласуется с практикой. Удачное название текста (одно или несколько слов) уже несет в себе информацию о его содержании. По окончании работы я "покопался" в теории информации, уверенный в том, что выведенную формулу обнаружу - она слишком проста и очевидна. Но этого не случилось, и сей факт стал поводом для написания данной статьи. Если говорить более точно, то на сайте http://www.intuit.ru/department/calculate/infotheory/2/2.html приведена формула Шеннона для измерения количества информации, содержащейся в одной дискретной случайной величине, относительно другой случайной величины. Однако у меня не получилась интерпретация этой формулы для анализа текстов. Поиск такой интерпретации ничего не дал. Уже после передачи статьи в редакцию "Инновации" я обнаружил существование науки "Теория информационного поиска". Перечислю некоторые сайты на эту тему. http://old.ulstu.ru/people/SOSNIN/umk/Basis_of_Artificial_Intelligence/publ_en/inetsearch.htm http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html http://www.ict.nsc.ru/ws/elpub2001/1812/ http://poiskbook.kiev.ua/ и многие, многие другие. Если оставить в стороне методы поиска, не связанные с погружением в содержание текста (индекс цитирования, например), то в основе методов лежит определение ключевых слов. Разнообразие методов - это разнообразие способов их определения и их учета (учет грамматики, трансформаций, контекста, статистики, расстояний между словами). Широко используется метод "TF*IDF". Анализ методов поиска в сопоставлении с подготовленной для публикации статьей позволяет сделать следующие выводы. Решение многих задач этой темы весьма трудоемко и без финансирования едва ли возможно. В то же время, мне кажется, что тема не только широка и глубока, но имеет достаточно выходов на практические (коммерческие) применения. С уважением, Олег Ханов. 06.12.07 06.12.2007 Ханов С.О. - Ханову О.А. Привет! "Удачное название текста (одно или несколько слов) уже несет в себе информацию об его содержании." "ОБ" - не правильно. "весьма трудоемко" - добавил бы еще "ресурсоемко". Возражений по тексту нет. Все читабельно и доходчиво. Мне не совсем понятен редактор. Возможно это стиль письма, но меня насторожила легкая лесть вначале и его желание что-то понять посредством абсолютно формальных вещей (список литературы и далее по форме). Если людей что-то интересуют, они задают другие вопросы. Мне кажется, что либо он ничего не понял и желает перестраховаться перед печатью, дабы не чувствовать себя дураком печатая псевдонаучный бред псевдоученого, либо он наоборот все понял, и решил что это не особо неинтересно да еще и не сильно формально. 07.12.07 Ханов О.А. - Юрию Нешитову Здравствуйте, Юрий. Я попытался ответить на все Ваши вопросы, кроме последнего. Ответ - в приложении. Последний вопрос (об отзыве) был бы самым простым, если бы вокруг меня был коллектив, который занимался бы этй темой. К сожалению, это не так. Я предпринимаю определенные действия по поиску рецензента. Когда эта деятельность завершится успехом, я сообщу. Вопрос: какие требования предъявляются к кандидатуре рецензента? С уважением, Олег Ханов. 17.12.07 Ханов О.А. - Юрию Нешитову Здравствуйте, Юрий. 7.12.07 я отправил письмо по адресу neshitov@mail.ru по поводу статьи "Вычисление информации, содержащейся в текстах" с вопросами своими и с ответами на Ваши вопросы. Для "обратной связи", прошу Вас сообщить, не изменилась ли ситуация с публикацией. Если нет, то нужен ли эксперт и какие требования предъявляются к рецензиям и рецензентам? С уважением, Олег Ханов. 17.12.07 Юрий Нешитов - Ханову О.А. Олег,здравствуйте! Прошу тайм-аут на три дня. С уважением, Ю. Нешитов 05.01.08 Юрий Нешитов - Ханову О.А. Уважаемый Олег, простите за задержку с ответом. Поделюсь сложившимся впечатлением по поводу вашей статьи и вашего дополнения к ней. Несомненно, у вас есть вкус к этой теме. Вы ее чувствуете, и, скорее всего, что-то свое уже в ней нашли. Но все-таки это явная самодеятельность. Давайте договоримся так. Мне кажется, проще всего вам встретиться с Сергеем Васильевичем Чебановым, который занимается семиотикой и ориентируется в затронутой теме. У него несколько ипостасей, сейчас он преподает в "Военмехе". Пересылаю ему вашу статью. Можеет позвонить ему на следующей неделе 312-9008 (дом). С уважением и новогодними пожеланиями, Юрий Нешитов Контакты и технологии Журнал "Инновации" 06.01.08 Ханов О.А. - Юрий Нешитов Здравствуйте, Юрий. Благодарю Вас за письмо. Любая информация всегда лучше, чем ее отсутствие. Меня увлекла тема, в которую я вошел случайно. Из просмотренных публикаций следует, что в настоящее время затронут только самый верхний слой этой темы, а в глубинах ее еще будет много интересного и неожиданного. Мне бы хотелось принять участие в этих раскопках, но "в одиночку", без финансирования и без команды единомышленников это нереально ввиду большой трудоемкости всех направлений. Благодарю Вас также за предоставленные координаты. Я попытаюсь связаться с Сергеем Васильевичем Чебановым. Мне кажется, Вы правильно определили область, в которой я оказался - семиотика. Поиски связей и аналогий в разнородных знаковых системах - именно на эту тему я попытался что-то сказать. Конечно, я никак не могу считаь себя специалистом, в этой (и в смежных областях), что прогнозирует ближайшие дальнейшие неудачи. Обнадеживает лишь то, что я не считаю дилетантизм тяжелой неизлечимой болезнью. Иногда он бывает даже полезен - как способ логического преодоления невидимых эмоциональных границ. С Новым годом и Рождеством! С уважением, Олег Ханов. 12.01.08 Ханов О.А. - Юрий Нешитов Здравствуйте, Юрий. Разговор с Чебановым Сергеем Викторовичем состоялся (достаточно продолжительный, по телефону). Я услышал положительную оценку статьи. По содержанию - "Здесь все прозрачно, вопросов нет". По форме следовало бы подправить текст. Как я понимаю - "обрамление" (некоторые определения могут вызвать возражения лингвистов). Вопрос был по поводу коэффициента "15". Я подтвердил его эмпирическое происхождение и именно эту цифру. Больше или меньше - хуже. Уже после разговора я обнаружил, что это число подозрительно похоже на константу Зипфа (ее обратное значение для русского языка лежит в диапазоне 14.3-16.7), но подтвердить или опровергнуть такую связь можно только повторив все это исследование для иноязычных текстов (где константа другая). Возможно, что статья не вписывается в тематический диапазон журнала "Инновации". Если это так, то я вопрос закрою. Для определенности прошу Вас сообщить об этом. Но на всякий случай направляю в приложении исправленную версию. С уважением, Олег Ханов. 15.01.08 Юрий Нешитов - Ханову О.А. Олег, надеюсь, что напечатаем. Тема важная. Срок - месяца через три-четыре. Добавьте только пояснение, что такое константа Зипфа. С уважением, Юрий Нешитов 17.01.08 Ханов О.А. - Юрию Нешитову Здравствуйте, Юрий. О константе Зипфа я упомянул потому, что мне кажется, для этого направления было бы важно доказать связь между константой и формулой вычисления информации. Численное значение (0.06-0.07) есть (например) на сайте http://board.rt.mipt.ru/?read=2727756. Кроме численного совпадения я вижу следующие основания для возможности такой связи. Однако, все это не более чем правдоподобные предположения. Кроме того, у меня сложилось впечатление, что все обнаруженные ссылки со значением константы взаимозависимы, т.е. полного доверия к этому числу нет. Поэтому можно либо вовсе исключить упоминание о Зипфе, либо дополнить его очень коротким расширением. Например: "...о взаимосвязи эмпирического коэффициента "15" и константы Зипфа, определяемой как произведение частоты встречаемости слова в тексте на его ранг (порядковый номер). Прошу Вас сообщить о решении (положительном или отрицательном), когда вопрос о публикации определится. С уважением, Олег Ханов. 19.01.08 Юрий Нешитов - Ханову О.А. Олег, вопрос о публикации решен положительно, как я вам и сообщал. Относительно правки - не думаю, что можно дать исчерпывающие определение какого-либо языкового явления. Контекст играет чуть ли не решающую роль, а сам неформализуем. А константа Зипфа выскакивает у вас, как черт из табакерки, и поэтому нуждается в разъяснении - по возможности, подробном. Об этом я и просил. Чем обстоятельней разъяснено, тем обычно больше доверия вызвает автор. В этом ключе и дополните. С наилучшими пожеланиями, Ю. Нешитов 21.01.08 Ханов О.А. - Юрию Нешитову Здравствуйте, Юрий. Я хочу исключить упоминание о константе Зипфа - изъять из текста все предложение с таким упоминанием. Это отдельная тема - интересная и важная, по которой меня "есть мнение", но нет обоснования, и потому я пока не могу говорить об этом подробно и определенно. С уважением, Олег Ханов. 15.04.08 Ханов О.А. - Юрию Нешитову Здравствуйте, Юрий. Переписка по поводу статьи "Вычисление информации, содержащейся в текстах", завершилась сообщением о публикации предположительно в апреле-мае. Мне не удалось узнать что-либо по этому поводу в редакции (в ЛЭТИ). Поэтому прошу Вас сообщить о текущем состоянии. С уважением, Олег Ханов. 16.04.08 Юрий Нешитов - Ханову О.А. Олег Алексеевич, у нас идет небольшая структурная реорганизация. С рубрикой, которую я вел, пока неясность. Статью вашу я рекомендовал для печати главному редактору Борису Алексеевичу Новикову. Надеюсь, что будет опубликована в каком-либо ином разделе. (Шлите время от времени запросы в редакцию на его имя, это бывает полезно для ускорения публикации). С уважением, Ю. Нешитов ____________ В октябре 2008 года статья "Вычисление информации, содержащейся в текстах" была опубликована в журнале "Инновации" N8. В начало |