Публикация статьи, письма

В августе 2007-го года я загрузил на бесплатный хостинг narod.ru сайт с результатами исследований по вычислению относительной информации, содержащейся в текстах. Исследование было вызвано решением задач, возникающих при загрузке информацией справочных киосков, установленных в 2005 - 2006 г.
_________________

29.08.2007 Ханов О.А. - Ханову С.О.
www.monitor-em.narod.ru
Это самореклама. На было/будет внимание можно не обращать, но к примерам и их коментариям следовало бы отнестись серьезно. Нет у меня уверенности в спрведливости утверждений - тени Рудика, Березницкого, писателя - космолога с Барочной (список можно продолжить) всегда рядом. Будет возможность - посмотри и что-нибудь как-нибудь сообщи.

30.08.2007 Ханов С.О. - Ханову О.А.
Ну, держись!
"...для каждого текста составить список текстов,..." Может, как-то так: требуется разработать программу сортировки текстов, которая самостоятельно, без участия оператора, составляла бы список текстов, наиболее близких по содержанию к любому выбранному тексту.

"работы которого здесь приведены" - "работы которого приведены здесь"

"Клик на название какого-либо текста выводит список, в котором выбранный текст является эталонным. Сам текст (эталонный) выводится кликом на его название" - ничего не понял.

"дает удовлетворительный результат" - это троечка. Да плюс еще и существенные недостатки! Нельзя так говорить в выводе - зачем вообще писать, если все так плохо? Доработай сначала, а потом людям показывай. Надо писать, что "несмотря на сырость и несовершенство алгоритма, получены потрясающие результаты".

И вообще, что тебя так волнуют недостатки? Это ты начальнику своему объясняй! Если ты хочешь особо подчеркнуть, что именно программа не делает и как, несмотря на это, добивается успеха, назови это ее особенностями. Да, пока не учтены: п1, п.2. Но это решаемо, если будет необходимость.

"Здесь нет принципиальных проблем, основное ограничение - большая трудоемкость работ." - не понял. где нет проблем - в работе алгоритма или в его адаптации к перечисленным областям применения. И трудоемкость не понятна - чья это трудоемкость? Если программера, то, может, не стоит программировать, а составить каталог вручную? Да и не жалко его, этого программера.

Итоги сильно философичы.

"Признак классификации" - непонятный объект. Скобки "непроверено", "не сделано" - просто раздражают. Что за щепетильность? Кому какая разница что у тебя не сделано и не проверено? К томуже ты и так осторожен в суждениях "с большой вероятностью"(кстати, повторено 2 раза).

"по запросу в виде текста" - звучит как-то диковато. Хотя что-то не придумать, как выразится иначе.

"Если получится" - что опять за неуверенность? В перспективе, при удачном стечении обстоятельств, в случае, если и т.п.

"(неисчерпаемая!)" - ну, это пафос. И кто такие "мы"? Краснознаменный ордена Ленина коллектив алгоритмистов, который удовлетворительно что-то не проверил, не завершил, и имеет "если получится" в перспективе?

Об авторе - надо по ссылке. К тому же ты подписался в конце - т.е. стал дважды автор. Нет - трижды!, поскольку заглавие станицы тоже начинается с автора. Теперь понятно, почему "мы" - нас, авторов, вона скока!

В целом, крайне неуверенная статья. Напоминает отчет на основании которого тебя будут премировать или депремировать. Не понятно что ты продаешь - себя, алгоритм, воздух? Если это попытка найти единомышленников, то надо было бы что-то сказать о методологии. Если это попытка найти споноров - тогда надо было гнать рекламу. Но ни тем, ни другим, не интересно состояние твоих дел, и не нужен им отчет, чопорно корректный во всех отношениях. Не хватает воды, лирики. Причем не филосовского трактата о строении мира слов, а легкого научнопопулярного трепа на тему смысла текстов.

По форме:
К дизайну претензий нет. Немного ядовит синий фон, но привыкается быстро.

У тебя есть всего 2 ссылки, причем обе уводят в одно и то же место, несмотря на разное описание. Долго понимал, что это одно и тоже.

"Структура сайта" при наличии 2-х ссылок - это смешно!

Раздел "выводы" после "структуры сайта" - разочаровывает. Еще и поговорить-то не успели, и тут - на тебе, размышляй об этом. Очень не сразу становится понятно, что эта пресловутая "Структура сайта", собственно, и есть основонй багаж, ради которого все и задумали, а далее пойдет что-то на тему и по мотивам "Структуры сайта".

И теперь самое главное: пример работы алгоритма - неочевиден. Твоя программа анализировала не названия текстов, а их содержание. Ты же предлагаешь читателю задачу совсем иную: по названию оценить адекватность подбора другого названия. По-хорошему, надо было привести все текты целиком, дабы читатель сам интуитивно понимал связь между ними. Дабы не терять время и память, предлагаю привести один, но яркий, пример автоматического выбора. Вот текст №1, а вот №2. Программа сказала, что схожесть 80%, а вам кажется - не больше 10%. Но вы вчитайтесь, и когда это сделаете, поймете что схожесть - вообще 100%!

....Вах! Да я не прав! Тексты-то есть! Можно читать и сравнивать! Вот это потому, что я не понял раздела "структура сайта"! Надо было там акцентировать: посмотри, походи по ссылкам, посмотри оригинальные тексты, сравни, пойми, и только потом иди дальше.

Это сильно меняет дело. Становится понятно, что ты оправдываешь программу за ее ошибки и неточности. Но при беглом чтении виден только негатив, описанный выше. Позитив зарыт в других станицах. "Дастоинства алгоритма" - нет даже раздела!

Ну, коли так, коли все равно не сделать текст слитным, то надо развивать стуктуру дальше. Сделать титул, выводы - отдельно, применение - отдельно, недостатки - отдельно. Каждый раздел даст тебе повод пофилосовствовать на эту тему, что в данном исполнении неуместно. Кроме того, титул даст тебе возможность выкладывать на свой сайт информацию, не относящуюся непосредственно к алгоритму.

В общем, надо больше позитива и меньше оговорок с ненужным педантизмом. Если решишь оставить одну страницу, то обязательно добавь раздел "как это работает" перед "выводами". Это во-первых насторожит читателя и даст ему повод усомниться в том, что он правильно сделал, не пойдя по предложенной ссылке, а во-вторых, хоть немного объяснит на чем оно основано. Ну и, естественно, "достоинства" перед "недостатками".

Название, кстати, не кажется удачным. "Формализация" - слово не о чем, "поиск смысла" - фраза заноше+нная. Все в целом наводит ассоциации о том, что сейчас меня нудно и долго будут учить, как искать этот пресловутый смысл. Автоматическое определение смысла текстов, автоматический классификатор, сортировка текстов - тоже плохо, но хоть не так возвышенно-отчужденно.

А призраков Рудика и Березницкого я не увидел.

31.08.2007 Ханов С.О. - Ханову О.А.
Ну, это вроде как лучше. По идее. Однако при таком раскладе стало как-то очень бедно с наполнением. Прошлый дизайн выглядел лучше.

Главный недостаток - скупость заглавной страницы. Кроме того, первая же ссылка - результат. Результат чего именно - перестало быть ясно вовсе. "Об алгоритме" - логичнее писать вначале.

Все в целом - для тех, кто уже знает тему, и хотел бы посмотреть работу.

Ты ничем не привлекаешь. "На сайте приведены результаты исследования работы алгоритма вычисления и сравнения информации, содержащейся в текстах." - это единственная сложная фраза, которая видна со стороны и которая ни о чем не говорит. Ну и что? Ну что-то поработало. Зачем, почему - неясно. Да она даже с названием не связана ни одним словом!

Кроме того, "результат исследования" - это просто не правда. Есть результат работы, а об исследовании ты промолчал.

Что-то начинаю склоняться к выводу, что было лучше. Попробуй оставить все на первой странице, кроме раздела "об алгоритме"

09.09.07 Ханов О.А. - Ханову С.О.
Смотрел сайты о поисковиках - теория и практика. Мне показалось, что моя формула не известна - она бы всплыла где-нибудь. Это стимулирует желание "застолбить". Куда обратиться - знаю, и если что-нибудь не изменилось, есть шанс. Написал черновой вариант статьи, непредвзятую рецензию на которую и пару распечаток хотелось бы получить. В статье есть ссылка на monitor-em.narod.ru, и если это еще не достало совсем - посмотри как это выглядит сейчас. До кучи, посылаю конспект статей о поисковиках - быть может есть там что-то интересное. Нашел человека, который копает рядом - www.takaev.com. Может быть свяжусь с ним, но после

17.09.07 Ханов О.А. - Ханову С.О. Журнал "Инновации". Распространяется в России и за рубежом. www.innov.eltech.ru Зарегистрироваться на сайте у иеня не получилось. Предположительно - не тот браузер? Редакция арендует помещение в ЛЭТИ, в здании "Технопарк". Если сдам в четверг, ответ будет в понедельник. Другие журналы пока не нашел.

01.10.07 Ханов О.А. - Ханову С.О.
Журнал "Инновации". Для подготовки к публикации help me please. Надо:

1. Просмотреть текст - для "ловли блох" и непредвзятой критики.

2. Перевести аннотацию на английский.

3. Зарегистрироваться на сайте - www.innov.eltech.ru,

желательно паролем "монитор" (у меня везде такие пароли, другой могу забыть). После регистрации можно посмотреть этот журнал. Я его не видел, и не очень знаю, куда стучусь. Мне, конечно, все равно, но все-таки.

02.10.07 Ханов О.А. - Ханову С.О.
Ты оказался критиком более строгим, чем редакция журнала "Инновации". И это хорошо. Я попытался учесть замечания. Как получилось - посмотри. Если по-прежнему что-то не кажется гладким - звони или мыль. Времени не очень много - номера верстаются, авторы стучатся.

03.10.07 Ханов О.А. - Сергеевой М.Ю.
Маша, спасибо огромное.
Завтра, т.е. своевременно, передам в редакцию журнала исправленный вариант статьи вместе с твоим переводом аннотации. Если не будет неожиданностей, в начале года статья будет напечатана в журнале "Инновации".
О.А.

03.10.07 Ханов О.А. - Ханову С.О.
Адрес http://innov.eltech.ru система заглотила. НО WWW было указано в каком-то документе, а какая разница здесь, я по неграмотности своей не знаю. Вчера звонил Юрию Федоровичу. Оказалось, что его дчь знает английский, и я языковую проблему на какое-то время закрыл. Только что прочитал статью о том, что весь мир стал штудировать русский. Так что, может доживу до того времени, когда неграмотность не будет мешать жить.

15.10.07 Ханов О.А. - Марине Тадеушевне
На сайте www.monitor-em.narod.ru есть информация по теме и результаты работы алгоритма. Мне трудно оценить, насколько это хорошо выглядит, но алгоритм как-то работает, это факт. На сайте алгоритма нет, он (вернее, его математическое ядро) - в приложении (formula6.doc).

Меня чрезвычайно удивило отсутствие формулы, о которой идет речь, в статьях и учебниках по теории информации и по теории информационного поиска - она слишком очевидна. Быть может я не увидел, не заметил, но вероятность этого невелика, и это стимулирует попытки материализации результата в виде патента. Все, что я обнаружил - это входящий в формулу делитель (он выглядит иначе, имеет название TF-IDF, но смысл его тот же). На практике делитель лишь уточняет результат, основное дает произведение частот.

Применение формулы имеет много разнообразных практических применений, и хотелось бы патентовать их - как получится и сколько успеется. Тема оказалась весьма актуальной, едва ли ни в каждой статье мелькает "TF-IDF". Если все-таки окажется, что формула известна, то все равно можно пытаться патентовать то, что еще не занято. К сожалению, патентный поиск я пока не проводил, и может оказаться, что уже занято все. Но (по моему опыту) так бывает редко.

Прилагаемый файл - это статья, которая должна быть опубликовна через три месяца в журнале "Инновации".
О.А.

17.10.07 Ханов О.А.
В статье было отмечено, что информация текста складывается из информации, вносимой словами, она корректируется их взаимным расположением. Из анализа того, что что есть на эту тему, складывается впечатление, что
1. Информация определяется:

по частое употребления в тексте,

с учетом синонимов,

большое внимание уделяется именно той самой корректировке информации, т.к. грамматика уточняет изначальный смысл слова

Морфологические преобразования (существительное - прилагательное - глагол) - это тоже корректировка изначального смысла Корректировка нужна, но она все-така вторична. Основное внимание следует обратить именно на изначальный смысл слова (в теории поиска - терма, в грамматике - кореня). Этот смысл определяется исключительно по частоте употребления слова в тексте, с учетом синонимов, с учетом его значимости в языковой среде (TF-IDF).

Новое - здесь. Предлагается определять смысл слова не просто по частоте употребления, но по относительной частоте. Т.е. значимость, вес слова испытуемого текста определяется не только в языковой среде, но определяется его значимость также и в эталонном тексте.

18.10.07 Ханов О.А. - Марине Тадеушевне
Написал программу для известного алгоритма. Результат озадачил. Алгоритм решает ту же задачу, и делает это хорошо. Первое движение было - позвонить и притормозить весь патентосозидательный процесс. Но была ночь, а утром выглядит все немного иначе.
Ситуация стала хуже. Если доселе я был уверен в абсолютном превосходстве своего "способа", то теперь его надо скурпулезно и надежно доказать (если оно существует). На сегодняшний день состояние следующее.

1. Известный алгоритм другой. Результат его работы хороший, но тоже другой. Субъективно, статистически (успел провести порядка 20 измерений) мне кажется, что у меня получается лучше. Но моя оценка может быть необъективной. К сожалению, четкого критерия оценки "похоже/не похоже" не существует, если нет явных расхождений. Таковых я пока не обнаружил, надо собирать статистику.

2. Посмотрел другие алгоритмы. Все как-то работают, различия - в нюансах. Поэтому можно заявлять не о новом качестве (как хотелось бы), а о нюансах известного.

3. Явное отличие моего способа - более острая кривая распределения подборки по степени соответсвия (т.е. результат более четкий, менее "размазанный"). Это хорошо, если максимум никогда не укажет на ошибочно выбранный текст. И это одна из немногих объективных характеристик.

4. Одно из применений, которое в публикациях не обнаружил - сопоставление текстов разных языковых систем (не употребляю слово "языки", поскольку понимаю это шире). К сожалению, мне это применение проверить трудно, поскольку другим языком надо владеть не хуже родного. Но именно здесь можно было бы накопать больше всего (если верна "концепция").

Другие применения:

- поиск

- классификация по заданному каталогу

- создание каталога для неупорядоченного массива

- выделение смысловых контекстов (фрагментов)

- составление аннотаций

Эти темы в публикациях есть, и они должны бы быть в патентах.

В итоге все-таки склоняюсь к тому, чтобы патентный поиск продолжить. По результату будет понятно, в какую сторону двигаться (и можно ли двигаться) дальше. Иногда изобретение вырастает из прототипа (а не наоборот, как должно бы быть).

Цели (патентования) остаются прежние:

- Найти поддержку своих занятий, в том числе финансовую.

- Защитить наработки от посягательств иных патентообладателей.

Ныне наличие патента становится одним из условий финансирования новых проектов.

19.10.2007 Марина Тадеушевна - Ханову О.А.
Здравствуйте, Олег Алексеевич!

Спасибо за письмо и информацию.
Я начала поиск, сначала обнаружила все Ваши авторские свидетельства и патент. Затем попыталась достаточно широко заявить тему поиска "обработка информации с использованием формулы Шеннона" В патентной базе РФ ничего нет, в публикациях на поисковых сайтах что то есть, но мне трудно оценить насколько это о том, что надо, кроме того наверняка вы все это просмотрели, но кое какие адреса я выписала. Далее я сузила запрос до "поиск с обработкой информации" в разных вариантах. Сразу же появились патенты и заявки.

Я планирую в понедельник послать Вам письмо с перечнем номеров заявок и патентов, которые я выявила на данный момент. Вы сможете эти решения просмотреть на сайте WWW.FIPS.RU

Может быть Вы знаете как это делается, но на всякий случай объясню: Заходите на сайт, на первой странице (синей) находите "информационные ресурсы", наводите курсор, слева сверху выбираете "открытые реестры", а там выбираете "реестр российских изобретений" для просмотра описаний изобретений, или "реестр заявок на выдачу патента российской федерации на изобретение", где будут представлены формулы заявок. Потренируйтесь, например патент 2167450 и заявка 2005134946.

Я считаю, что просмотрев то , что я Вам вышлю, во-первых, можно будет понять то ли я нашла, во-вторых, нужно ли патентовать и что именно.

С уважением, Марина Тадеушевна.

22.10.2007 Марина Тадеушевна - Ханову О.А.
Здравствуйте, Олег Алексеевич!

Посылаю Вам перечень отобранных заявок и патентов на изобретения Также адреса сайтов с информацией, которая, мне так показалось, может быть полезной.

Надеюсь Вы получили мое предыдущее письмо, в котором я рассказала как посмотреть информацию по заявкам и патентам. Если есть вопросы, пишите или звоните. И вообще после просмотра обязательно сообщите, что делать дальше - остановить поиск, продолжить, нужно ли смотреть зарубеж и т.д и т.п.
С уважением, Марина Тадеушевна.

23.10.07 Ханов О.А. - Марине Тадеушевне
Уважаемая Марина Тадеушевна!
2 письма получил. Теперь мне потребуется некоторое время, чтобы оценить "релевантность" и "пертинентность" обнаруженных документов (употребляю термины, принятые в этой теме, обозначающие соответствие запросу и соответствие по сути). Ориентируюсь на 1 неделю, но это будет зависеть от загруженности на работе, за которую мне что-то платят. К сожалению, она бесконечно далека от моих интересов.

Пока я успел только все выгрузить в свой компьютер. Беглое знакомство с патентом 2305314 обнадеживает. Кажется, в таком стиле написать что-то можно. ("Способ анализа документов ... с целью повышения релевантности ...").

Я может быть не заметил, но вероятно, в открытой части WWW.FIPS.RU и нет другого варианта доступа к патентам кроме как по номеру. А хотелось бы по классификатору, иногда полезно по фамилии. Кстати, если у вас есть список номеров, относящихся к моей фамилии, мне он был бы интересен. Поскольку у себя я "авторских" следов не нахожу (не проявляя, правда, должной настойчивости). Мне это не так важно, как любопытно.

Параллельно пытаюсь оценить работу своего алгоритма в сравнении с другими. Пока мне все-таки свой алгоритм нравится больше. Для продолжения работы по патенту надо сохранить такое ощущение, при этом оставаясь "беспристрастным". Все зависит от прототипа. "Известный алгоритм", с которым я провожу сравнение - это "собирательный образ", моя интерпретация признаков, которые обнаружил в разных публикациях. В действительности все может оказаться не так - лучше или хуже.

Итак, resume.
Прошу 1 неделю, после чего я проявлюсь в какой-нибудь форме вне зависимости от результата. Возможно, это случится раньше, если будут предложения, вопросы, или наступит полное понимание... Вобщем, начинаю работу. Время пошло...
О.А.

24.10.2007 Ханов О.А.
Здравствуйте, Олег Алексеевич!
Вот перечень технических решений, защищенных авторскими свидетельствами, где Вы являетесь автором и патентом, где Вы являетесь автором и патентообладателем.

А.С. 1173411, 1166103, 1092499, 1015374, 563724 Патент 2155451

Поиск по патентной базе РФ можно проводить, по различным видам запроса, таким образом я и обнаружила те решения, номера которых переслала. Так и быть расскажу как, хотя, мне кажется Вы и сами бы разобрались, ведь это очень просто.

Заходите на сайт, на "синей" странице выбираете "поиск" далее "поисковая система", затем используя "guest" заходите в бесплатную поисковую базу . Выбираете для поиска по изобретениям "рефераты российских патентных документов", а затем "формулировка запроса". Видите таблицу в которую можно заводить различные виды запросов. Теперь уже не надо ехать в РНБ, все можно увидеть у себя на экране. Имейте в виду, что здесь Вы получите только рефераты, а полное описание в "открытых реестрах". Чтобы полностью изучить описания своих авторских свидетельств зайдите в базу ru.espacenet.com на синей странице сайта. Достаточно аналогично построению базы РФ, попробуйте сами. Заводите запрос, например "su1173411"
С уважением, Марина Тадеушевна.

24.10.07 Ханов О.А. - Марине Тадеушевне
Уважаемая Марина Тадеушевна!
Прежде всего, спасибо за информацию. Пока я этим не воспользовался, но зато просмотрел все полученные патенты и заявки.
Результат.

1. Хороший прототип, с которым можно было бы без большого напряжения работать, я не увидел.

2. Но зато я увидел нечто интересное для своего метода. В патенте 2236699 используется некий алгоритм для анализа признаков документов, и на основании этого анализа выполняется ранжирование. Я понял, что могу свой метод использовать шире, поскольку таблицу частот слов можно воспринимать как таблицу признаков документа. Т.е. содержание этой таблицы может иметь очень разную природу, а обращаться с ней можно единообразно. Беру на заметку.

3. Увидел еще одно отличие своего алгоритма - его относительную независимость от системы (языка). В моей формуле делитель, учитывающий свойства языка, имеет вспомогательное значение, в то время как аналогичный по смыслу множитель "IDF" в известном алгоритме более важен.

4. Из просмотра патентов делаю вывод, что первоначальный ориентир - внедрение в поисковики мне придется оставить. Я не могу заняться грамматическими и другими разборками, поскольку денег, времени, коллектива нет. А это важно и нужно. Мой положительный результат слишком мал (изначально я этого не видел), поэтому мне будет непросто найти инвестора, даже если с патентованием все будет хорошо.

5. Я закрываю тему "поисковик" и этап "патентный поиск". На этом можно поставить точку, встретиться с Вами еще раз для подведения итогов и на время (надеюсь, не навсегда) забыть о патентах.

Но как только я очистил свою память от поисковиков, всплыла предыдущая тема "Информационная система" и патент N 2155451. И я подумал, что если сузить свои претензии, то может что-нибудь и получится. Тем более что тот патент был не менее претенциозен. Я вернулся к тому, с чего несколько месяцев назад начал поисковую тему. Т.е. занимаюсь реализацией своего патента (информационная система). Недостаток патента - нет автоматического классификатора (это не теория, это практика!). Я нахожу способ, пытаюсь его запатентовать, и в качестве прототипа, естественно, пытаюсь использовать патент, который реализую.

Внимательно прочитал текст, оценил качество проделанной вместе с Надеждой Леонидовной работы - что-либо изменить или добавить здесь очень трудно. Но некоторые соображения есть, они в приложении.
О.А.

Приложение

Уважаемая Марина Тадеушевна!
Мне придется немного подробнее рассказать о своих занятиях. В порядке реализации патента я установил в двух местах компьютеры со свободным доступом - нечто, похожее на банкоматы или на компьютеры для приема платежей. (По патенту это - абонентские приемники). Вместо денежных операций они давали разнообразную справочную информацию. Вся информация была систематизирована ("вручную") по различным признакам. Для дополнительного привлечения внимания к своим компьютерам я решил ввести функцию считывания и ввода информации с мобильных телефонов или миникомпьютеров ("наладонников"). Для того, чтобы вводимой информацией можно было пользоваться, она должна бы быть интегрирована в общую базу данных, попасть в "правильный" раздел. Для этого и потребовался алгоритм автоматического определения содержания текста, т.к. "вручную" это сделать принципиально невозможно.

"Внутреннее содержание" каждого абонентского узла чем-то похоже на сервер поисковой системы, а для клиента работа с базой данных напоминает работу в Интернете, с той разницей, что здесь вся информация сосредоточена в одном месте и может быть упорядочена настолько, насколько позволит фантазия. Все это только похоже на Интернет, но не имеет к нему отношения, он используется исключительно как самый большой склад информации. Сходство усиливается тем, что база данных ведется в том же формате (HTML), в каком она располагается в Интернете.

Если мне удастся найти хотя бы какое-то финансирование, то я восстановлю свои два "замороженных" объекта и без больших проблем запущу еще несколько. Мне кажется, что бесплатный "уличный интернет" в определенных местах имеет право на существование и должен приносить доход, подобно тому, как приносят доход бесплатные сайты и поисковики. Быть может, я ошибаюсь. До сих пор это занятие было убыточным.

Формула патента 2155451

1. Способ распространения информации в многоабонентной системе, заключающийся в формировании на передающей стороне передаваемого сигнала в виде кодовой последовательности, состоящей из поля синхронизации, адресного поля и поля "содержание сообщения", причем в последнее заносится информационная часть передаваемого сообщения, и передаче сформированного таким образом сигнала через канал связи на абонентские приемники, где содержимое адресного поля поступившего сигнала анализируют и при наличии в нем адреса совпадающего с одним из присвоенных абоненту адресов, пропускают сигнал для дальнейшей обработки, отличающийся тем, что передаваемый сигнал дополняют полем "тип сообщения" и, если передается текстовое сообщение, то при формировании передаваемого сигнала кодируют его информационную часть с использованием одной из предварительно сформированных тематических таблиц кодирования, выбор которой определяется тематикой текста, при этом в поле "тип сообщения" заносят код этой таблицы, осуществляют корректировку присвоенных конкретному абоненту адресов путем передачи сигнала с соответствующим командным сообщением, при формировании которого в поле "тип сообщения" заносят код команды, а на абонентском приемнике принятый и пропущенный для дальнейшей обработки сигнал с текстовым сообщением декодируют с использованием соответствующей таблицы декодирования, предварительно внесенной в его память.

2. Способ по п.1, отличающийся тем, что для формирования тематических таблиц кодирования путем статистической обработки текстов соответствующей тематики выявляют повторяющиеся фрагменты текста и для каждого из них вычисляют параметр, равный произведению длины фрагмента на вероятность его проявления в тексте, и, если этот параметр превышает заданное значение, обусловленное выбранной разрядностью таблицы, то выявленному фрагменту присваивают код, с которым его заносят в таблицу кодирования.

3. Способ по п. 1, отличающийся тем, что корректировку предварительно внесенных в память абонентского приемника тематических таблиц кодирования осуществляют путем передачи через канал связи соответствующего командного сообщения.

4. Информационная система, содержащая группу узлов подготовки информации (УПИ), выводы которых соединены с первым каналом связи, и группу абонентских узлов, входы которых соединены со вторым каналом связи, в которой каждый УПИ содержит блок ввода, вход которого является входом УПИ, а выход соединен с входом блока управления, который соответствующими выводами соединен также с блоком памяти и блоком согласования, второй вывод которого является выводом УПИ, а каждый абонентский узел содержит блок приема, вход которого является входом абонентского узла, блок управления и связанные с ним соответствующими выводами блок памяти и блок согласования, второй вывод которого является выводом абонентского узла, отличающаяся тем, что в нее дополнительно введен центральный узел, соединенный своим выводом с первым каналом связи и содержащий последовательно соединенные блок согласования, вывод которого является выводом центрального узла, блок формирования программы передач, автомат передачи, формирователь кодовой последовательности и блок передачи, выход которого подключен ко второму каналу связи и является выходом центрального узла, а также блок памяти и блок ввода, вход которого является входом центрального узла, а выход соединен со вторым входом блока формирования программы передач, соединенного также соответствующим выводом с первым выводом блока памяти, второй вывод которого соединен с соответствующим выводом автомата передач, кроме того, в каждый УПИ дополнительно введен блок кодирования, соединенный с третьим выводом блока управления, а в каждый абонентский узел введены селектор адреса, информационный и управляющие входы которого соединены с соответствующими выходами блока приема, а вывод с блоком управления, и блок декодирования, соединенный соответственно с выходом блока управления и с третьим выводом блока согласования.

5. Система по п.4, отличающаяся тем, что в качестве первого канала связи использована телефонная сеть, а в качестве второго - радиоканал.

Предложение для нового патента.

Недостаток известного способа - требуются некоторые нестандартные действия на передающей стороне, а именно формирование таблицы кодирования. Это ограничивает область применения системы, т.к. источник, не обладающий нестандартными средствами, свою информацию передать не может.

Кроме того, система не позволяет разместить информацию клиента на локальном абонентском узле коллективного пользования посредством стандартных средств массового применения, таких как мобильный телефон или "наладонник". Для реализации этой функции недостаточно организовать вход для ввода такой информации и исключить из употребления тематические таблицы кодирования, т.к. ввод разнообразной информации без ее прикрепления к определенной тематике затруднит поиск.

Предполагаемая формула (в не очень строгом варианте)

1. Способ распространения текстовой информации в многоабонентной системе, заключающийся в формировании на передающей стороне сигнала в виде кодовой последовательности и передаче его через канал связи на абонентские приемники, в которых принятый сигнал с текстовым сообщением анализируется (это вместо "декодируются") с использованием тематических таблиц, предварительно внесенных в его память,
отличающийся тем, что с целью упрощения поиска (расширения области применения?)
каждая тематическая таблица содержит список употребляемых по этой теме слов и предварительно вычисленные значения Fi их частот употребления в текстах данной темы, при анализе вновь поступившего текста для каждого слова вычисляется его частота повторения в этом тексте Hi, последовательно для каждой тематической таблицы выполняется вычисление суммы произведений Fi*ln(Fi)*Hi*ln(Hi) для всех обнаруженных в таблице слов текста, и при записи текста в память ему присваивается индекс темы, для таблицы которой значение суммы получилось максимальным.

2. Способ по п. 1, отличающийся тем, что слова вновь поступившего текста заносятся в соответствующую тематическую таблицу и корректируются значения частот употребления слов по этой теме.

3. Информационная система, содержащая группу узлов подготовки информации, первый канал связи, центральный узел и группу абонентских приемников, о т л и ч а ю щ а я с я тем, что с целью расширения функциональных возможностей каждый абонетский узел содержит дополнительный вход и блок приема, а вместо блока декодирования введен блок анализа принятого текста.

05.12.2007 Юрий Нешитов - Ханову О.А.
Уважаемый Олег, отвечаю по поводу вашей статьи "Вычисление информации, содержащейся в текстах", присланной в журнал "Инновации". Вы затрагиваете исключительно важную тему, поддающуюся формализации с большим трудом. Не являясь экспертом в этой области, я хотел бы понять, на основании каких работ и каких концепций (кроме Шеннона) вы строите свой метод (Обычный список использованной литературы здесь мог бы помочь).

С какими существующими методами поиска релевантной информации сопоставим ваш подход?

В чем его преимущества?

Кого из экспертов вы могли бы порекомендовать для запроса отзыва о вашей работе?

С уважением, Юрий Нешитов
Редактор рубрики <Контакты и Технологии>

Журнал <ИННОВАЦИИ>

197376 С.- Петербург, ул. Проф. Попова, 5

тел/факс (812) 234-0918

тел. (812) 234-6658

электронная версия http://innov.eltech.ru/

http://www.mag.innov.ru/

e-mail: http://win.mail.ru/cgi-bin/sendmsg?compose&To=transfer@eltech.ru

06.12.2007 Ханов О.А. - Ханову С.О.
Привет!
2 мес. назад отправил статью в журнал "Инновации". Ответ был положительный. Вчера связался с редакцией журнала. Были опасения, что не все так просто. Статья передана в раздел "Технологии", редактор этого раздела отнесся к вопросу более серъезно, чем главный редактор. Получил от него письмо, прилагаю текст. Подготовил ответ (в приложении). Т.к. это для "внешнего потребления", просьба посмотреть на него своим критическим взглядом.
Спасибо.

Приложение

Уважаемый Юрий!
Прошу извинить за многословие, но мне проще ответить на вопросы в контексте своей истории.

На тему статьи я вышел случайно. Занимаясь вопросами распространения информации по широковещательным каналам, я обнаружил, что задача не может быть решена без автоматической классификации текстов произвольного содержания. Сортировка по ключевым словам не давала удовлетворительного результата, здесь требовалось что-то другое. У меня не было информации о том, как решается эта задача, и я попытался решить ее "как получится".

Для ее решения были приняты некоторые "концептуальные" (возможно, очевидные) предположения:

1. Каждое слово текста в той или иной степени определяет его смысл, и можно попытаться вычислить эту "степень определения смысла" (рейтинг каждого слова в данном тексте).

2. Каждое слово имеет определенную "важность" (рейтинг) в языке.

3. Если каждое слово содержит некоторую частицу смысла всего текста, то для сравнения смыслов двух текстов можно сравнивать рейтинги составляющих их слов.

4. Смысл одного из двух сравниваемых текстов можно определить или задать "извне", тогда все остальные смыслы будут определяться как степень соответствия этому "привнесенному" смыслу.

Дальнейшая логика отражена в статье.

Решая задачу, я занимался оцифровкой текстов, составлением словарей, проверкой и отработкой алгоритма. Сначала было использовано произведение частот, затем были добавлены логарифмы. Много времени было положено на делитель "1+15Gi", т.к. в такой форме он давал наилучший результат, но о "физическом" смысле коэффициента "15" я и сейчас могу только предполагать. Насколько я понимаю, такого рода константы могут быть вызваны фундаментальными свойствами описываемого объекта, либо порождаются согласованием единиц измерения или неточностью аппроксимирующей функции. Т.е., если это не "фундаментальное свойство", то было бы лучше, чтобы такого коэффициента не было.

Результат оказался удовлетворительный. Следовательно, исходные соображения и логика не были ошибочными. Меня удивил результат, поскольку я предполагал, что нельзя не учитывать грамматические и синонимические связи, "абберации" слов. Это было бы слишком трудоемко. Т.е. оказалось, что основной смысл текста заключается все-таки в используемых словах, а все остальное лишь уточняет и дополняет этот основной смысл. Вообще говоря, такой результат согласуется с практикой. Удачное название текста (одно или несколько слов) уже несет в себе информацию о его содержании.

По окончании работы я "покопался" в теории информации, уверенный в том, что выведенную формулу обнаружу - она слишком проста и очевидна. Но этого не случилось, и сей факт стал поводом для написания данной статьи. Если говорить более точно, то на сайте http://www.intuit.ru/department/calculate/infotheory/2/2.html приведена формула Шеннона для измерения количества информации, содержащейся в одной дискретной случайной величине, относительно другой случайной величины. Однако у меня не получилась интерпретация этой формулы для анализа текстов. Поиск такой интерпретации ничего не дал.

Уже после передачи статьи в редакцию "Инновации" я обнаружил существование науки "Теория информационного поиска".

Перечислю некоторые сайты на эту тему.

http://old.ulstu.ru/people/SOSNIN/umk/Basis_of_Artificial_Intelligence/publ_en/inetsearch.htm
http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html
http://www.ict.nsc.ru/ws/elpub2001/1812/
http://poiskbook.kiev.ua/
и многие, многие другие.

Если оставить в стороне методы поиска, не связанные с погружением в содержание текста (индекс цитирования, например), то в основе методов лежит определение ключевых слов. Разнообразие методов - это разнообразие способов их определения и их учета (учет грамматики, трансформаций, контекста, статистики, расстояний между словами). Широко используется метод "TF*IDF".

Анализ методов поиска в сопоставлении с подготовленной для публикации статьей позволяет сделать следующие выводы.

1. Статья не противоречит методам теории.

2. Упоминавшийся делитель 1+15Gi имеет в теории аналог "IDF", определяемый как Log(1/Gi), причем значения Gi определяются одинаково. Я попытался заменить делитель множителем "IDF". Получилось хорошо, но статистически все-таки хуже.

3. В традиционных методах множитель "IDF" является весьма важным, без него результат много теряет. Аналог этого множителя "1+15Gi" в предлагаемой формуле имеет вспомогательное значение. Его отсутствие результат загрубляет, но не катастрофически. Это хорошо, т.к. параметр Gi учитывает свойства всего языка, и его определение может быть затруднено.

4. "Рефрен" статьи - вычисление относительной информации. Такое определение шире сопоставления текстов по ключевым словам. По сути, обычное сравнение ключевых слов есть не что иное, как один из методов, как частный случай определения относительной информации.

5. В предлагаемую формулу входят два параметра - частоты (вероятности) употребления слов в двух текстах. Эти два параметра могут быть интерпретированы иначе. Т.е. формула может быть использована для вычисления относительной информации других (нетекстовых) объектов. В заключительной части статьи это направление обозначено.

6. Данный метод не исключает учет контекста, статистики, морфологии и т.д. Все это может улучшить результат.

7. В статье просматривается некоторый дилетантизм автора, состоящий в неупотреблении принятой терминологии, в отсутствии ссылки на "TF*IDF". Это можно подправить, но мне кажется, не нужно. Я зашел в тему "с другой стороны", и пусть будет так. Возможно, для неспециализированного журнала это лучше. Подправить (или исключить) можно вводную часть.

Решение многих задач этой темы весьма трудоемко и без финансирования едва ли возможно. В то же время, мне кажется, что тема не только широка и глубока, но имеет достаточно выходов на практические (коммерческие) применения.

С уважением, Олег Ханов.
06.12.07

06.12.2007 Ханов С.О. - Ханову О.А.
Привет!
"Удачное название текста (одно или несколько слов) уже несет в себе информацию об его содержании." "ОБ" - не правильно. "весьма трудоемко" - добавил бы еще "ресурсоемко".

Возражений по тексту нет. Все читабельно и доходчиво.

Мне не совсем понятен редактор. Возможно это стиль письма, но меня насторожила легкая лесть вначале и его желание что-то понять посредством абсолютно формальных вещей (список литературы и далее по форме). Если людей что-то интересуют, они задают другие вопросы. Мне кажется, что либо он ничего не понял и желает перестраховаться перед печатью, дабы не чувствовать себя дураком печатая псевдонаучный бред псевдоученого, либо он наоборот все понял, и решил что это не особо неинтересно да еще и не сильно формально.

07.12.07 Ханов О.А. - Юрию Нешитову
Здравствуйте, Юрий.
Я попытался ответить на все Ваши вопросы, кроме последнего. Ответ - в приложении. Последний вопрос (об отзыве) был бы самым простым, если бы вокруг меня был коллектив, который занимался бы этй темой. К сожалению, это не так. Я предпринимаю определенные действия по поиску рецензента. Когда эта деятельность завершится успехом, я сообщу. Вопрос: какие требования предъявляются к кандидатуре рецензента?
С уважением, Олег Ханов.

17.12.07 Ханов О.А. - Юрию Нешитову
Здравствуйте, Юрий.
7.12.07 я отправил письмо по адресу neshitov@mail.ru по поводу статьи "Вычисление информации, содержащейся в текстах" с вопросами своими и с ответами на Ваши вопросы. Для "обратной связи", прошу Вас сообщить, не изменилась ли ситуация с публикацией. Если нет, то нужен ли эксперт и какие требования предъявляются к рецензиям и рецензентам?

С уважением, Олег Ханов.

17.12.07 Юрий Нешитов - Ханову О.А.
Олег,здравствуйте!
Прошу тайм-аут на три дня.
С уважением, Ю. Нешитов

05.01.08 Юрий Нешитов - Ханову О.А.
Уважаемый Олег, простите за задержку с ответом.
Поделюсь сложившимся впечатлением по поводу вашей статьи и вашего дополнения к ней. Несомненно, у вас есть вкус к этой теме. Вы ее чувствуете, и, скорее всего, что-то свое уже в ней нашли. Но все-таки это явная самодеятельность.

Давайте договоримся так.

Посмотрите, чем занимался Сергей Брин (из Google). У него есть научные работы по поисковым системам (в Интернете попадались их названия).

Посмотрите книгу Василия Васильевича Налимова (был в МГУ) "Вероятностная модель языка". Была тартусско-московская семиотическая школа Юрия Михайловича Лотмана.

Мне кажется, проще всего вам встретиться с Сергеем Васильевичем Чебановым, который занимается семиотикой и ориентируется в затронутой теме. У него несколько ипостасей, сейчас он преподает в "Военмехе". Пересылаю ему вашу статью. Можеет позвонить ему на следующей неделе 312-9008 (дом).

С уважением и новогодними пожеланиями,

Юрий Нешитов
Контакты и технологии
Журнал "Инновации"

06.01.08 Ханов О.А. - Юрий Нешитов
Здравствуйте, Юрий.
Благодарю Вас за письмо. Любая информация всегда лучше, чем ее отсутствие. Меня увлекла тема, в которую я вошел случайно. Из просмотренных публикаций следует, что в настоящее время затронут только самый верхний слой этой темы, а в глубинах ее еще будет много интересного и неожиданного. Мне бы хотелось принять участие в этих раскопках, но "в одиночку", без финансирования и без команды единомышленников это нереально ввиду большой трудоемкости всех направлений.

Благодарю Вас также за предоставленные координаты. Я попытаюсь связаться с Сергеем Васильевичем Чебановым. Мне кажется, Вы правильно определили область, в которой я оказался - семиотика. Поиски связей и аналогий в разнородных знаковых системах - именно на эту тему я попытался что-то сказать. Конечно, я никак не могу считаь себя специалистом, в этой (и в смежных областях), что прогнозирует ближайшие дальнейшие неудачи. Обнадеживает лишь то, что я не считаю дилетантизм тяжелой неизлечимой болезнью. Иногда он бывает даже полезен - как способ логического преодоления невидимых эмоциональных границ.

С Новым годом и Рождеством!
С уважением, Олег Ханов.

12.01.08 Ханов О.А. - Юрий Нешитов
Здравствуйте, Юрий.
Разговор с Чебановым Сергеем Викторовичем состоялся (достаточно продолжительный, по телефону). Я услышал положительную оценку статьи.

По содержанию - "Здесь все прозрачно, вопросов нет". По форме следовало бы подправить текст. Как я понимаю - "обрамление" (некоторые определения могут вызвать возражения лингвистов). Вопрос был по поводу коэффициента "15". Я подтвердил его эмпирическое происхождение и именно эту цифру. Больше или меньше - хуже. Уже после разговора я обнаружил, что это число подозрительно похоже на константу Зипфа (ее обратное значение для русского языка лежит в диапазоне 14.3-16.7), но подтвердить или опровергнуть такую связь можно только повторив все это исследование для иноязычных текстов (где константа другая).

Возможно, что статья не вписывается в тематический диапазон журнала "Инновации". Если это так, то я вопрос закрою. Для определенности прошу Вас сообщить об этом. Но на всякий случай направляю в приложении исправленную версию.
С уважением, Олег Ханов.

15.01.08 Юрий Нешитов - Ханову О.А.
Олег, надеюсь, что напечатаем. Тема важная. Срок - месяца через три-четыре. Добавьте только пояснение, что такое константа Зипфа. С уважением, Юрий Нешитов

17.01.08 Ханов О.А. - Юрию Нешитову
Здравствуйте, Юрий.
О константе Зипфа я упомянул потому, что мне кажется, для этого направления было бы важно доказать связь между константой и формулой вычисления информации. Численное значение (0.06-0.07) есть (например) на сайте http://board.rt.mipt.ru/?read=2727756. Кроме численного совпадения я вижу следующие основания для возможности такой связи.

1. Как константа Зипфа, так и выражение "1+15Gi" (в статье) связывают словоупотребления в конкретном тексте с языком. Значение константы зависит от языка и значит, другие параметры, связанные с "языковой системой" также могут (должны?) быть от языка зависимы. Возможно, что коэффициент "(1/константа Зипфа)=15" такую зависимость учитывает.

2. Сравнение результатов вычислений при использовании известного параметра "TF*IDF" и его аналога "1+15Gi" показывает, что функция "соответствия" при прочих равных условиях у меня получается более "острая". Т.е. соответствие/несоответствие определяется более четко. Это должно означать, что по крайней мере для русского языка выражение "1+15Gi" лучше аппроксимирует "реальность". Возможно, что аппроксимация "TF*IDF" хороша для английского, а для русского лучше другое.

Однако, все это не более чем правдоподобные предположения. Кроме того, у меня сложилось впечатление, что все обнаруженные ссылки со значением константы взаимозависимы, т.е. полного доверия к этому числу нет. Поэтому можно либо вовсе исключить упоминание о Зипфе, либо дополнить его очень коротким расширением. Например: "...о взаимосвязи эмпирического коэффициента "15" и константы Зипфа, определяемой как произведение частоты встречаемости слова в тексте на его ранг (порядковый номер).

Прошу Вас сообщить о решении (положительном или отрицательном), когда вопрос о публикации определится.
С уважением, Олег Ханов.

19.01.08 Юрий Нешитов - Ханову О.А.
Олег, вопрос о публикации решен положительно, как я вам и сообщал.

Относительно правки - не думаю, что можно дать исчерпывающие определение какого-либо языкового явления. Контекст играет чуть ли не решающую роль, а сам неформализуем. А константа Зипфа выскакивает у вас, как черт из табакерки, и поэтому нуждается в разъяснении - по возможности, подробном. Об этом я и просил. Чем обстоятельней разъяснено, тем обычно больше доверия вызвает автор. В этом ключе и дополните.

С наилучшими пожеланиями, Ю. Нешитов

21.01.08 Ханов О.А. - Юрию Нешитову
Здравствуйте, Юрий.
Я хочу исключить упоминание о константе Зипфа - изъять из текста все предложение с таким упоминанием. Это отдельная тема - интересная и важная, по которой меня "есть мнение", но нет обоснования, и потому я пока не могу говорить об этом подробно и определенно.
С уважением, Олег Ханов.

15.04.08 Ханов О.А. - Юрию Нешитову
Здравствуйте, Юрий.
Переписка по поводу статьи "Вычисление информации, содержащейся в текстах", завершилась сообщением о публикации предположительно в апреле-мае. Мне не удалось узнать что-либо по этому поводу в редакции (в ЛЭТИ). Поэтому прошу Вас сообщить о текущем состоянии.
С уважением, Олег Ханов.

16.04.08 Юрий Нешитов - Ханову О.А.
Олег Алексеевич, у нас идет небольшая структурная реорганизация. С рубрикой, которую я вел, пока неясность.
Статью вашу я рекомендовал для печати главному редактору Борису Алексеевичу Новикову. Надеюсь, что будет опубликована в каком-либо ином разделе. (Шлите время от времени запросы в редакцию на его имя, это бывает полезно для ускорения публикации).
С уважением, Ю. Нешитов
____________

В октябре 2008 года статья "Вычисление информации, содержащейся в текстах" была опубликована в журнале "Инновации" N8.

В начало