Понятия теории информационного поиска

08.10.2007. Ханов О.А., письмо С.О.

Забыл в своем монологе сказать:
1. Спешу отчасти потому, что надо все сделать до публикации статьи (должна быть месяца через 2-3), иначе статья может быть противопоставлена патенту (не будет новизны)
2. Конкретный разговор с кандидатом может быть только после решения всех вопросов с патентным ведомством (это минимум несколько дней). Сейчас запускаю все процессы.

Основные понятия теории информационного поиска
ПЕРТИНЕНТНОСТЬ - от английского "pertinent" - "относящийся к делу, подходящий по сути"
РЕЛЕВАНТНОСТЬ - Степень соответствия документа запросу Релевантный документ может оказаться непертинентным и наоборот.
РАНЖИРОВАНИЕ - наиболее важные документы должны попадать в начало списка Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.
ИНДЕКСАЦИЯ - компоновка ресурсов по ключевым словам, хранит базы данных в виде, удобном для поиска
ПРИНЦИП "TF*IDF" - определение значимости отдельных слов (это и есть кусок моей формулы)

Цитаты из разных сайтов
Алгоритмы ранжирования
- Алгоритм Клейнберга - HITS
Алгоритм HITS обеспечивает выбор из информационного потока лучших <авторов> (первоисточников) и <посредников> (документов от которых идут ссылки цитирования
- Алгоритм PageRank
PageRank подсчитывает общий "авторитет" документа, в то время как HITS определяет "авторитет" документа для конкретной темы.
- Весовой алгоритм ранжирования текстовых сообщений
Вес документа определяется как средний вес входящих в него значимых ключевых слов (значимость отдельных слов определяется, например по принципу TF*IDF).
- Ранжирование "по Хиршу"
В 2005 г. в области наукометрии произошло важное событие - физиком Йоргом Хиршем был предложен новый метод оценки научных публикаций Метод состоит в подсчете числа h публикаций одного автора, на которые имеется не менее h ссылок.
- Классификация
При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории.
- Кластеризация
Кластеризация рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную.
- Автоматическое реферирование
Автоматическое реферирование (Automatic Text Summarization) - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечения наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных и информационно-насыщенных отчетов. Существует два направления автоматического реферирования - квазиреферирование и краткое изложение содержания.
- Система Knowledge Server (Autonomy)
Основное преимущество системы Autonomy - интеллектуальные алгоритмы, основанные на статистической обработке. Эти алгоритмы базируются на информационной теории Шеннона, Байесовых вероятностях и нейронных сетях. Autonomy включает такие основные возможности:
- автоматическая классификация;
- кластеризация;
- автореферирование;
- автоматическое проставление гиперссылок;
- автоматическое создание профилей (информационных портретов);
- генерация таксонометрических деревьев;
- создание и манипулирование метаданными;
- интеллектуальная обработка XML-данных;
- персонализация;
- поиск. (Только здесь упоминается Шеннон)

Основные идеи Семантического Web
- Возможность интегрировать в Интернет объекты реального мира благодаря унификации обмена данными.
- Организация такого представления данных в сети, чтобы допускалась не только их визуализация, но и их эффективная автоматическая обработка программами разных производителей.
- Создание непрерывного информационного поля, превращение Web в систему семантического уровня.
- Семантический Web представляет собой расширение существующего Web, в котором информация представляется в четком и определенном смысловом значении, дающем возможность людям и компьютерам работать с высокой степенью взаимопонимания и согласованности.

Другая ветвь Семантического Web названа онтологическим подходом. Этот подход включает в себя средства аннотирования документов, которыми могли бы воспользоваться компьютерные программы (Web-сервисы и агенты) при обработке пользовательских запросов. Модели предметных областей в терминологии Семантического Web называются онтологиями. 10 февраля 2004 года консорциумом W3C была утверждена и опубликована спецификация языка сетевых онтологий OWL

Ссылки
http://www.searchengines.ru/articles/004603.html
Изложение теории поиска Поиск в мультимедийном окружении (мне это интересно, эта ниша свободна, пока)

Теория информационно-поисковых систем (популярно)
http://old.ulstu.ru/people/SOSNIN/umk/Basis_of_Artificial_Intelligence/publ_en/inetsearch.htm

Теория информационно-поисковых систем (популярно)
http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html

Перечислены существующие поисковые системы - наши н иноземные:
http://asparagus.h1.ru/rus/praktika11_3.htm

Описание Rambler:
http://www.searchengines.ru/articles/004575.html

Методы ранжирования:
http://www.dialog-21.ru/dialog2006/materials/html/Fedorovsky.htm

Методы реферирования:
http://lenoolichka.boom.ru/Ref.htm

Описание внутренних механизмов поисковых систем:
http://poiskbook.kiev.ua/pbs.html

"Научно-популярное" описание принципов организации семантических каталогов:
http://www.searchengines.ru/articles/004583.html

Статья "Оценка тематической близости ":
http://meta.math.spbu.ru/~igor/thesis/node11.html

Статья о стилистических параметрах:
http://www.ict.nsc.ru/ws/elpub2001/1812/

О теории информационного поиска - файл poisk.ppt

Ссылки на тему TF*IDF - файл yandtfidf.htm

Форум по формуле Шеннона:
http://commlink.com1.ru/genesis/viewtopic.php?t=394&highlight=&sid=893f65f55009e21fb8365ab8baf8f719

Из теории информации, на мою тему (относительная информация), но в очень неявном общем виде:
www.intuit.ru/department/calculate/infotheory/2/2.html

Теория информации. (На мою тему - свойство адетивности энтропии)
http://mindspring.narod.ru/math/it/

Теория информации:
http://slovari.yandex.ru/dict/krugosvet/article/krugosvet/2/1001541.htm?text=%D1%88%D0%B5%D0%BD%D0%BD%D0%BE%D0%BD
В начало