Понятия теории информационного поиска08.10.2007. Ханов О.А., письмо С.О.Забыл в своем монологе сказать: 1. Спешу отчасти потому, что надо все сделать до публикации статьи (должна быть месяца через 2-3), иначе статья может быть противопоставлена патенту (не будет новизны) 2. Конкретный разговор с кандидатом может быть только после решения всех вопросов с патентным ведомством (это минимум несколько дней). Сейчас запускаю все процессы. Основные понятия теории информационного поиска ПЕРТИНЕНТНОСТЬ - от английского "pertinent" - "относящийся к делу, подходящий по сути" РЕЛЕВАНТНОСТЬ - Степень соответствия документа запросу Релевантный документ может оказаться непертинентным и наоборот. РАНЖИРОВАНИЕ - наиболее важные документы должны попадать в начало списка Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок. ИНДЕКСАЦИЯ - компоновка ресурсов по ключевым словам, хранит базы данных в виде, удобном для поиска ПРИНЦИП "TF*IDF" - определение значимости отдельных слов (это и есть кусок моей формулы) Цитаты из разных сайтов Алгоритмы ранжирования - Алгоритм Клейнберга - HITS Алгоритм HITS обеспечивает выбор из информационного потока лучших <авторов> (первоисточников) и <посредников> (документов от которых идут ссылки цитирования - Алгоритм PageRank PageRank подсчитывает общий "авторитет" документа, в то время как HITS определяет "авторитет" документа для конкретной темы. - Весовой алгоритм ранжирования текстовых сообщений Вес документа определяется как средний вес входящих в него значимых ключевых слов (значимость отдельных слов определяется, например по принципу TF*IDF). - Ранжирование "по Хиршу" В 2005 г. в области наукометрии произошло важное событие - физиком Йоргом Хиршем был предложен новый метод оценки научных публикаций Метод состоит в подсчете числа h публикаций одного автора, на которые имеется не менее h ссылок. - Классификация При классификации текстов используются статистические корреляции для построения правил размещения документов в определенные категории. - Кластеризация Кластеризация рассматривается как процесс выделения компактных подгрупп объектов с близкими свойствами. Система должна самостоятельно найти признаки и разделить объекты по подгруппам. Кластеризация, как правило, передует классификации, поскольку разрешает определить группы объектов. Различают два основных типа кластеризации - иерархическую и бинарную. - Автоматическое реферирование Автоматическое реферирование (Automatic Text Summarization) - это составление коротких изложений материалов, аннотаций или дайджестов, т.е. извлечения наиболее важных сведений из одного или нескольких документов и генерация на их основе лаконичных и информационно-насыщенных отчетов. Существует два направления автоматического реферирования - квазиреферирование и краткое изложение содержания. - Система Knowledge Server (Autonomy) Основное преимущество системы Autonomy - интеллектуальные алгоритмы, основанные на статистической обработке. Эти алгоритмы базируются на информационной теории Шеннона, Байесовых вероятностях и нейронных сетях. Autonomy включает такие основные возможности: - автоматическая классификация; - кластеризация; - автореферирование; - автоматическое проставление гиперссылок; - автоматическое создание профилей (информационных портретов); - генерация таксонометрических деревьев; - создание и манипулирование метаданными; - интеллектуальная обработка XML-данных; - персонализация; - поиск. (Только здесь упоминается Шеннон) Основные идеи Семантического Web - Возможность интегрировать в Интернет объекты реального мира благодаря унификации обмена данными. - Организация такого представления данных в сети, чтобы допускалась не только их визуализация, но и их эффективная автоматическая обработка программами разных производителей. - Создание непрерывного информационного поля, превращение Web в систему семантического уровня. - Семантический Web представляет собой расширение существующего Web, в котором информация представляется в четком и определенном смысловом значении, дающем возможность людям и компьютерам работать с высокой степенью взаимопонимания и согласованности. Другая ветвь Семантического Web названа онтологическим подходом. Этот подход включает в себя средства аннотирования документов, которыми могли бы воспользоваться компьютерные программы (Web-сервисы и агенты) при обработке пользовательских запросов. Модели предметных областей в терминологии Семантического Web называются онтологиями. 10 февраля 2004 года консорциумом W3C была утверждена и опубликована спецификация языка сетевых онтологий OWL Ссылки http://www.searchengines.ru/articles/004603.html Изложение теории поиска Поиск в мультимедийном окружении (мне это интересно, эта ниша свободна, пока) Теория информационно-поисковых систем (популярно) http://old.ulstu.ru/people/SOSNIN/umk/Basis_of_Artificial_Intelligence/publ_en/inetsearch.htm Теория информационно-поисковых систем (популярно) http://meta.math.spbu.ru/~nadejda/papers/web-ir/web-ir.html Перечислены существующие поисковые системы - наши н иноземные: http://asparagus.h1.ru/rus/praktika11_3.htm Описание Rambler: http://www.searchengines.ru/articles/004575.html Методы ранжирования: http://www.dialog-21.ru/dialog2006/materials/html/Fedorovsky.htm Методы реферирования: http://lenoolichka.boom.ru/Ref.htm Описание внутренних механизмов поисковых систем: http://poiskbook.kiev.ua/pbs.html "Научно-популярное" описание принципов организации семантических каталогов: http://www.searchengines.ru/articles/004583.html Статья "Оценка тематической близости ": http://meta.math.spbu.ru/~igor/thesis/node11.html Статья о стилистических параметрах: http://www.ict.nsc.ru/ws/elpub2001/1812/ О теории информационного поиска - файл poisk.ppt Ссылки на тему TF*IDF - файл yandtfidf.htm Форум по формуле Шеннона: http://commlink.com1.ru/genesis/viewtopic.php?t=394&highlight=&sid=893f65f55009e21fb8365ab8baf8f719 Из теории информации, на мою тему (относительная информация), но в очень неявном общем виде: www.intuit.ru/department/calculate/infotheory/2/2.html Теория информации. (На мою тему - свойство адетивности энтропии) http://mindspring.narod.ru/math/it/ Теория информации: http://slovari.yandex.ru/dict/krugosvet/article/krugosvet/2/1001541.htm?text=%D1%88%D0%B5%D0%BD%D0%BD%D0%BE%D0%BD В начало |