<< Все тексты      В начало monitor49@mail.ru     Ханов Олег Алексеевич

Поиск. Конспекты статей.

1. http://www.searchengines.ru/articles/004532.html
Технология поиска PageRank компании Google работает путем, в первую очередь, установления структуры ссылок во всей сети, а затем ранжируя каждую отдельную страницу, основываясь на числе и значимости ссылок на нее на других страницах

Недавно появившиеся поисковые системы, такие как, например, Wisenut и Teoma, начали классифицировать результаты поиска по категориям. Например, Teoma (в бета-версии) разбивает результаты поиска по запросу <собаки> на подразделы: породы собак, обучение собак, немецкие овчарки, приюты для животных, собаководство, любители собак и так далее.

У Google два главных источника доходов: реклама и поисковые сервисы.

Google располагает сайты в зависимости от содержания страницы и ключевых фраз в заголовке и описании. Робот <читает> мета-тэги описания и ключевых слов, учитывая популярность страницы, основанную на числе и значимости сайтов на нее ссылающихся.

Google поддерживает сотни форматов файлов, которые встречаются в сети: PDF, RTF, PostScript, Word, Excel, PowerPoint и другие. Он просматривает и учитывает в своей базе данных миллионы динамических страниц. Каждые 28 дней Google индексирует 3 миллиарда веб-документов, в том числе более трех миллионов новых страниц каждый день.

2. http://www.searchengines.ru/articles/005349.html
все, что вам нужно для поисковой оптимизации - это тщательно подобранные, обдуманные слова - ключевые слова и фразы - в мета-тегах и в основном тексте сайта. Это почти верно. Но, во-первых, эти слова должны быть релевантными. Они должны давать понять, что вы продаете и где вы продаете

главная страница должна обязательно содержать текст, насыщенный ключевыми словами. Этот текст должен располагаться так, чтобы его можно было увидеть, прочитать и он должен быть доступен поисковым роботам. Чем выше на странице он будет размещен, тем лучше.

в поисковой оптимизации все дело в написании текстов.

3. www.searchengines.ru/articles/004575.html

Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось переформулировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Сможет ли он, вернувшись завтра и дав тот же запрос, получить те же результаты?

Одним из наиболее интересных процессов является распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Различают лексические и грамматические омонимы. Лексические омонимы относятся к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент. Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них обычно совпадают только отдельные формы. Примерами грамматических омонимов могут служить слова "печь" - существительное русская "печь" и глагол "печь" пирожки; "рядовой" - прилагательное "рядовой" сотрудник и существительное "рядовой" Иванов.

Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов. Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса. Еще один способ повышения точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц.

При ранжировании оцениваются различные характеристики текстов, такие как:
- Количество вхождений слов (словосочетаний) в документ - чем больше раз словосочетание "Красная площадь" присутствует в тексте, тем выше вероятность, что в нем действительно говорится о Красной площади;
- Расположение слов запроса в документе - если словосочетание "Красная площадь" присутствует в заголовках или названии документа, то документ с большей вероятностью посвящен Красной площади;
- Формы слов запроса - преимущество отдается вхождениям, в которых слова имеют тот же падеж, число, склонение и т.д., что и в запросе пользователя ("Красная площадь", а не "Красной площадью"). Помимо точного совпадения, выделяются две группы форм слов - близкие и далекие. Близкими считаются изменения по падежам, склонениям, спряжениям, числам и родам. Далекими формами являются причастия, деепричастия и т.п. При ранжировании преимущество отдается близким формам слов запроса.
- Относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе) - если словосочетание встречается 10 раз в документе из 100 слов, то он скорее соответствует запросу, чем если оно встречается те же 10 раз в документе из 20 тысяч слов;
- Расстояние между словами запроса - если запрос состоит из нескольких слов, то в найденных документах оценивается, насколько близко друг от друга расположены эти слова. Преимущество отдается документам, в которых слова запроса находятся ближе друг к другу, потому что в этом случае они с большей вероятностью связаны между собой. Например, если слово "Красная" расположено в тексте на 5 позиции, а слово "площадь" - на 650, то скорее всего в документе речь идет не о Красной площади.

4. www.searchengines.ru/articles/004603.html
В теории информационного поиска вместо слова "подходит" используют термин "ПЕРТИНЕНТНЫЙ

был введен синтетический критерий - Степень соответствия документа запросу, который называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот.

Классификационные информационно-поисковые системы

В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую.

Наиболее часто используемыми критериями при ранжировании в ИПС являются
- наличие слов из запроса в документе, их количество, близость к началу документа, близость к друг другу;
- наличие слов из запроса в заголовках и подзаголовках документов (заголовки должны быть специально отформатированы);
- Количество ссылок на данный документ с других документов; <рекспектабельность> ссылающихся документов.

Архитектура
Современная поисковая система имеет трехуровневую архитектуру:
crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на страницах;
indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним;
gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.

В современных ИПС вся поисковая информации, вплоть до копий исходных документов, хранится в самой ИПС.

длина поисковых запросов мала - 2-3 слова. Естественно, построить качественную пертинентную выборку из миллиарда документов по такому <слепку информации> просто невозможно. Естественным выходом здесь является сохранение контекста запросов пользователя, их истории, предпочтений. Но это не представляется возможным сделать на стороне сервера (т.к. он перегружен)

5. www.searchengines.ru/articles/004537.html
Поисковые машины рассчитывают релевантность текста, строя частотный ряд из слов. Чем чаще слово встречается в тексте, тем большую, по отношению к запросу пользователя, релевантность оно получает. В зависимости от уровня конкуренции и поставленной задачи количество ключевых слов может колебаться от двух - трех до десятка. Чем на меньшее количество ключевых слов настроен документ, тем с большей частотой эти ключевые слова могут встречаться в тексте, и тем выше их релевантность.

Ключевые слова должны подбираться с учетом частоты их использования, при поиске информации. Как правило, люди используют первые пришедшие в голову слова. Именно на эти слова и нужно ориентироваться. Но наиболее высокая релевантность документа запросу возникает, когда совпадают не отдельные слова, а фразы. Желательно (но не обязательно), чтобы в ключевые фразы входили только ключевые слова.


Записал: Ханов Олег Алексеевич.
09.09.2007 г.
Люди     Объекты     Годы     Темы     В начало