Поиск. Конспекты статей.1. http://www.searchengines.ru/articles/004532.htmlТехнология поиска PageRank компании Google работает путем, в первую очередь, установления структуры ссылок во всей сети, а затем ранжируя каждую отдельную страницу, основываясь на числе и значимости ссылок на нее на других страницах Недавно появившиеся поисковые системы, такие как, например, Wisenut и Teoma, начали классифицировать результаты поиска по категориям. Например, Teoma (в бета-версии) разбивает результаты поиска по запросу <собаки> на подразделы: породы собак, обучение собак, немецкие овчарки, приюты для животных, собаководство, любители собак и так далее. У Google два главных источника доходов: реклама и поисковые сервисы. Google располагает сайты в зависимости от содержания страницы и ключевых фраз в заголовке и описании. Робот <читает> мета-тэги описания и ключевых слов, учитывая популярность страницы, основанную на числе и значимости сайтов на нее ссылающихся. Google поддерживает сотни форматов файлов, которые встречаются в сети: PDF, RTF, PostScript, Word, Excel, PowerPoint и другие. Он просматривает и учитывает в своей базе данных миллионы динамических страниц. Каждые 28 дней Google индексирует 3 миллиарда веб-документов, в том числе более трех миллионов новых страниц каждый день. 2. http://www.searchengines.ru/articles/005349.html все, что вам нужно для поисковой оптимизации - это тщательно подобранные, обдуманные слова - ключевые слова и фразы - в мета-тегах и в основном тексте сайта. Это почти верно. Но, во-первых, эти слова должны быть релевантными. Они должны давать понять, что вы продаете и где вы продаете главная страница должна обязательно содержать текст, насыщенный ключевыми словами. Этот текст должен располагаться так, чтобы его можно было увидеть, прочитать и он должен быть доступен поисковым роботам. Чем выше на странице он будет размещен, тем лучше. в поисковой оптимизации все дело в написании текстов. 3. www.searchengines.ru/articles/004575.html Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось переформулировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Сможет ли он, вернувшись завтра и дав тот же запрос, получить те же результаты? Одним из наиболее интересных процессов является распознавание грамматических омонимов. Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Различают лексические и грамматические омонимы. Лексические омонимы относятся к одной части речи, как, например, существительное "бор": хвойный лес, стальное сверло и химический элемент. Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них обычно совпадают только отдельные формы. Примерами грамматических омонимов могут служить слова "печь" - существительное русская "печь" и глагол "печь" пирожки; "рядовой" - прилагательное "рядовой" сотрудник и существительное "рядовой" Иванов. Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово "данные", ему неинтересно получить в найденном все документы, которые содержат слово "дать". Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений. Например, если рядом со словом "печь" стоит существительное ("пирожки", "картошка"), то с высокой вероятностью "печь" в данном контексте является глаголом. На сегодняшний день анализатор способен распознавать значения только грамматических омонимов. Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет). Данные о таких конструкциях учитываются при индексации и обработке запроса. Еще один способ повышения точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц. При ранжировании оцениваются различные характеристики текстов, такие как: 4. www.searchengines.ru/articles/004603.html В теории информационного поиска вместо слова "подходит" используют термин "ПЕРТИНЕНТНЫЙ был введен синтетический критерий - Степень соответствия документа запросу, который называется РЕЛЕВАНТНОСТЬЮ. Релевантный документ может оказаться непертинентным и наоборот. Классификационные информационно-поисковые системы В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ. Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует другой коллектив специалистов, называемых СИСТЕМАТИЗАТОРАМИ. Систематизаторы, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствую. Наиболее часто используемыми критериями при ранжировании в ИПС являются Архитектура Современная поисковая система имеет трехуровневую архитектуру: В современных ИПС вся поисковая информации, вплоть до копий исходных документов, хранится в самой ИПС. длина поисковых запросов мала - 2-3 слова. Естественно, построить качественную пертинентную выборку из миллиарда документов по такому <слепку информации> просто невозможно. Естественным выходом здесь является сохранение контекста запросов пользователя, их истории, предпочтений. Но это не представляется возможным сделать на стороне сервера (т.к. он перегружен) 5. www.searchengines.ru/articles/004537.html Поисковые машины рассчитывают релевантность текста, строя частотный ряд из слов. Чем чаще слово встречается в тексте, тем большую, по отношению к запросу пользователя, релевантность оно получает. В зависимости от уровня конкуренции и поставленной задачи количество ключевых слов может колебаться от двух - трех до десятка. Чем на меньшее количество ключевых слов настроен документ, тем с большей частотой эти ключевые слова могут встречаться в тексте, и тем выше их релевантность. Ключевые слова должны подбираться с учетом частоты их использования, при поиске информации. Как правило, люди используют первые пришедшие в голову слова. Именно на эти слова и нужно ориентироваться. Но наиболее высокая релевантность документа запросу возникает, когда совпадают не отдельные слова, а фразы. Желательно (но не обязательно), чтобы в ключевые фразы входили только ключевые слова. Записал: Ханов Олег Алексеевич. 09.09.2007 г. Люди     Объекты     Годы     Темы     В начало |