Философия сервера

29.01.2013. Ханов О.А., письмо С.О.
Информация всегда возникает только в процессе взаимодействия двух сторон - источника и потребителя (приемника). Без такого взаимодействие само понятие "Информация" теряет смысл, она не проявляется (подробнее - см. "Этюды об информации"). Степень активности каждой из сторон может быть очень разной - от абсолютной пассивности источника (например, при расшифровке древней рукописи или распознавании экзопланет) до навязчивой или безусловной активности, какая бывает при распространении рекламы или передаче инструкций с требованием их обязательного исполнения. Интернет - информационное поле, в котором ежесекундно совершаются миллиарды актов приема/передачи информации с разной степенью активности сторон.

Из множества причин, по которым человек выходит в Интернет, отметим две - а) - целенаправленный поиск, когда цель информационного поиска задана достаточно четко и б) - условно говоря, "прогулка по Интернету", когда направление поиска размыто и информационное взаимодействие возникает в значительной степени случайное.

В настоящее время наиболее четко проработаны два крайних варианта - поиск по конкретным запросам и распространение рекламной информации. Первый соответствует случаю "активный приемник", второй - "активный источник". Однако, между этими двумя крайностями есть еще не вполне освоенное множество промежуточных вариантов, один из которых предлагает данный сервер. Как и в обычных поисковиках, в нем присутствует поиск, однако он другой, - он основан на выборе.

Здесь надо остановиться и подробнее рассмотреть, чем различаются выбор и поиск, поскольку оба эти действия способны удовлетворить потребность "получить то, что требуется". Для наглядности в качестве примера посмотрим, как происходят (или должны происходить) выборы самого главного руководителя государства.

Сначала - гипотетический вариант (для иллюстрации поиска).
Избирателю Иванову П.П., "болеющему за благополучие государства" предложили назвать человека, которого он хотел бы видеть в качестве главы, причем никаких внешних ограничений на кандидатуру нет, достаточно только желания этого избирателя. Избиратель задумывается, никого из знакомых не находит, ищет подходящего человека и в конце концов находит того, кто обладает требуемыми качествами.

Такой вариант соответствует процессу "чистого поиска", именно так он и выполняется в Интернете. (Задаются признаки, перебираются варианты всего множества, из которых остается самый подходящий). Отметим, что, несмотря на фантастичность варианта, он реально существует, когда таким единственным избирателем является диктатор.

При демократии все происходит иначе.
Поиск (выбор) распадается на два этапа. На первом этапе группируются интересы отдельных избирателей, для каждой группы создается своя партия, призванная отстаивать ее интересы. Затем эта партия выполняет поиск человека, удовлетворяющего требуемым признакам, готового "внедрять в жизнь" групповые интересы партии, он становится кандидатом. На втором этапе объявляются "всеобщие выборы", где рядовому избирателю предлагается выбор из предварительно отобранных кандидатов.

Т.о., непосредственный поиск из всего многообразия, присущий первому варианту, во втором распадается на два этапа и вместо поиска предлагается выбор из заранее подготовленных кандидатур. Обычно рядовой гражданин не участвует предварительной подготовке, этим занимаются специальные структуры (партии).

Возвращаясь к информации, попробуем организовать ее извлечение в два этапа, как это происходит во втором ("демократическом") варианте. Этот вариант предполагает разделение поиска на предварительную систематизацию и окончательный выбор.

При большом объеме исходных данных, среди которых требуется найти нужное, процесс систематизации (предварительного поиска) полезно усложнить, разбив его на иерархические уровни (или задавая некий другой организационный принцип) - так, чтобы на каждом уровне вариантов было бы не чрезмерно много.

На данном сервере в настоящее время предпринята попытка осуществить самый первый этап структуризации - формализацию содержания, для чего формируется база данных, в которую входят адреса Интернет - страниц, их краткое описание и упоминаемые имена, даты, объекты, теги. База формируется вручную путем заполнения специальных формуляров к Интернет-страницам.

На данном сервере поиск - это не разовый акт, но процесс последовательного приближения к цели поиска. Такой поиск имеет общие черты с "прогулкой". Его цель может быть и не очень четкой, не вполне осмысленной. Процессом такого поиска в какой-то мере управляет сама структура систематизации, предлагая на каждом уровне разные направление продолжения.

Кроме систематизации, другим важным отличием данного варианта является ограниченность пространства перемещения (поиска или "прогулки"). Все происходит только в пределах имеющейся базы данных. Здесь меньше вероятность того, что по запросу (например) имени поступит большое число ссылок на однофамильцев (в дальнейшем предполагается внедрение полуавтоматической процедуры опознания). Кроме того, пространство поиска можно ограничить самостоятельно, выбрав признак ограничения из списка имен, объектов или тегов. После установки фильтра, во всех режимах будет выводиться информация лишь тех ссылок, в описании которых имеется слово или имя, поставленное в качестве фильтра.

Еще один фактор, отличающий данный поиск от Интернета - работа с "осмысленным контентом". Вся имеющаяся информация в настоящее время вводится оператором - человеком, т.е. проходит "внутреннюю цензуру". В дальнейшем эта функция будет постепенно перекладываться на программы путем внедрения соответствующих алгоритмов распознавания содержимого интернет-страниц.
В начало