Пространство понятий

Как только появляются темы, теги или объекты, приходится вспоминать о нерешенном "философском" вопросе - об иерархии слов, понятий. Причина простая - обозначив некоторую тему, надо бы обозначить и темы смежные - которые рядом или выше/ниже. У этих соседей тоже есть свои соседи, а у тех - свои... Так появляется вектор, можно плавно скользить по пространству тем, но пока непонятно - куда.

Границы между темами условние, реально их нет. При такой "классификации" разделов будет бесконечно много, каждый текст помещается в некую точку многомерного пространства (как минимум, трехмерного). "Поиск по разделам каталога" превращается в движение в этом пространстве. Вверх/вниз - по иерархическому направлению или вправо/влево - на другие темы, сначала близкие, а потом и все более далекие. Есть вопросы, на которые надо бы ответить:
1. Конечен ли набор "первичных понятий" "наверху" (и есть ли вообще таковые, первичные)?
2. "Внизу" не ожидаю, но м.б. и там есть некий конечный набор неделимых понятий?
3. Всегда ли есть явный антипод понятия или м.б. антиподов много?
4. Много ли измерений у "тематического" пространства и что лежит в основании измерения?
5. Закольцованы ли темы одного иерархического уровня, или происходит плавный переход в другое измерение?
6. Можно ли выделить в реальности какой-то аналог "тематического пространства", или это и есть сама реальность?
7. Можно ли написать алгоритм определения численного значения подобия понятий?

Здесь требуется серьезное исследование. Уверенности в том, что вопросы уже проработаны какой-нибудь наукой, нет, но поискать надо бы.

У меня есть формула вычисления подобия текстов, есть там ограничение - текст менее 50 слов для алгоритма плохо различим. Что бы я сделал, если бы всерьез попытался бы найти алгоритм вычисления подобия понятий.

1. Выбрал бы несколько понятий для исследования.
2. Представил бы эти понятия в виде текстов (хорошо бы набрать сотню слов, не бессмысленных, естественно).
3. Обратился бы к 2-3 человекам сделать тоже самое, а также взял бы текст из Википедии. Это необходимо, чтобы приглушить субъективный фактор.
4. Пропустил бы все тексты через свой алгоритм вычисления подобия. Если одно и то же понятие, описанное разными лицами будет давать "правильные" цифры - это хороший результат, можно двигаться дальше.

Не исключаю закольцованности иерархии (самое общее = самое конкретное)

Я употребляю термин "понятие", а не "слово" по той причине, что обычно слово многозначно, его конкретный смысл определяет контекст. Т.е. контекст более фундаментален, чем слово. Мне больше нравится "понятие" - оно может быть обозначено одним словом, но часто этого недостаточно, нужен текст. Некоторые понятия настолько неуловимы, что никакой текст его не сможет определить, нужен рисунок или какие-то звуки.

Движение по "пространству понятий" есть не что иное, как точная формулировка запроса - для того, чтобы попасть в конкретную точку. Чем точнее задан вопрос, тем меньше объем пространства понятий, ему соответствующий. В идеале - это точка, т.е. четкий однозначный ответ. Поиск заключается в диалоге (способ известный): каждый "правильный" ответ на вопрос сужает пространство поиска и вызывает следующий вопрос.

22.06.2012
Ханов О.А.
В начало