Mover: Информация - энергия

7 сентября 2006 г.

Семантический разбор URL для поисковой машины

Решил свою старенькую идею в блог поместить. Наверное некоторые еще невидели. Хочу поблагодарить cherny за ценные комментарии, которые он прислал мне почтой!

Идея: Щербакова Сергея Георгиевича (mover@rada.gov.ua).

Дата: 11.05.2006 (версия от 14:20)

Введение:

Основная задача любой системы управления информацией - поиск главного или полезного в ней. Для того, чтобы уменьшить объем информации, как ни странно этот объем нужно увеличить. Тоесть решать проблему от противного... Ищем "противного" и решаем с ним. =) Шучу. В данный момент развитие Интернета находится в начальном состоянии, хотя, как показывают графики статистики, рост происходит стремительными темпами. Если так будет продолжаться, то мы вырвемся вперед возможностей техники, которую прийдется компенсировать программными средствами для анализа и обработки. Поисковые машины по отдельности не представляют большого интереса, из-за чего им приходится заниматься несвойственной по началу деятельностью.

Два основных направления развития поисковиков - это наращивание и интегрирование дополнительных сервисов. Серъезно усилилить роль поисковой машины может:

  1. качество семантического анализа текста сайтов,
  2. связь со статистикой "потребления" этих информационных ресурсов и
  3. анализом структуры источников информации.

Один из таких методов улучшения качества анализа информации я хочу предоставить.

Проблема:

Часто поисковые роботы считывают сайты и разбирают тексты в них. Проводят синтаксический и морфологический анализ, находят все части предложения. Но для каждого такого документа у всех поисковых машин ссылка представляет собой одно целое. Даже если скрипт будет менять в url номер сессии, то робот каждый раз обходя сайт будет находить новые и новые документы. Даже если информация в них будет одинакова, то поисковику переодически приходится обновлять наборы ссылок, искать сходные и "мертвые".

Решение:

Данной проблемы может не существовать, если заботиться не только о внутренних текстовых данных, но и о внешних - тоесть URL. Бывает, что сайты имеют очень сложную и динамическую структуру с изменяемым путем к скриптам, но в обычном случае - каждый имеет начальный постоянный путь (ядро, существительное), аттрибуты или промежуточные пути (характеристики, прилагательные) и конечный скрипт (действие, глагол). Умея проводить семантический разбор текста, для разработчиков поисковых машин не составит большого труда найти оптимальный алгоритм для расчета структуры сайта по известной ссылке.

Пример:

Приведу пример на своём сайте "Законодавство України".

Списки и разделы:

http://zakon1.rada.gov.ua/cgi-bin/law2/main.cgi?user=nn#Find


где:

  • Протокол
  • Хост (ядро)
  • Путь к скрипту (характеристики скрипта)
  • Скрипт (действие)
  • Параметры скрипта (после "?", характеристики внешних данных)
  • Параметры текста (после "#", характеристики внутренних данных)

Для этого случая основные параметры user=имя_списка

Документы:

http://zakon1.rada.gov.ua/cgi-bin/law2/main.cgi?nreg=1/2006#Find

где:

  • Протокол
  • Хост (ядро)
  • Путь к скрипту (характеристики скрипта)
  • Скрипт (действие)
  • Параметры скрипта (после "?", характеристики внешних данных)
  • Параметры текста (после "#", характеристики внутренних данных)

Для этого случая основные параметры nreg=номер_документа

Выводы:

Чтобы сделать достойный алгоритм, нужно проверить какие бывают случаи путей и задания параметров. Еслу разработчикам сайтов ставили задачу защиты (скрытия) прямых
ссылок, то поисковику ничего не поможет, ну а "дружелюбные" сайты всегда готовы отдать информацию по стандарту. После разбора ссылки существует 2 плюса:

  1. экономия данных (их ведь тоже можно записывать в словарь) и оптимизация алгоритма обхода сайта
  2. возможность визуального анализа структуры для оператора, который индексирует и настраивает сайт.

Область применения:

Последнюю услугу можно даже продавать, так как она явно указывает на все хорошие и плохие стороны структуры, навигации по сайту. Узкие места и ошибки разработчиков в данном случае будут отчетливо видны после индексации с семантическим анализом ссылок. На основе данного сервиса можно устроить сетевой "маршрутиризатор по сайту" или "автогенератор карты сайта".

Дополнительно поисковые машины смогут решить проблему внесения МЕТА-тегов в документы типа Word, Exel, PDF и тд., если сайт предоставит список ссылок для индексации с параметрами после названия файла:

http://zakon.rada.gov.ua/signal/kp06580a.doc?date=27.04.2006

Это уже будет не "молчаливый" файл, а "говорящий" сам за себя Интернет-документ. =)

Заключение:

Простое решение "в лоб" (для поисковика - сбор и анализ абстрактных страниц сайтов) на начальном этапе развития дает хорошие результаты, но постепенно старые методы отказываются действовать эффективно. Пользователи все чаще предъявляют завышенные требования к окружающим их ресурсам, ищут новые технологии или подсказывают их разработчикам (владельцам, менеждерам, программистам).

Если разработчики будут вести себя более собрано и начнут оперативно внедрять технологии, к которым проявлен серъезный интерес, то именно туда направится поток желающих их использовать. Поэтому нельзя огульно хаять все новое, возможно, просто не пришло время. Но и совсем откидывать сведения тоже плохо.

Стратегически метод семантического анализа URL более важен, чем показ вместе с адресом источника якобы "нужной" информации. Ведь, поисковики "кормятся" за счет информационных ресурсов и должны уважать мнение окружающих. Священную корову можно доить столько долго, сколько есть возможности, однако приготовить из нее котлеты можно всего лишь один раз.

Примечание

Если данную идею кто-то будет использовать и зарабатывать ею деньги, то прошу и меня не забыть! =) Будьте людьми... Спасибо!