Семантический разбор URL для поисковой машины
Решил свою старенькую идею в блог поместить. Наверное некоторые еще невидели. Хочу поблагодарить cherny за ценные комментарии, которые он прислал мне почтой!
Идея: Щербакова Сергея Георгиевича (mover@rada.gov.ua).
Дата: 11.05.2006 (версия от 14:20)
Введение:
Основная задача любой системы управления информацией - поиск главного или полезного в ней. Для того, чтобы уменьшить объем информации, как ни странно этот объем нужно увеличить. Тоесть решать проблему от противного... Ищем "противного" и решаем с ним. =) Шучу. В данный момент развитие Интернета находится в начальном состоянии, хотя, как показывают графики статистики, рост происходит стремительными темпами. Если так будет продолжаться, то мы вырвемся вперед возможностей техники, которую прийдется компенсировать программными средствами для анализа и обработки. Поисковые машины по отдельности не представляют большого интереса, из-за чего им приходится заниматься несвойственной по началу деятельностью.
Два основных направления развития поисковиков - это наращивание и интегрирование дополнительных сервисов. Серъезно усилилить роль поисковой машины может:
- качество семантического анализа текста сайтов,
- связь со статистикой "потребления" этих информационных ресурсов и
- анализом структуры источников информации.
Один из таких методов улучшения качества анализа информации я хочу предоставить.
Проблема:
Часто поисковые роботы считывают сайты и разбирают тексты в них. Проводят синтаксический и морфологический анализ, находят все части предложения. Но для каждого такого документа у всех поисковых машин ссылка представляет собой одно целое. Даже если скрипт будет менять в url номер сессии, то робот каждый раз обходя сайт будет находить новые и новые документы. Даже если информация в них будет одинакова, то поисковику переодически приходится обновлять наборы ссылок, искать сходные и "мертвые".
Решение:
Данной проблемы может не существовать, если заботиться не только о внутренних текстовых данных, но и о внешних - тоесть URL. Бывает, что сайты имеют очень сложную и динамическую структуру с изменяемым путем к скриптам, но в обычном случае - каждый имеет начальный постоянный путь (ядро, существительное), аттрибуты или промежуточные пути (характеристики, прилагательные) и конечный скрипт (действие, глагол). Умея проводить семантический разбор текста, для разработчиков поисковых машин не составит большого труда найти оптимальный алгоритм для расчета структуры сайта по известной ссылке.
Пример:
Приведу пример на своём сайте "Законодавство України".
Списки и разделы:
http://zakon1.rada.gov.ua/cgi-bin/law2/main.cgi?user=nn#Find
где:
- Протокол
- Хост (ядро)
- Путь к скрипту (характеристики скрипта)
- Скрипт (действие)
- Параметры скрипта (после "?", характеристики внешних данных)
- Параметры текста (после "#", характеристики внутренних данных)
Для этого случая основные параметры user=имя_списка
Документы:
http://zakon1.rada.gov.ua/cgi-bin/law2/main.cgi?nreg=1/2006#Find
где:
- Протокол
- Хост (ядро)
- Путь к скрипту (характеристики скрипта)
- Скрипт (действие)
- Параметры скрипта (после "?", характеристики внешних данных)
- Параметры текста (после "#", характеристики внутренних данных)
Для этого случая основные параметры nreg=номер_документа
Выводы:
Чтобы сделать достойный алгоритм, нужно проверить какие бывают случаи путей и задания параметров. Еслу разработчикам сайтов ставили задачу защиты (скрытия) прямых
ссылок, то поисковику ничего не поможет, ну а "дружелюбные" сайты всегда готовы отдать информацию по стандарту. После разбора ссылки существует 2 плюса:
- экономия данных (их ведь тоже можно записывать в словарь) и оптимизация алгоритма обхода сайта
- возможность визуального анализа структуры для оператора, который индексирует и настраивает сайт.
Область применения:
Последнюю услугу можно даже продавать, так как она явно указывает на все хорошие и плохие стороны структуры, навигации по сайту. Узкие места и ошибки разработчиков в данном случае будут отчетливо видны после индексации с семантическим анализом ссылок. На основе данного сервиса можно устроить сетевой "маршрутиризатор по сайту" или "автогенератор карты сайта".
Дополнительно поисковые машины смогут решить проблему внесения МЕТА-тегов в документы типа Word, Exel, PDF и тд., если сайт предоставит список ссылок для индексации с параметрами после названия файла:
http://zakon.rada.gov.ua/signal/kp06580a.doc?date=27.04.2006
Это уже будет не "молчаливый" файл, а "говорящий" сам за себя Интернет-документ. =)
Заключение:
Простое решение "в лоб" (для поисковика - сбор и анализ абстрактных страниц сайтов) на начальном этапе развития дает хорошие результаты, но постепенно старые методы отказываются действовать эффективно. Пользователи все чаще предъявляют завышенные требования к окружающим их ресурсам, ищут новые технологии или подсказывают их разработчикам (владельцам, менеждерам, программистам).
Если разработчики будут вести себя более собрано и начнут оперативно внедрять технологии, к которым проявлен серъезный интерес, то именно туда направится поток желающих их использовать. Поэтому нельзя огульно хаять все новое, возможно, просто не пришло время. Но и совсем откидывать сведения тоже плохо.
Стратегически метод семантического анализа URL более важен, чем показ вместе с адресом источника якобы "нужной" информации. Ведь, поисковики "кормятся" за счет информационных ресурсов и должны уважать мнение окружающих. Священную корову можно доить столько долго, сколько есть возможности, однако приготовить из нее котлеты можно всего лишь один раз.
Примечание
Если данную идею кто-то будет использовать и зарабатывать ею деньги, то прошу и меня не забыть! =) Будьте людьми... Спасибо!
Комментарии (0) :
Отправить комментарий
« На главную