Блог

Семантическая паутина

Всё чаще на просторах Интернета можно услышать о грядущих изменениях, притом изменениях принципиальных, которые можно смело назвать новой ступенью эволюции Всемирной паутины. Как вы уже, наверное, догадались, речь идёт о проекте Semantic Web.

Впервые разговор на тему преобразования существующих механизмов поиска и обработки информации в Сети зашёл ещё в 2001 году, когда Тим Бернерс-Ли (человек, чьё имя считается практически синонимом WWW) опубликовал в журнале «Scientific American» свою статью, где подробно описал идею Семантической паутины, направления её реализации, а также сделал прогнозы насчёт ожидаемых результатов. Сам автор с подобающей себе нескромностью прокомментировал планируемые нововведения, сказав, что «Semantic Web является следующим шагом в развитии Всемирной паутины».

Что же это за зверь? Проще всего объяснить принцип работы Семантической паутины на примере. Скажем, решили вы провести отпуск в Турции. Возможности Семантической паутины позволят вам легко и быстро сориентироваться и сделать выбор. Перво-наперво вы открываете программу-агент, вводите запрос, уточняете его (например, указываете количество звёзд отеля, ценовой диапазон) и запускаете поиск. Агент определяет период вашего отпуска, связавшись со службой «Отдыхаем вместе», где у вас зарегистрирован аккаунт, затем просматривает все отели указанной звездности в Турции с поправкой на цену, выбирая из общего списка те, отзывы о которых лежат в диапазоне от «хорошо» до «отлично». После чего, например, программа, заглянув еще раз на «Отдыхаем вместе», уточняет, не собирается ли кто-нибудь из ваших знакомых по сервису в это самое время туда же. Затем ищет компании, предлагающих туры в указанные места, и дополняет результат доступными на их сайтах ценами. Готово. Результат выводится на экран. Вам остаётся только уточнить запрос или сделать заказ. Заманчивая перспектива, не так ли?

Теперь давайте попытаемся разобраться, как этот полезный инструмент будет работать. Во-первых, как было сказано выше, внедрение Семантической паутины - шаг вовсе не революционный, а следующая ступень эволюции Паутины всемирной. Реализация Semantic Web подразумевает создание надстройки над уже существующими механизмами, работающими в Сети. Суть же нововведений сводится к тому, чтобы сделать информацию, разбросанную по страницам веб-ресурсов понятной не только человеку (что мы имеем сейчас), но и машинам, что позволит как раз минимизировать разного рода затраты на поиск нужной информации и её обработку.

Сегодня почти вся информация в Интернете хранится в текстовой форме, то есть в форме, которую воспринять и осмыслить компьютер просто-напросто не может. Поэтому, при создании интернет сайта, сама информации, её оценка, классификация и актуализация по-прежнему лежат на плечах человека, а функции машин в основном сводятся только к хранению, отображению и поиску. Тим Бернерс-Ли справедливо заметил, что, если компьютеру человеческий язык не понятен, то нужно использовать язык, который бы могла понимать машина. Получается, что весь контент сайтов следует размещать на двух языках: на человеческом языке для человека и на компьютерном языке для компьютера.

Идею Семантической паутины сегодня на ура принимают многие прогрессивно настроенные технологические компании. Так, Yahoo! заявил недавно заявил о намерениях внедрить принципы Semantic Web в свою поисковую машину и принять на вооружение ключевые стандарты, используемые при семантической индексации. Что же это за стандарты и каков принцип работы Семантической паутины?

Работа Semantic Web основывается на глобальном использовании метаданных. Это значит, что любая составная часть контента, любая информация (будь то отдельное слово, фотография или видео) снабжается ярлыком-пометкой на специальном языке описания данных, обозначающим эту информацию как объект определённого класса, свойства и отношения которого прописаны заранее. Ссылки, которые содержаться на странице, также включают в себя описания классов объектов, их свойств и связей (онтологии). Например, текст рецепта шашлыка будет снабжен пометкой «является рецептом шашлыка», а онтология кулинарных объектов, на которую ссылается страница, будет содержать помимо описания класса «шашлык» классы «баранина», «маринад» и «кавказская кухня», а также описание связей между ними.

Что же до стандартов, то уже сейчас, к примеру, существует RDF (Resource Description Framework) — формат, основанный на синтаксисе XML и использующий идентификаторы URL для обозначения ресурсов. RDF был утверждён консорциумом W3C как стандарт ещё в феврале 2004 года. Формат RDF предназначен для хранения метаданных. Концепция Семантической паутины предписывает прикреплять описания в формате RDF к каждому сетевому ресурсу. Документы RDF должны обрабатываться компьютером автоматически, RDF не предназначен для прочтения и использования человеком. К настоящему времени формат RDF уже устоялся и получил широкое распространение, он служит каркасом для создания семантической паутины.

Важным звеном в работе Semantic Web является RDFS (RDF Schema) — надстройка над RDF, позволяющая создавать классы и свойства (как в объектно-ориентированном программировании в рамках конкретного приложения). Кроме того, в рамках развития концепции Семантической паутины ведётся внедрение языка OWL (Web Ontology Language), который стал Рекомендацией W3C в феврале 2004 года. Этот язык построен на форматах RDF и RDFS, он предназначен для обработки информации в сети. Также большие надежды возлагаются на язык SPARQL (Protocol And RDF Query Language) — новый язык запросов для быстрого доступа к данным RDF. Используя обычный протокол и язык SPARQL, приложения могут анализировать RDF-описания ресурсов и получать из сети нужную информацию.

Вместе все эти нововведения сделают данные, размещённые в Сети, пригодными для удобного машинного поиска и анализа, позволяя воплотить в жизнь не только описанную выше возможность, но и множество других. Например, глобальную энциклопедию, единую социальную сеть, в которую сольются нынешние социальные сервисы, и многое другое. На этом, пожалуй, радужная часть статьи заканчивается.

У внедрения Семантической паутины, как у медали, есть и вторая сторона, то есть список минусов или нежелательных последствий, к которым может привести эта надстройка над Паутиной всемирной.

Первое, что приходит голову — дублирование информации. Каждый документ, как становится понятно из вышеизложенного, должен быть создан в двух вариантах: размеченным для чтения людьми, а также для понимания машинами.

Не менее важным является и тот факт, что в случае реализации семантических поисковых систем, которые будут работать по принципу, отображённому выше на примере поиска тура в Турцию, отпадает необходимость посещать сайт, а, значит, пользователь не увидит рекламу, размещённую на сайте. Главный критерий, от которого зависит стоимость рекламного сообщения — посещаемость сайта, уйдёт в прошлое, что в конце концов приведёт к прекращению финансирования интернет-проектов рекламщиками.

Внедрение Semantic Web потребует изобретения новых механизмов защиты информации при изготовлении веб сайтов. Поиск в новой среде позволит без особых усилий собрать воедино информацию о человеке, организации, фирме из всех доступных источников, используя уникальные идентификаторы, такие как имя, адрес электронной почты или ИНН. Такая агрегация сама по себе может сообщить интересующемуся любопытные факты, не представленные напрямую ни в одной из баз данных. Возможность логических выводов на основе размеченной информации, предлагаемая инструментарием Семантической паутины, поможет автоматизировать этот процесс, обеспечивая быстрый и эффективный сбор информации о конкретном субъекте. Таким образом, с понятиями приватности и личной тайны в Интернете можно будет попрощаться. Проблема информационной безопасности в Семантической паутине уже сейчас решается: проекты SAML и P3P призваны дать пользователям Сети надежный инструмент для обеспечения безопасности в семантическую эпоху.

Опасения вызывает также то, что в эпоху расцвета проекта Semantic Web за человеком останется лишь конечный выбор, а все остальное за пользователей сделают интеллектуальные программы-агенты, идеально подбирающие идеальные варианты. Опасность состоит в том, что пространство выбора таким образом сужается до нескольких предлагаемых программой вариантов. Согласитесь, что лучшего поля деятельности для манипуляций и придумать трудно. Стоит лишь определённым образом подкорректировать логику подбора, выделив желательные варианты, и тысячи пользователей будут практически следовать данным им указаниям.

И всё-таки Semantic Web открывает больше положительного. Давайте надеяться, что все перемены - к лучшему, и пожелаем Тиму Бернерсу-Ли удачи в воплощении проекта в жизнь.