Как и всякое эпохальное открытие, бурное развитие глобальной сети Интернет принесло с собой не только множество невиданных доселе возможностей, но и целый ворох новых проблем. Причем одной из главных проблем стало именно обилие информации и связанные с ним трудности доступа к конкретным блокам этой самой информации. В сети можно найти очень много интересного и полезного. Но вот пока доберешься до нужного, придется перебрать целый ворох бесполезной информации, и откровенной ерунды. А это – время и, увы, деньги.
Тем, кто уже давно не бродит по Сети, просматривая все ссылки подряд, значительно облегчают жизнь существующие поисковые системы. Названия «Рамблер», «Яндекс», «Google» и прочих, давно уже у всех на слуху. Однако, возникает чувство нездорового удивления, со временем переходящего в легкий психоз, когда поиск по ключевым словам приносит тот же результат, что и невод у старика в известной сказке «О рыбаке и рыбке» в первых двух попытках его забрасывания. Сплошная «трава морская», а рыбы-то и нет!
Мастера поиска напрасно пожимают плечами, читая эти строки. Прогресс в этом деле тоже должен двигаться вперед. Согласитесь, большая часть мужского населения до сих пор ходила бы плохо выбритой, если бы вместо изобретения бритвы человечество пошло по пути наращивания виртуозности владения остро отточенным топором. Пользуясь услугами поиска, следует отдавать себе отчет в том, что, набрав в окне поиска фразу «Белоснежка и семь гномов», легко можно получить широкий спектр ссылок, касающихся самых широких аспектов человеческого существования: от литературы, до откровенной порнографии. И тут жаловаться не на кого, поскольку вся грязь в сети появилась не сама по себе. Люди, увы, бывают разные!
В свою очередь поисковики, также были разработаны под конкретные задачи. Скажем статью на английском легче всего найти на .
Вот и получается, что даже настоящие зубры поиска в сети иногда вынуждены в общей куче ненужной информации упускать самое важное.
Конечно, существуют такие расширенные возможности, как поиск по релевантности, дате, определенному формату, группе слов в совокупности или по отдельным словам. Но, так или иначе, весь поиск по своей сути сводится к простому перелистыванию страниц в поисках необходимого.
Специалисты начали искать пути решения этой проблемы не вчера. Результатом их деятельности стала, так называемая концепция «семантической сети» (Semantic Web). Главная задача – создание программного обеспечения, которое могло бы выделять в тексте главное и систематизировать информацию. И такие системы уже появились!
Представитель швейцарской фирмы «Онтос» (), компания «Авикомп», занимается адаптацией западных информационных технологий к условиям России. В числе прочих, в ее арсенале имеются и семантические технологии.
На протяжении нескольких лет «Авикомп» занимается проведением семантического анализа электронных текстов на английском, немецком, русском и французском языках.
Сам процесс обработки прост, как и все гениальное и отдаленно напоминает умственную деятельность человеческого человека. На начальном этапе, посредством интернет-фильтров, проводится отсечение графической информации: иллюстраций, баннеров, красиво выполненных заголовков. В результате остается только текст, который поступает на лингвистический процессор.
Лингвистические процессоры различаются языками, которыми «владеют», а также направлениями приоритетных тематик: медицинской, политической, технической и прочих. Тут уж ничего не поделаешь – специфика есть специфика.
А обучают программу конкретной тематике и языку эксперты и лингвисты. В задачу экспертов входит определение объектов и отношений, которые в данной области являются определяющими. В контексте бизнеса определяющими объектами будут люди и организации (предприятия), а отношениями – работающие в конкретной компании, ее владелец, конкуренты и прочее. В том же случае, если речь идет о фармакологии, то объекты – это болезни, лекарства, различные состояния организма. А отношения – соответствующие показания к применению лекарств и противопоказания. Причем, и объекты, и отношения имеют дополнительные атрибуты. Для человека – это возраст, пол, биография, работа и многое другое.
Для того, чтобы программа могла выделить все это из обычного текста, требуются усилия специалистов из области структуральной лингвистике. Дело в том, что обычные языки, на которых общаются люди, являются довольно логичными системами. Поэтому объектами в тексте будут, конечно же, имена существительные, то есть имена и названия. А отношения будут представлены, прежде всего, глаголами: «возглавляет», «владеет», «работает». В задачу процессора входит безошибочное узнавание собственных имен, вплоть до японских или индийских, различение имен людей и названий компаний, распознавание падежей, различение имен и фамилий.
Таким образом, усилиями лингвистов под каждый объект формируется некая совокупность правил, которые позволят определить его в любом контексте. Именно такой уровень «осмысления» текста машиной и делает «Семантический Веб» действительно незаменимым инструментом.
Восприняв текст, программа представляет его в виде пространственного графа, вершинами которого являются объекты, а ребра представляют собой отношения. В результате, обычное новостное сообщение превращается в объект, так хорошо знакомый программистам, математикам, а значит и компьютеру. В то же время граф понятен и человеку. Вспомните, как сыщики рисуют кружочки и стрелочки, когда пытаются понять взаимодействие элементов некоей криминальной структуры! Они это делают еще и потому, что применение графов позволяет лучше понять существо вопроса.
Какими же плюсами обладает такая форма представления информации?
Самый очевидный из них – великолепная возможность объединения и систематизации самой разнообразной информации. Если, например, мы имеем две различные новости, датированные разным временем выхода в свет, относящиеся к деятельности компании «Рамзес», которая ранее принадлежала человеку с фамилией Иванов, а теперь принадлежит Петрову, то обе эти новости в виде графов будут представлены структурой с общей вершиной – компанией «Рамзес». Это и будет граф, в полной мере содержащий все объекты и отношения, которые можно извлечь из сообщения. И теперь пользователю уже не придется читать об одном и том же два раза.
С точки зрения пользователя, новость, подвергнутую обработке лингвистическим процессором «Онтос», вполне можно просмотреть в обычном виде. При этом все объекты и отношения в ней будут выглядеть, как гиперссылки. (Для этого на компьютер нужно установить небольшой плагин или модуль расширения для интернет-браузера.) Одиночный клик по гиперссылке выведет на экран изображение с изображением всех атрибутов и связей.
Но, все таки наиболее важным достижением является именно семантический поиск. Если проводить поиск среди документов, представленных в виде графов, то первыми в списке будут стоять совсем не те документы, в которых слово, указанное в запросе, будет встречаться максимальное число раз, а те, где слово из запроса будет принадлежать вершине графа. Другими словами, поисковая система в ответ на ключевое слово «Рамзес» первой принесет не статью о Египте, а статью-обзор, посвященную коммерческой компании с таким же названием. Если же в качестве запроса указать «Ричард Фунт», да еще и указать, что ведется поиск персоны, когда не придется фильтровать огромное количество сообщений, касающихся денег или котировок валют.
Пользователь может воспользоваться и еще одной возможностью, которую предоставляет Семантический Веб. Это, так называемая семантическая навигация. Можно «прогуляться» по графу в любом направлении вдоль заинтересовавшей его ветки. При этом можно перемещаться уже не случайным образом, а с учетом смысловых связей. Немаловажным обстоятельством является и то, что, пройденный однажды, путь можно сохранить.
Дополнительно следует отметить, что граф может быть сформирован и из английских источников, но из него можно сделать и русскоязычный дайджест. Тогда мы получим краткую выжимку из материала, который был обнаружен в англоязычной прессе в полном соответствии с заданной нами темой. Характер изложения полученного материала, конечно, несколько суховат, но зато выполнен грамотно, только по делу и полностью лишен «прелестей» машинного перевода. Точно таким же образом, лингвистическому процессору можно поручить замену малопонятных слов общеупотребительными, неважно, будут ли это научные термины или наполовину шаманский бухгалтерский сленг.
Есть и дополнительная возможность лингвистического процессора, связанная с его способностью выявлять связь между объектами и определять тематику тех или иных документов. Путем сравнения графического представления двух текстов можно сделать достоверный вывод об их сходстве или различии. То есть, сделать вывод о возможном плагиате, причем даже в том случае, если они выполнены на разных языках. А путем обработки материалов из диссертационных и научно-исследовательских работ или патентной информации, можно оценить отдачу от проводимых исследований и степень развития любой из изучаемых технологий.
Близится время, когда понятия «структурированный текст» и «семантический поиск» станут для нас такими же привычными, как «электронный адрес», который был большой загадкой для большинства россиян десяток лет назад. Чтобы не отстать от всего мира в очередной раз, следует в полной мере пользоваться возможностями, которые предоставляет пользователям Интернет.
Нужно только не лениться познавать новое!
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Я же [url=http://cars-atenza.ru]тебе[/url] сказал, что [url=http://unreal-m.ru]это[/url] маленькое семейное торжество Дедэ с гордостью открыл бумажник, набитый тысячефранковыми [url=http://stol-nabor.ru]билетами,[/url ] даже не взглянув на счет, сунул один из билетов в руку Анжелино и бросил небрежно: - Ничего не надо
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии в данной новости.
Copyright (c) 2007-2009 pc-blog.ru. При копировании материалов, пожалуйста, указывайте ссылку на источник