Домой   |    Контакты   |    Поиск   |    Legal   |
Software AG - Россия     
В Штаб квартиру
 
 
Крупные текстовые архивы на платформе Adabas. Решение агентства Интерфакс

С. Свинарев

ComputeReview, № 11, 27 октября 1999 г.

Благодаря популярности Internet сегодня многие люди имеют представление о полнотекстовом поиске, и вряд ли нужно объяснять, какую пользу могут принести соответствующие информационно-поисковые системы редакциям газет, телевизионных каналов и агентств новостей. Своевременно найденные исторические справки способны придать готовящемуся материалу неожиданную глубину и существенно повысить его ценность в глазах потенциального потребителя (слушателя, читателя, аналитика и т.д.). Отдача от подобных систем становится особенно ощутимой, когда объем архива становится по-настоящему большим. При этом, однако, возникают и специфические трудности, связанные со скоростью обработки поступающих документов и поиска нужных текстов, не говоря уже о проблемах целостности и контроля доступа. Когда в начале 90-х к созданию своей информационно-поисковой системы приступали в агентстве "Интерфакс" приходилось думать и о вопросах стоимости. Выбор был сделан в пользу хорошо известной у нас в стране СУБД Adabas германской компании Software AG.

Дело в том, что к тому времени Software AG уже имела специальное расширение Adabas Text Retrieval System (TRS), предназначенное для хранения и извлечения текстовой информации. Оно позволяет одновременно осуществлять поиск как по фиксированным атрибутам (например, дате выпуска документа), так и по весьма сложным логическим выражениям, включающим те или иные характерные слова (допускаются булевы конструкции, указание расстояния между словами, включение синонимии и т.д.). В случае необходимости можно уточнять запрос, при этом новый поиск будет проводиться в уже сформированной ранее выборке документов. Текстовая информация хранится не в виде объектов BLOB, а в специальных текстовых полях, учитывающих внутреннюю структуру документа (наличие в нем разделов и подразделов). На этапе загрузки каждого нового текста в базу осуществляется его индексирование (в Software AG его называют инвертированием), однако поскольку все это происходит под управлением СУБД Adabas, работа пользователей не прерывается, и новые документы становятся доступны им практически немедленно. Более важно, пожалуй, то, что специалисты Software AG локализовали продукт Adabas TRS для работы с русскими текстами.

К тому времени, когда в агентстве "Интерфакс" принимали решение о выборе платформы БД для своей информационно-поисковой системы, было известно о ряде удачных реализаций подобных систем на базе Adabas TRS. Одной из самых известных является система Sphinx, применяемая на втором германском телевизионном канале ZDF. Ее построение началось в 1988 г., а в качестве аппаратной платформы был выбран мэйнфрейм под управлением ОС MVS (как известно, позиции СУБД Adabas на мэйнфреймах особенно сильны). Сегодня БД ZDF содержит 3,5 млн документов, и ежедневно в нее загружается около 3000 новых поступлений, приходящих по электронным каналам из различных информационных агентств. Благодаря высокой производительности СУБД Adabas редакторы и репортеры ZDF не только оперативно получают историческую подборку по заданной теме, но и могут включать в свои сюжеты самую свежую информацию в режиме реального времени.

Недавнее усовершенствование системы Sphinx представляется весьма симптоматичным: теперь она включена в Web-подобную архитектуру, что позволяет пользователям искать нужную им информацию в рамках интерфейса стандартного броузера, в том числе, в режиме удаленного доступа. Для этого между мэйнфреймом и клиентом пришлось создать еще один уровень, выполняющий функции Web-сервера и шлюза. Он реализован в виде программы TRS WWW, базирующейся на связующем ПО EntireX и позволяющей динамически формировать HTML-страницы на основе результатов, поступающих с мэйнфрейма в ответ на запрос пользователя. И TRS WWW, и EntireX являются коммерческими продуктами Software AG. Сделано это вовсе не для того, чтобы открыть доступ к своему архиву любому члену Internet-сообщества (пусть и на платной основе). По словам главы IT-подразделения ZDF Хельмута Клейнедера, руководство канала считает, что создававшаяся на протяжении десяти лет система Sphinx - этот один из тех бесценных активов, которые повышают конкурентоспособность ZDF на рынке СМИ, и поэтому передавать ее в общее пользование было бы крайне неразумно. А вот включение Sphinx в состав единой информационной системы, базирующейся на чрезвычайно популярной в последнее время концепции корпоративного портала, способно придать этому решению совершенно новые качества (например, интегрировать на одной Web-странице ссылки на текстовую и мультимедийную информацию).

Разработка системы для агентства "Интерфакс" была начата в 1995 г. группой программистов, работавших на договорной основе, но впоследствии здесь было образовано специальное подразделение, которое и довело проект до конца. В качестве платформы для СУБД Adabas TRS использовался весьма скромный двухпроцессорный сервер SparcStation 20 с ОЗУ 128 Мбайт, который, впрочем, и сегодня, когда объем БД достиг 6 Гбайт, удовлетворяет всем исходным требованиям. Согласно этим требованиям, система должна обеспечивать одновременную работу 20 пользователей, причем среднее время обработки запроса не должно превышать 10 сек. Статистика, которая регистрируется с самого начала работы системы, свидетельствует о том, что среднее время отклика практически не изменилось при увеличении объема БД с 3 до 6 Гбайт.

Еще одна проблема, которую пришлось решать разработчикам, имеет экономические корни. Дело в том, что клиентская часть приложения, создаваемая при помощи инструментария Natural, требует для своего исполнения достаточно мощной машины, а среди нескольких сотен ПК, эксплуатируемых в "Интерфаксе" немало компьютеров с процессорами Intel 386 и 486, замена которых потребовала бы непосильных затрат. Для решения указанной проблемы выполнение клиентской части Natural было вынесено на промежуточный сервер под управлением Windows NT, к которому ПК конечных пользователей обращаются по протоколу Telnet. Наряду с этим, клиентские машины, оснащенные стандартным Web-броузером, могут взаимодействовать с текстовой базой данных через Web-сервер, оснащенный CGI-шлюзом (см. рис.).

Документы, хранимые в БД "Интерфакс", это собственные материалы агентства, которые сохраняют логическое строение, принятое для информационных выпусков, рассылаемых подписчикам ("Интерфакс-новости", "Financial daily" и т.д.). Каждый выпуск состоит из нескольких заметок, которые снабжены заголовками. Кроме того, с документом может быть ассоциировано до 20 классификационных признаков (дата выпуска, автор, редактор, источник и т.д.), которые хранятся в полях БД и могут учитываться при формировании запроса. После сдачи документа он и его классификационные атрибуты сохраняются в БД, а текстовая часть индексируется. С этого момента документ доступен всем пользователям информационно-поисковой системы "Интерфакс". Каждую неделю она пополняется 10000 новых заметок объемом от 0,5 до 180 Кбайт, и в настоящее время объем накопленной информации (без индекса) превышает 6 Гбайт (1800000 документов). Доступ ко всему архиву имеют только сотрудники агентства, и пока не ясно, будет ли он предоставлен сторонним организациям или лицам. Тем не менее, у разработчиков есть планы более тесной интеграции информационно-поисковой системы с другими приложениями в рамках внутрикорпоративной интрасетевой Web-архитектуры.

В заключение следует отметить, что и в России, и в других странах мира на платформе Adabas успешно работает множество крупных систем обработки текстов. В Государственной центральной научной медицинской библиотеке (ГЦНМБ, www.scsml.rssi.ru ) разработана и внедрена уникальная библиотечная система OPAC-R, использующая Adabas TRS для полнотекстового поиска. Вследствие того, что OPAC-R изначально разрабатывалась как универсальная информационно-библиотечная система, стало возможным ее внедрение в таких библиотеках, как вторая по величине в России Российская национальная библиотека (www.nlr.ru , г.Санкт-Петербург), имеющей 35 млн. единиц хранения, в библиотеке регионального уровня - Свердловской областной научной библиотеке им.В.Г.Белинского (library.uraic.ru , г.Екатеринбург), а также городских и муниципальных библиотеках, например, Публичной Центральной городской библиотеке им.Н.А.Некрасова в Москве. А в Норвегии на основе продуктов Software AG создана библиотечная система BIBSYS, позволяющая через Интернет работать с каталогами и заказывать книги из 70 академических библиотек, включающих в себя более 7 миллионов книг и 12 миллионов научных статей. Эта система обслуживает до 1500 одновременно работающих пользователей, в день в среднем обрабатывается свыше 54 000 тысяч запросов конечных пользователей. А появление нового продукта Software AG -информационного XML сервера Tamino дает возможность наряду с текстовой информацией хранить и обрабатывать любые типы мультимедиа данных.