Клиент
Крупная международная фармацевтическая компания, разрабатывающая лекарства от онкологических, психиатрических, неврологических и других заболеваний.
Задача
Объём данных, необходимых учёным-медикам для работы, постоянно увеличивается. Базы данных нашего клиента содержат терабайты информации.
При таких объёмах становится сложно контролировать время, требуемое для проведения операций с данными — загрузок новых массивов данных, преобразований и запросов к результирующим базам данных.
При этом крайне важно убедиться, что данные имеют адекватное качество, поскольку от этого зависят результаты медицинских исследований и внедрение новых методов лечения.
Наконец, ещё одна задача — снизить затраты на ETL-процесс за счёт автоматизации как можно большего объёма работ.
Решение
Команда Аркадии спроектировала, разработала и протестировала базы данных и приложения; процедуры извлечения, загрузки и преобразования данных, администрирования баз данных, оптимизации запросов, поддержки пользователей и отслеживания проблем.
Для работы с огромными массивами данных использовались новейшие продвинутые функции SQL Server Enterprise, такие как сжатие данных на уровне страниц, горизонтальное секционирование и переключение секций.
Некоторые базы данных перенесены в систему баз данных с массовым параллелизмом — Analytic Platform System, что значительно повысило производительность запросов.
Качество данных было улучшено с помощью системы анализа валидации (Validation Analysis System) — утилиты, которая собирает статистику и находит аномалии в загруженных данных, — и веб-сайта, отображающего результаты.
Большинство ETL-операций были автоматизированы с помощью пакетов Integration Services и приложения CDM Builder.
CDM Builder — это многопоточное и распределённое приложение для преобразования ряда популярных баз данных в общую модель данных. Целью Общей модели данных (CDM) является стандартизация формата и содержания данных наблюдений.
Результат
Время загрузки данных было значительно сокращено — в некоторых случаях с дней и недель до часов.
Качество данных было улучшено с помощью системы валидационного анализа.
Процесс интеграции данных был в основном автоматизирован и теперь почти либо совсем не требует затрат рабочего времени программистов.