Большие данные и оптимизация ETL-процессов

Индустрии
Здравоохранение
Компетенции
Data engineering и бизнес-аналитика
Технологии
SQL Server, .NET

Клиент


Крупная международная фармацевтическая компания, разрабатывающая лекарства от онкологических, психиатрических, неврологических и других заболеваний.

Задача


Объём данных, необходимых учёным-медикам для работы, постоянно увеличивается. Базы данных нашего клиента содержат терабайты информации.

При таких объёмах становится сложно контролировать время, требуемое для проведения операций с данными — загрузок новых массивов данных, преобразований и запросов к результирующим базам данных.

При этом крайне важно убедиться, что данные имеют адекватное качество, поскольку от этого зависят результаты медицинских исследований и внедрение новых методов лечения.

Наконец, ещё одна задача — снизить затраты на ETL-процесс за счёт автоматизации как можно большего объёма работ.

Решение


Команда Аркадии спроектировала, разработала и протестировала базы данных и приложения; процедуры извлечения, загрузки и преобразования данных, администрирования баз данных, оптимизации запросов, поддержки пользователей и отслеживания проблем.

Для работы с огромными массивами данных использовались новейшие продвинутые функции SQL Server Enterprise, такие как сжатие данных на уровне страниц, горизонтальное секционирование и переключение секций.

Некоторые базы данных перенесены в систему баз данных с массовым параллелизмом — Analytic Platform System, что значительно повысило производительность запросов.

Качество данных было улучшено с помощью системы анализа валидации (Validation Analysis System) — утилиты, которая собирает статистику и находит аномалии в загруженных данных, — и веб-сайта, отображающего результаты.

Большинство ETL-операций были автоматизированы с помощью пакетов Integration Services и приложения CDM Builder.

CDM Builder — это многопоточное и распределённое приложение для преобразования ряда популярных баз данных в общую модель данных. Целью Общей модели данных (CDM) является стандартизация формата и содержания данных наблюдений.

Результат


Время загрузки данных было значительно сокращено — в некоторых случаях с дней и недель до часов.

Качество данных было улучшено с помощью системы валидационного анализа.

Процесс интеграции данных был в основном автоматизирован и теперь почти либо совсем не требует затрат рабочего времени программистов.