Обработка «Больших Данных»

Аналитическая платформа

  • Машинное обучение, прогнозный анализ, статистическое моделирование и тестирование моделей
  • Мощный и универсальный API, многочисленные источники данных, интеграция приложений
  • Использование облачного сервиса Amazon Elastic Compute Cloud

Ситуация

BI-решения: компромисс между необходимостью, эффективностью и стоимостью

Бизнес-аналитика является основной статьей расходов для многих компаний. Так, чтобы выжить в условиях жесткой конкуренции, многим из них на сегодняшний день приходится обрабатывать большой объем критически важных данных, которые раньше они вообще не принимали в расчет.

К сожалению, традиционные бизнес-аналитические решения зачастую не справляются со своей задачей ввиду особого характера, большого объема и сложной динамики обрабатываемых данных. Именно поэтому компании вынуждены постоянно расширять набор инструментов бизнес-аналитики, чтобы идентифицировать ценную информацию и вовремя принимать верные решения.

Такой комплексный подход требует крупных финансовых вложений как для внедрения программного обеспечения, так и для поддержки аппаратной инфраструктуры, что, в свою очередь, является непозволительной роскошью для малых компаний. Именно в таких случаях на помощь приходит SaaS, основанный на использовании облачных технологий.

Анализ больших данных по требованию

Наш заказчик – одна из первых компаний, начавших поставлять бизнес-аналитические SaaS-решения.

Компания планировала выпустить новое программное обеспечение для прогнозного анализа и анализа тональностей, которое было бы способно обрабатывать большие объемы данных. Платформа была призвана помочь компаниям в сфере логистики и розничной торговли в анализе статистических моделей, выявлении зависимости между различными показателями и осуществлении прогнозирования управленческих решений.

Заказчику было необходимо своевременно заявить о себе на рынке, чтобы удержать лидирующую позицию в свете последних изменений в сфере бизнес-аналитики и передовых облачных технологий. Реализация проекта в сжатые сроки подразумевала высокую интенсивность работ, а также необходимость применения agile-методологии и четкой координации действий.

Нуждаясь в надежном и компетентном партнере, заказчик обратился к Itransition для разработки решения, позволяющего осуществлять аналитическую обработку больших объемов данных в режиме онлайн. Поскольку приложение должно было обрабатывать огромный массив информации в режиме «по требованию», высокая производительность и масштабируемость конечного продукта были жизненно необходимы. Достижение этой цели стало возможным благодаря разработке сложной архитектуры, оптимизированной для использования облачных технологий.

Решение

Обзор функционала

Руководствуясь передовыми практиками и методологиями в сфере разработки программного обеспечения, команда Itransition разработала продукт, который представляет собой аналитическую платформу, предоставляющую пользователям многочисленные варианты обработки больших массивов данных и получения результатов расчета прогнозных показателей.

Решение разработано с использованием облачного сервиса Amazon Elastic Compute Cloud (EC2) и состоит из трех основных компонентов: модуль загрузки данных, модуль обработки и модуль визуализации.

Загрузка данных

Пользователи могут загружать данные через веб-интерфейс посредством функции drag-and-drop. Платформа поддерживает такие форматы файлов, как SVM, CSV, ARFF и др. Подписчики сервиса могут управлять облачной инфраструктурой и выбирать отдельные папки/зоны для работы с каждым файлом. Для автоматической загрузки файлов команда Itransition разработала простой и гибкий API, позволяющий интегрировать многочисленные источники данных и приложения.

Аналитическая обработка

Программное обеспечение позволяет пользователям обрабатывать данные, используя Деревья классификации и регрессии (C&RT – Classification and Regression Trees). Платформа предоставляет набор инструментов для построения, проверки и тестирования соответствующих статистических моделей. Пользователи также могут выбирать, какие файлы данных будут использоваться для построения моделей и какие методы тестирования будут использоваться для различных файлов и наборов данных.

Визуализация

Аналитический вывод сопровождается комплексной визуализацией данных, способствующей пониманию результатов и их интерпретации.

Учитывая специфику моделирования и обработки больших объемов данных, команда Itransition разработала специальную библиотеку, используемую при построении диаграмм, для быстрого и точного отображения данных.

Ключевые технологии

Облачные вычисления с использованием веб-служб Amazon

Для развертывания платформы используется облако Amazon EC2, которое, при необходимости, способствует легкой масштабируемости. Задача, поставленная заказчиком, требовала от Itransition особого подхода к разработке архитектуры платформы с использованием облачных технологий. Размещение на Amazon EC2 позволило осуществлять мгновенное масштабирование приложения в зависимости от объемов загружаемых наборов данных, в то время как пользователи могут одновременно использовать несколько сотен экземпляров сервера.

Java

Java была выбрана в качестве наиболее подходящей технологии для имплементации требуемого функционала, обеспечения должной масштабируемости и высокой производительности. Команда Itransition разработала масштабируемое модульное приложение, которое полностью совместимо с Amazon EC2.

Фреймворк Hadoop MapReduce

Hadoop MapReduce – это модель программирования и программный фреймворк, позволяющий быстро обрабатывать большие массивы данных наряду с большими кластерами вычислительных узлов. Распределенная файловая система Hadoop (HDFS – Hadoop Distributed File System) была выбрана ввиду ее широких возможностей по хранению чрезвычайно больших массивов данных и высокой пропускной способности при передаче данных к пользовательским приложениям.

Высокопроизводительный сервер приложений Glassfish

Модульная архитектура позволяет запускать лишь те модули сервера GlassFish, которые необходимы для обслуживания работающего приложения. Это, в свою очередь, обеспечивает высокую доступность и легкую масштабируемость кластеров приложения.

Биллинг

Биллинговый механизм Akka отслеживает и обобщает все операции, выполненные в ходе текущей сессии, и генерирует счет на основании потребленных ресурсов (зависящих от объема обработанных данных и сложности моделей).

Процесс разработки и результаты

Проект был реализован на основании agile-методологии, которая позволила быстро, последовательно и эффективно разработать необходимое приложение. Основная часть платформы была разработана менее чем за год, поскольку Заказчику было необходимо запустить ее как можно раньше, чтобы ускорить окупаемость.

Сразу же после релиза Заказчику понадобилась постоянная и активная поддержка в дальнейшей разработке приложения для того, чтобы улучшить его функционал и сделать его более привлекательным с финансовой точки зрения. Тесное сотрудничество продолжается уже более трех с половиной лет.

Скриншоты

Бизнес-пользователи зачастую обескуражены высокой стоимостью, сложностью развертывания и обслуживания бизнес-аналитических решений, а также их высокими требованиями к IT-инфраструктуре. Многие полагают, что бизнес-аналитические решения с использованием облачных технологий, поставляемые как услуга, — более быстрая, менее затратная и простая в развертывании альтернатива. Однако, это еще лишь предстоит доказать.

Джеймс Ричардсон Директор Отдела исследований, Gartner

Ключевые моменты

  • Решения

    BI-решения

  • Отрасли

    Производители ПО

  • Технологии

    Java

Бесплатные Курсы

  • Подать заявку

    Разработка ПО

    Тестирование ПО

  • Пройти тест

    Процедура занимает всего один день. Ваш результат станет известен сразу

  • Обучение

    Преподаватели курсов – сотрудники компании с большим практическим опытом

  • Курсовой проект

    Наше обучение ориентировано на получение практических навыков

  • Трудоустройство

    Лучшие выпускники получают предложение о трудоустройстве