Как укротить Большие Данные в банке
О реальном использовании Big Data в российских банках.
Авторы
Тэги
Тематические рубрики
Предметные рубрики
В этом же номере:
Резюме по документу**
с. 24—27
Тема номера
2841
Как укротить Большие Данные в банке
Андрей Пивоваров
Руководитель группы перспективных
технологий предпроектного
консалтинга Oracle СНГ
очень популярна тема Больших Дан-
ных. <...> Проводятся конференции, пуб-
ликуются статьи и книги, где расска-
зывается, почему Большие Данные
важны и как их можно было бы ис-
пользовать. <...> При этом реальных при-
меров использования Big Data в
российских банках пока немного. <...> П
Не так давно в одном из крупней-
ших российских банков столкнулись
с типичной проблемой из области
Больших Данных — обработкой
большого объема полуструктуриро-
ванных данных. <...> Суть задачи была
следующей: у банка есть некий «чер-
ный ящик», который постоянно гене-
рирует файлы объемом до несколь-
оследние несколько лет
ких сотен мегабайт каждый. <...> Это тек-
стовые файлы без единого переноса
строки (поля, разделенные по фик-
сированному смещению). <...> Слово «приблизительно» по-
явилось не случайно: так как формат
данных постоянно меняется, колонка
может быть разделена на две, может
добавиться новая (как в конец, так и
в середину). <...> Из этих 700 метрик есть
около 30 самых важных, которые ре-
шено было загружать в реляционную
СУБД для обеспечения к ним посто-
янного доступа и анализа. <...> Но факт,
что 30 колонок — самые важные, не
означает, что остальные несколько
сотен никому не нужны. <...> Более того,
доступ к ним может понадобиться в
совершенное произвольное время и
даже спустя несколько лет. <...> Объемы данных, постоянно меня-
ющаяся структура и необходимость
иметь информацию в постоянном
доступе для анализа приводят к то-
му, что использование здесь тради-
ционных СУБД с жесткой структурой
данных существенно затруднено. <...> И
действительно, сначала заказчик
начал проект, используя «стандарт-
ные» технологии и ежедневно стал-
киваясь с все новыми и новыми про-
блемами. <...> Отдель-
ной проблемой была их масштаби-
руемость при обработке больших
объемов, так как все преобразова-
ние осуществлялось на одном сер-
вере. <...> С одной <...>
** - вычисляется автоматически, возможны погрешности
Похожие документы: