Проблема контроля качества данных и методы ее решения

Автор: Карина Доля
Опубликовано в журнале “CIO” №11 от 19 декабря 2007 года

offline.cio-world.ru

www.computerra.ru

Одной из наиболее актуальных проблем практически любого крупного бизнеса является хранение больших объемов данных и поддержание их качества на достаточно высоком уровне. Особенно остро эта проблема стоит в телекоммуникационном и финансовом секторах, где использование некорректных данных может привести компанию к существенным убыткам.

Рассмотрим в качестве примера хранение данных операторами мобильной связи. Очевидно, что каждому из них приходится работать с огромным массивом данных. Таблица иллюстрирует количество активных абонентов в компаниях «большой тройки». При этом нельзя забывать, что для каждого абонента необходимо хранить все персональные данные и всю историю ежедневных транзакций.

Более того, операторам мобильной связи приходится все время следить за качеством своих данных, поддерживая его на достаточно высоком уровне. Сложность задачи на этом этапе состоит в корректной загрузке новой информации в базу данных, регулярной проверке записей и других нюансах.

Путь транзакции абонента

Чтобы обеспечить корректность данных, необходимо определить, на каком этапе загрузки информация может «испортиться» и какова вероятность потери качества на этом шаге.

Для оценки вероятности поступления некорректной информации в базу данных мобильного оператора проследим весь путь транзакции абонента. Рассмотрим, например, обычный звонок. Как только набран номер на мобильном телефоне, абонент автоматически попадает в «поле зрения» биллинговой системы и проходит аутентификацию. Далее биллинговая система фиксирует звонок и рассчитывает его стоимость в соответствии с тарифным планом абонента, учитывая все возможные бонусы и скидки. Результат этой операции записывается на сервер в виде файла. На следующем этапе оператор мобильной связи закачивает файл с информацией на вспомогательный сервер, после чего загружает его в хранилище данных.

Конечно, рассмотренный пример достаточно тривиален: нецелесообразно выкладывать на сервер информацию только об одном звонке. Данные о транзакциях группируются по дням, типам (будь то звонок, SMS, GPRS, пополнение счета, списание и т. п.), регионам, в которых эти транзакции производились, архивируются и только потом выкладываются на сервер.

Информация о транзакциях абонентов может «испортиться» на любом этапе рассмотренного процесса. Это объясняется, во-первых, значительными объемами передаваемых данных – в хранилище мобильного оператора ежедневно попадает более 150 Гбайт данных; во-вторых, несовершенством процесса. Существует множество внешних факторов, которые могут негативно повлиять на работу системы. Несмотря на то что процесс автоматизирован, в любой системе случаются сбои. Например, по причине «неведомой силы» биллинговая система может выгрузить некорректные данные. Самый типичный «глюк» – задублированные строчки в файлах. Следует отметить, что автоматизация процесса загрузки данных не означает полного отсутствия контроля со стороны системных администраторов. Ведь при сбое работы системы, например, вследствие отключения электропитания, возобновить дальнейшую работу в большинстве случаев можно только вручную.

Крупнейшие сотовые операторы России (Источник: РБК)

Способы контроля данных

Теперь, зная, какой путь проходит каждая транзакция абонента и «уязвимые» места в цепи, рассмотрим возможные способы контроля качества данных.

Первый и самый простой способ – это считать данные корректными «по умолчанию». Однако сегодня подобный метод не имеет права на существование. Даже такая банальная проблема, как поломка сервера, способна остановить всю загрузку, и мобильный оператор потеряет данные за несколько дней. Это может привести к катастрофическим последствиям. Часть данных утеряна, следовательно, показатель ARPU (Average revenue per user – средняя выручка на одного пользователя) занижен, значит, компания теряет деньги. С другой стороны, абоненты не могут получить полную информацию о своих транзакциях. К тому же, если абонент не согласен с тарификацией своих звонков, мобильный оператор не сможет предоставить ему полную информацию о совершенных транзакциях.

Второй способ контроля качества данных – полная автоматизация процесса. Другими словами, предотвращение потери качества данных путем автоматического контроля файлов (архивов), предоставляемых биллинговой системой. Так, можно поставить условие, при котором задублированные строки из архива не будут попадать в хранилище данных мобильного оператора, а если архивы имеют размер меньше ожидаемого – посылать запрос провайдеру биллинга на перезагрузку архивов. Этот способ контроля данных позволит избежать многих потерь, но, к сожалению, не всех. К примеру, возникает вопрос: каков порог допустимого отклонения размера архивов от ожидаемого? Согласно статистике, активность абонентов в субботу ниже, чем в будние дни, но выше, чем в воскресенье, а в праздничные дни активность может как резко подскочить, так и упасть до уровня выходного дня. Соответственно, и размер архивов будет варьироваться. Следовательно, размах максимального отклонения от ожидаемого значения должен быть достаточно большим, чтобы включить в себя все возможные варианты. Но в то же время чем больше размах, тем выше вероятность «пропустить» некорректные архивы. Кроме того, никакая система не совершенна. Из-за сбоев работы сервера часть данных может вообще не попасть в хранилище. Причем автоматическое устранение или хотя бы контроль всех сбоев на каждом участке сети реализовать невозможно.

Третий способ – контроль полноты и корректности данных вручную, с ежедневной проверкой корректности загрузки файлов, объема предоставленных биллинговой системой архивов, наличия транзакций каждого абонента, со сравнением его активности в предыдущие дни и, таким образом, с прогнозом относительно ожидаемых показателей. Однако на современном рынке, когда количество активных абонентов превышает 150 млн человек, ручной контроль данных неэффективен.

Оптимальный вариант – контроль качества данных с помощью комбинации второго и третьего способов. Таким путем пошла группа компаний AT Consulting для контроля качества данных мобильного оператора «Вымпелком». В этом случае на этапе загрузки автоматически отсекаются задублированные строки в файлах, предоставленных биллинговой системой. Кроме того, установлен автоматический контроль размера получаемых данных, при этом количество строчек в файле может варьироваться достаточно сильно, чтобы учесть все возможные завышения и занижения вследствие внешних причин (например, праздники). Автоматизированный процесс непрерывно контролируется системными администраторами, которые в любое время дня и ночи могут сказать, на каком этапе находится процесс загрузки. Более того, после успешной загрузки данных в хранилище команда аналитиков ежедневно проверяет их корректность, используя, в том числе, специальное программное обеспечение для автоматического контроля.

Аутсорсинг качества данных

Каждая компания мобильной связи на определенном этапе своего развития решает, будет ли она и дальше следить за качеством своих данных самостоятельно или же передаст выполнение этих функций на аутсорсинг. Что приобретает и чем жертвует компания, делегируя заботу о своих данных стороннему исполнителю?

В пользу того, чтобы самостоятельно заниматься загрузкой данных в хранилище и контролем их корректности, говорят два весомых фактора – экономия средств и полный контроль процесса. Другими словами, компания имеет возможность всегда «держать руку на пульсе» и за все форс-мажорные обстоятельства пенять только на себя.

Однако большинство крупных телекоммуникационных компаний предпочитает отдавать на аутсорсинг контроль данных. Это позволяет компании-заказчику значительно уменьшить трудоемкость и затраты на создание, хранение и заботу о хранилище данных, сконцентрироваться на основных бизнес-процессах компании, не отвлекаясь на вспомогательные. Так, компании не придется расширять штат, организовывать новые рабочие места, арендовать помещения, искать при необходимости замену сотруднику, восстанавливать работу в случае ухода ведущего специалиста.

Все же наиболее весомым преимуществом аутсорсинга является повышение качества предоставляемых услуг. Например, когда контроль качества данных осуществляется оператором мобильной связи, за данный проект отвечает один конкретный менеджер (или группа менеджеров). Если вдруг критическая для бизнеса часть информации по каким-либо причинам будет потеряна, максимум, что может сделать компания, – это уволить нерадивого менеджера. Когда за контроль качества данных отвечает юридическое лицо, ситуация иная. Серьезная аутсорсинговая компания, которая дорожит своей репутацией, сделает все, чтобы не нарушить SLA (Service Level Agreement – соглашение об уровне услуг) и поддержать качество сервиса на должном уровне.

Сергей Шилов: «Большинство заказчиков опасаются, что они не смогут контролировать качество работы подрядчика».По мнению Сергея Шилова, генерального директора группы компаний AT Consulting, если просуммировать все плюсы и минусы аутсорсинга, то перед организацией-заказчиком чаще всего стоят три основных вопроса. «Во-первых, стоимость услуг. Понятно, что никто не хочет переплачивать за работу, которую можно выполнить самостоятельно. Однако в этом случае для эффективного поддержания качества данных компании придется сформировать дополнительный отдел сотрудников, закупить или разработать специальное программное обеспечение. Все это приведет к увеличению капитальных затрат без возможности экономии на масштабе, что является одним из основных аргументов в пользу аутсорсинга. Во-вторых, качество услуг. Большинство заказчиков опасаются, что они не смогут контролировать качество работы подрядчика. Тем не менее, на практике эту проблему можно решить с помощью грамотно составленного соглашения SLA. В нем определены все критерии качества и сроки сдачи регулярной отчетности, подтверждающей, что заданный уровень качества действительно достигнут. Наконец, в-третьих, проблема безопасности данных, передаваемых на аутсорсинг. Однако, на мой взгляд, утечка информации из аутсорсинговой компании может похоронить ее репутацию. Так что в интересах самого подрядчика обеспечить максимальный уровень конфиденциальности доверяемых ему данных».

* * *

Актуальность проблемы контроля качества данных на сегодняшний день не вызывает сомнений. Требования быстро растущего крупного бизнеса к качеству информации в хранилищах становятся все жестче. Из-за некорректных данных компании могут не только понести финансовые потери, но и запятнать свою репутацию. Для поддержания качества предоставляемых услуг участники рынка должны быть уверены в корректности своих данных.

Компания может осуществлять контроль качества данных в хранилище собственными силами либо отдать эту функцию на аутсорсинг. В случае самостоятельного выполнения работы придется расширять штат, назначать ответственных лиц и заключать внутреннее соглашение об уровне обслуживания.

Если компания принимает решение отдать контроль качества данных внешнему исполнителю, главное – правильно выбрать подрядчика. Наиболее важными критериями являются опыт аутсорсинговой компании и ее место на рынке ИT-услуг. После выбора внешнего исполнителя компании-заказчику нужно подойти со всей ответственностью к составлению SLA, чтобы поставленная задача была одинаково понятна как заказчику, так и подрядчику. Отдавать или не отдавать контроль качества данных на аутсорсинг – личное дело каждой компании. Самое главное – результат. Лучше позаботиться о качестве данных заранее, чем потом пытаться отыскать некорректные записи, на основании которых были приняты неверные стратегические или краткосрочные управленческие решения.

Tags: ,

Leave a Reply