- BigData (рисковый скоринг, геоаналитика, лидогенерация и т.д.)
- Mobile advertising
- BPaaS: HR-tech, legal-tech
- омниканальные коммуникации
- автоматизация чатов
Большие данные из телекома, плюмбус, и как на дедовском москвиче поехать на сельскую дискотеку и не спалиться.
I) Заповеди.
В этой статье я не буду говорить о конкретном телеком-операторе, агрегаторе, интеграторе и пр.
В этой статье я не буду рекламировать, ругать или рекомендовать. Статья исключительно юмористического содержания, прошу не принимать близко к сердцу.
В этой статье я буду придерживаться объективного взгляда и десятков NDA (Соглашение о неразглашении).
Поводом для написания статьи стало мое отдаление от этого направления, после чего появилась возможность как свободно высказывать свое мнение, так и точка зрения, когда большое кажется уже и не таким большим.
Героями нашей повести будут максимально типичные персонажи, несомненно-выдуманные, такие юные и с таким ярким цифровым следом.
II) Введение
Ох как много всего в этих модных словах: big data… Я не буду переписывать именитые источники, но справочно:
• Volume –Объём информации
• Velocity – скорость.
• Variety – многообразие неструктурированной, частично или полностью структурированной.
Галок можно ставить много, например:
· Veracity – достоверность,
· Value – ценность
· Viability – жизнеспособность
· Vendetta – мщение
III) Откуда берутся данные. Или как они поехали на сельскую дискотеку.
Но, процитирую одного эксперта, «big data это не волшебная пилюля», которой можно вылечить любую болячку бизнеса или оживить «дохлую лошадь». Да, на основе больших данных создано множество интересных решений, которые имеют ценность для бизнеса, государства, граждан. Но для понимания ценности, разберемся в источниках.
У телекома есть колоссальные объемы данных, которые они хотят или обязаны хранить. И понятно, что для этого требуется значительное количество ресурсов.
Скажем так, этот процент некоторые почувствовали после принятия закона Яровой. Ну или этот репрайс абонентской платы захотели преподнести маркетологи, наклеив на повышение стоимости грустный смайлик.
В любом случае оператор связи знает вас достаточно хорошо, чтобы молчать. Ну например:
1. Историю перемещения вашей сим-карты, и текущую локацию: следовательно, перемещение вас, ваших друзей, знакомых. И при этом не имеет смысл верить в цвет логотипа оператора, т.к. бытует мнение, что любая базовая станция «слышит» как в нее «стучится» абонент любого оператора связи. И при этом по «постукиванию» может определить не только номер телефона (MSISDN), но IMEI телефона (в котором зашита подробная информация о самом устройстве и ОС), данные с ключами идентификации карты (IMSI), дата и время «постукивания». И это далеко не полный перечень.
Но некоторые начнут рассуждать про точность геопозиционирования. Т.к. у нас на селе одна базовая станция и сколько не катайся по селу, оператор не увидит изменений. Не так все просто! Оператор отлично видит перемещения от одной базовой станции к другой, и если вы поехали на дискотеку в другое село это будет заметно. Но дороги, по которым вы можете поехать весьма понятны.
Исключение в порядке бреда – если вы поехали на тракторе по полю, или собрали свой джетпак (Реактивный ранец такой).
И тут происходит магия: оператор накладывает маршрут (точка-точка) на карту, типа 2GIS, и понимаем, что с этой скоростью наиболее вероятна поездка на дедовском москвиче по единственной асфальтированной дороге. А в соседнем селе, в это время суток, центром притяжения является местный клуб). Тут можно применить фантазии с верификацией геотреков с GPS устройствами, несколько лет обучения и шлифовки нейросети, практики лучших Data Science и т.д.
Вывод - оператор с высокой долей вероятности может определить, например:
· точный маршрут передвижения (с точностью 100-30 м)
· скорость перемещения (допустимая погрешность с шагом около 20 км в час)
· тип транспорта (автомобиль, джетпак, трамвай, на своих двоих)
· направление движение, а следовательно и сторону проезжей части (дорога после дискотеки является исключением)
Уже этих данных хватит, для решения множества интересных задачек.
2. А еще может быть информация о своих, родных абонентах:
Нагрузка на базовую станцию, трафик (СМС сообщения и посещение конкретных сайтов) и направление вызовов (кто кому и когда звонил, длительность вызова), биллинговые данные (паспортные данные абонента, подключенные тарифы).
И тут противники теории заговора скажут, что все конечно хорошо, а если сим карта оформлена на другого человека?
На каждую хитрую гайку всегда найдется болт со спец резьбой.
Ребята поехали на дискотеку не одни, а взяли с собой Ксюху и Катюху. Ксюхе было 16 лет, но она скрывала это, и ее сим-карта была оформлена на отца (отставной офицер – Генадий).
Катюха же была первокурсницей и таскала с собой планшет с сим-картой в 3G модуле.
Упражнение простое:
Ксюха. Для оператора эта поездка показывала бы кризис среднего возраста у отставного офицера, и попытки вспомнить молодость. Но вспомним, что оператор обрабатывает все данные в деперсоницифированном виде, и видит, что пользователь этой сим-карты находится в зависимости от соцсетей, много разговаривает по телефону с абонентами у которых похожий цифровой профиль, получает в 10 раза больше звонков на 8 марта, у него отсутствуют входящие сообщения с номера 900, и в последнее время все чаще посещает форумы по беременности. Скорее всего Генадий вовсе не Генадий. А настоящий Генадий скоро станет владельцем еще одной седой прядки волос.
Катюха. Для оператора эта поездка показывала бы наличие у Кати очень хорошей подруги, которая везде ее преследует. Но вспомним, что оператор на своей базовой станции видит IMEI устройства и может видеть биллинговые данные, а еще, понимает, как абоненты используют то или иное устройство. Следовательно, вторая сим-карта последнее время повторяла одни и те же перемещения в одно и то же время; трафик имеет закономерности (Катя одновременно не разговаривает по телефону и планшету, не умеет одновременно смотреть фильмы на двух устройствах, посещает одинаковые URL соцсетей). И прочие фокусы математического моделирования для идентификации абонента.
3. Ходит миф, что оператор может читать тексты смс. Нет, не может, т.к. ограничен законом, по которому о содержании сообщения должен знать только отправитель и получатель.
Ведь если бы оператор обрабатывал тексты сообщения в агрегированном и деперсоницифированном виде, в качестве некой копии, которая получается при организации шлюза для какого-нибудь крупного банка, то мог бы собирать такую информацию:
· Некий абонент (с номером телефона или хешом вместо номера) получает смс от банка «А» в определенное время, с определенным текстом, с конкретными суммами. Из этого можно сделать выводы о доходах и расходах абонента, приверженность брендам\магазинам, кругу доверенных лиц которым переводит денежные средства и много другое
· Некий абонент имеет карту лояльности в популярном ритейле и периодически получает рекламные сообщения от этого бренда и уведомления о накопленных бонусах.
· А еще есть ОФД (оператор фискальных данных) который пытается монетизировать затраты на хранение огромного количества бесполезных чеков от всяких сельских магазинов.
4. Триггеры по URL и прочее. Если у вас есть маркетологи, таргетологи, SMM’щики и прочие представители новомодных субкультур, то они наверняка получали контекстную рекламу с уникальными предложениями с таргетированием по абонентам сотовой связи.
При наличии спроса я могу посвятить этому религиозному течению отдельное эссе.
5. Но не едиными базовыми станциями сыт оператор, ведь истинный цифровой след находится в интернете, а именно в соцсетях, мессенджерах защищенных сквозным шифрованием. Нормальных интернет ресурсов у операторов нет (но хоть в этот профильный бизнес они пока не лезут), но не кто не мешает им создавать объединения, в рамках которого можно обмениваться такими данными.
И тут мы имеем привязку конкретного абонента к конкретным https\http\WEB App.
6. Моделирование, look a like, экстраполяция. Благодаря многократной верификации данных, проверки применимых гипотез, можно не только увеличить точность предоставляемых данных, но и компенсировать недостающие данные, с достаточной точностью для тех или иных прикладных задач.
Для большинства прикладных задач применение всех источников данных не является обязательным.