Поиск корреляций

Обработка Больших Данных представляет собой поиск корреляций между массивами разрозненных и не всегда точных данных. Но насколько необходима точность для получения достоверного результата? Big Data-подход гласит, что скорость предоставления информации важнее, чем ее точность. В этом принципе заключается сила Больших Данных для крупных корпораций, ведь таким образом можно «выцепить» общие тренды в реальном времени, не занимаясь выверением и фильтрацией исходных данных. Часто выгоднее допустить ошибку, чтобы затем ее исправить, чем потратить время на дополнительные проверки. Конечно, это неприменимо при конструировании самолетов, но для бизнес-моделей такой подход дает множество выгод. Снова подкрепим такое суждение примером: очень многие сталкивались с переводчиком от компании Google (либо с любыми другими аналогичными сервисами). Google Translate позволяет, используя технику машинного перевода, перевести от одного слова до нескольких абзацев либо всей интернет-страницы мгновенно. Безусловно, качество такого перевода не будет так же высоко, как выполненного человеком, но зато примерно уловить смысл получится с очень высокой вероятностью. С учетом того, что сервис перевода постоянно совершенствуется, не за горами и момент, когда качество перевода перестанет вызывать шутки. В свое время инновацией стало то, что обучение «машины-переводчика» ведут не специально приставленные для этого специалисты, а сами пользователи. Таким образом, Большие Данные помогают сами себе. Кстати, по статистике, около 10% поисковых запросов вводится с ошибкой. Некоторые американские поисковые сайты в свое время использовали статические таблицы исправлений, чтобы предлагать наиболее подходящий вариант неловкому пользователю. Однако этот метод был отвергнут в пользу динамического метода поиска корреляций и анализа частоты запросов и переходов, который используется, в частности, в поисковой службе Google.

Нельзя не упомянуть об одном из основателей современной e-commerce, гиганта, поставившего Big Data в основу своей концепции, компанию Amazon. Ее знаменитая система рекомендаций работает на базе анализа похожих товаров, понравившихся другим пользователям, а также конкретному клиенту в прошлом, позволяя с очень высокой долей вероятности предложить товар, который заинтересует. Анализ приобретаемых или даже просто просматриваемых товаров позволяет определить, что может заинтересовать в дальнейшем такого клиента. Маркетологи пользуются этим, чтобы создавать персонализированное предложение. Не обходится и без курьезов: в 2012 году в один из магазинов сети Target отправил несколько скидочных купонов на детскую одежду и памперсы клиентке, покупки которой указывали, что с большой вероятностью она ждет ребенка. Девушка оказалась несовершеннолетней, и ее отец был взбешен такими предложениями, обращаясь с жалобой на политику магазина. Однако спустя несколько дней он позвонил, чтобы извиниться за свое агрессивное поведение, признавшись, что произошло то, о чем он не мог догадываться и его дочь действительно ждет ребенка. Безусловно, эта история освещает сразу 2 аспекта Больших Данных: способность прогнозирования по корреляциям и этичность сбора информации. Впрочем, вопрос этичности заслуживает отдельного рассмотрения.

N = Все

Стоит отметить еще два очень важных свойства Больших Данных - случайность выборки и непредсказуемость результата.

Вспомним понятие «фокус-группы» - такого набора людей, которые подходят под определенные параметры. Соответственно, если мы исследуем отношение к какому-либо новому закону/сериалу/крему для рук, то есть большой шанс, что, к примеру, женщины до 30, родившиеся в крупном городе, будут в целом относится к объекту исследования схоже между собой, но не так, как группа опрашиваемых пенсионеров-мужчин из сельской местности, также демонстрирующих некоторые сходные черты. Получается, что если мы искусственно ограничиваем выборку, то результат не будет отражать общее мнение. Безусловно, иногда цель именно в этом – определить отношение целевой аудитории. Но для государственных социологический опросов нам хотелось бы представить интересы всех категорий населения. Либо мы должны опросить всех, что, безусловно, было бы хорошо, но не всегда легко реализуемо... Либо нужно обеспечить случайность выборки. Без предварительного подгона мы получим нормальное распределение результатов, а что может быть стабильнее вероятностных законов?.. Работая с выборкой, мы выигрываем в скорости, но есть и свои минусы. К примеру, мы никогда не сможем ответить на заранее незаданные вопросы.

Таким образом, приходим и ко второму свойству, о котором нельзя не упомянуть – непредсказуемость результата. В традиционной аналитике мы нацеливаемся угадать следующий шаг, увидеть причины, определить логику. Мы приблизительно представляем себе то, что хотим получить на выходе. Исходя из таких предпосылок и выбираются данные для анализа. Для наглядности снова рассмотрим пример: нужно составить отчет по продажам. Это классическая работа с данными – мы считаем проданные товары и выводим результат в штуках. Или хотим спрогнозировать время максимального потока покупателей. Исходя их статистики прошлых лет легко выводим, что это, например, конец декабря. Суть анализа была известна заранее. Big Data работает в корне наоборот: нам не известно, какие корреляции могут обнаружится, и обнаружатся ли они вообще. Можем сравнить этот поиск с рыбалкой, когда нельзя точно сказать, получится ли что-то поймать в этот раз, а если получится, то какая рыба это будет. Именно так в результате исследования от Kaggle было выяснено, что в случае покупки подержанного автомобиля стоит отдать предпочтение оранжевому. Возможно, дело в том, что оранжевый – весьма экстравагантный цвет и предыдущий владелец заботился о машине лучше, поскольку любил «пофорсить». Но может быть дело в том, что оранжевых машин в принципе меньше из всего множества. Как уже упоминалось, Большие Данные не говорят почему, они просто указывают на корреляции.

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.