Books-Lib.com » Читать книги » Домашняя » Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд

Читать книгу - "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд"

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд - Читать книги онлайн | Слушать аудиокниги онлайн | Электронная библиотека books-lib.com

Открой для себя врата в удивительный мир Читать книги / Домашняя книг на сайте books-lib.com! Здесь, в самой лучшей библиотеке мира, ты найдешь сокровища слова и истории, которые творят чудеса. Возьми свой любимый гаджет (Смартфоны, Планшеты, Ноутбуки, Компьютеры, Электронные книги (e-book readers), Другие поддерживаемые устройства) и погрузись в магию чтения книги 'Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд' автора Дэвид Хэнд прямо сейчас – дарим тебе возможность читать онлайн бесплатно и неограниченно!

225 0 09:06, 11-04-2022
Автор:Дэвид Хэнд Жанр:Читать книги / Домашняя Год публикации:2021 Поделиться: Возрастные ограничения:(18+) Внимание! Книга может содержать контент только для совершеннолетних. Для несовершеннолетних просмотр данного контента СТРОГО ЗАПРЕЩЕН! Если в книге присутствует наличие пропаганды ЛГБТ и другого, запрещенного контента - просьба написать на почту для удаления материала.
0 0
Купить книгу

Аннотация к книге "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - Дэвид Хэнд", которую можно читать онлайн бесплатно без регистрации

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.
1 ... 3 4 5 6 7 8 9 10 11 12
Перейти на страницу:
Ознакомительный фрагмент

Несколько лет назад, еще до начала эры легкодоступных больших наборов данных, мы с коллегами опубликовали «Справочник по небольшим наборам данных»[12], включающий в себя 510 массивов реальных данных, на примере которых преподаватели могут иллюстрировать концепции и методы статистики. В справочнике приведены результаты 20 000 бросков игральной кости, данные о сроках беременности, толщине роговицы глаза, длительности нервных импульсов и множество других наборов данных, очень немногие из которых описывают генеральные совокупности целиком.

● Изменение условий.

Первые две стратегии помогают собрать так называемые данные наблюдения. Вы просто измеряете значения, которые присущи объектам или людям, никак не меняя условия, в которых проводятся измерения. Вы не даете людям лекарств, чтобы отследить их реакцию, не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая. Если же вы меняете условия сбора данных, иначе говоря, вмешиваетесь, то такие данные называются экспериментальными. Экспериментальные данные особенно важны, потому что они могут дать информацию о контрфактуальности (DD-тип 6: данные, которые могли бы существовать), упомянутой в главе 1.

Хотя у всех трех методов сбора данных есть немало общих недостатков, связанных с темными данными, для каждого из них характерны и свои особые проблемы. Мы начнем с рассмотрения первой стратегии сбора данных, претендующей на полный охват.

Извлечение, отбор и самоотбор данных

Компьютеры оказали революционное влияние на все аспекты нашей жизни. Где-то это влияние проявляется очевидным образом, например в программном обеспечении, которое я использую для подготовки рукописи этой книги, или в системе бронирования авиабилетов, а где-то оно не так заметно, если речь идет, скажем, о встроенных компьютерах, управляющих тормозами и двигателем автомобиля, или о начинке какого-нибудь копировального аппарата.

Но независимо от того, очевидна или нет роль компьютеров, во всех случаях в машины поступают данные – измерения, сигналы, команды – и обрабатываются ими, чтобы принять решение или выполнить какую-либо операцию. Казалось бы, по завершении операции можно попрощаться с данными, однако зачастую этого не происходит. Данные все чаще сохраняют, отправляют в базы данных и там аккумулируют. То же самое происходит и с побочными или, как их еще называют, выхлопными данными (по аналогии с выхлопными газами), которые в дальнейшем помогают добиться лучшего понимания, усовершенствовать системы или восстановить картину событий, если что-то пошло не так. Черный ящик в самолете является классическим примером такого рода систем.

Выхлопные данные, описывающие людей, называются административными[13]. Особая сила административных данных заключается в том, что они сообщают не то, что люди говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом деле. Такие данные показывают, что люди купили, где они это купили, что они ели, какие поисковые запросы делали и т. д. Считается, что административные данные намного точнее демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и поведении. Это привело к накоплению правительствами, корпорациями и рядом других организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут усовершенствовать процесс принятия решений, повысить корпоративную эффективность и лучше продумать государственную политику – конечно, при условии, что эти выводы будут точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем темные данные, причем в самых неожиданных местах.

Один из очевидных и очень серьезных недостатков административных данных кроется в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но, чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных, при этом каждая из них грозит своими особыми проблемами, связанными с темными данными.

Мое первое настоящее знакомство с темными данными состоялось в сфере банковских услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы, автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около 35 млрд транзакций по картам Visa[14]. Каждый раз, когда покупка оплачивается кредитной картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а также многие другие детали, общий список которых включает 70–80 пунктов. Большую часть этой информации составляют данные, необходимые для совершения транзакции и списывания суммы с соответствующего счета – это обязательная часть операции, поэтому пропуск таких деталей маловероятен или даже невозможен. Например, операция не может быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие данные, которые не критичны для проведения операции, поэтому существует вероятность того, что они не будут собраны. В частности, номер партии товара, его идентификационный код или цена за единицу не являются обязательной информацией для проведения транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они отсутствуют.

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор. Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

1 ... 3 4 5 6 7 8 9 10 11 12
Перейти на страницу:
Отзывы - 0

Прочитали книгу? Предлагаем вам поделится своим впечатлением! Ваш отзыв будет полезен читателям, которые еще только собираются познакомиться с произведением.


Новые отзывы

  1. Гость Елена Гость Елена12 июнь 19:12 Потрясающий роман , очень интересно. Обожаю Анну Джейн спасибо 💗 Поклонник - Анна Джейн
  2. Гость Гость24 май 20:12 Супер! Читайте, не пожалеете Правила нежных предательств - Инга Максимовская
  3. Гость Наталья Гость Наталья21 май 03:36 Талантливо и интересно написано. И сюжет не банальный, и слог отличный. А самое главное -любовная линия без слащавости и тошнотного романтизма. Вторая попытка леди Тейл 2 - Мстислава Черная
  4. Гость Владимир Гость Владимир23 март 20:08 Динамичный и захватывающий военный роман, который мастерски сочетает драматизм событий и напряжённые боевые сцены, погружая в атмосферу героизма и мужества. Боевой сплав - Сергей Иванович Зверев
Все комметарии: