Тирания электронных таблиц

Тиранияэлектронныхтаблиц

В начале октября у меня зазвонил телефон. На линии был исследователь из Today, утренней радиопрограммы BBC, определяющей повестку дня. Она сказала мне, что случилось что-то странное, и надеялась, что я смогу это объяснить. Около 16, 10 Положительные случаи Covid полностью исчезли из британской системы отслеживания контактов. Это были 16, 10 люди, которых следовало предупредить о том, что они инфицированы и представляют опасность для других, , 000 случаи контактные трейсер должны были текли, чтобы выяснить, где инфицированные пошел, кто они встретились и кто иначе может оказаться в опасности. Ничего из этого не происходило.

Почему исчезли дела? Судя по всему, в Microsoft Excel закончились цифры.

Это была потрясающая история, которая со временем заставила меня углубиться в историю бухгалтерского учета, эпидемиологии и вакцинации, обсудить форматирование файлов с основателем Microsoft Биллом Гейтсом и даже проследить последствия крах Enron. Но, прежде всего, это была история, которая научила меня тому, как мы воспринимаем числа как должное.

Сейчас, когда Великобритания снова начинает работу на фоне быстро растущего числа случаев, мы надеемся, что вакцинация сохранит нашу безопасность. Вакцины – справедливо – провозглашаются научным триумфом. Их разработка и распространение прошли в героических масштабах.

Но в сентябре и октябре, когда Великобритания также открывала свои двери на поразительно похожем фоне роста числа случаев заболевания, у нас не было вакцины, которая бы нас защищала. Вместо этого мы пытались защитить себя данными. И мы, похоже, не были так увлечены данными, как сейчас, о вакцинах. Это позор, потому что, когда вы полагаетесь на цифры, чтобы обезопасить себя, важно приложить некоторые усилия, чтобы ваши цифры оставались точными.

Происхождение Excel можно проследить гораздо глубже, чем Microsoft. В последние годы 1396 необходимость в надежной системе учетных записей была очевидна в В частности, всплески одного человека, итальянского торговца текстилем по имени Франческо ди Марко Датини. Бедную Датини окружали дураки.

«Вы не можете увидеть ворона в миске с молоком!» он ругал одного сотрудника. «Вы можете заблудиться от носа ко рту!» он упрекнул другого.

Яркая книга Ирис Ориго Торговец из Прато описывает повседневную жизнь Датини и объясняет его проблему: отслеживать все в сложном мире. К концу 16 В начале века такие торговцы, как Датини, превратились из простых коммивояжеров, способных отслеживать прибыль, похлопывая по своим кошелькам. Теперь они отвечали за сложные операции.

Датини, например, заказал шерсть с острова Майорка за два года до того, как овцы даже вырастили ее, изгородь, чтобы учесть многочисленные субподрядчики, которые обрабатывали ее до того, как она превратилась в красивые рулоны окрашенной ткань. Цепочка поставок между пастухом и потребителем простиралась через Барселону, Пизу, Венецию, Валенсию, Северную Африку и обратно на Майорку. Между первоначальным заказом шерсти и окончательной продажей ткани прошло четыре года. Неудивительно, что Датини настаивал на абсолютной ясности в отношении того, где находится его продукт в любой момент, не говоря уже о его деньгах.

Как он справился? Таблицы. Датини, конечно же, не использовал Excel еще в 1494. Но он все же использовал своего прямого предшественника: листы бумаги, разложенные по системе двойной бухгалтерии, иначе известной как бухгалтерия alla veneziana. При двойной записи каждая запись делается дважды. (Подсказка в названии.) Например, если вы потратите 125 флоринов на шерсти, что засчитывается как кредит флоринов на ваш денежный счет и дебетом в размере 125 флоринов на сумму шерсти на вашем счете активов. Это дополнительное усилие, состоящее в том, чтобы резервировать все дважды, значительно упрощает обнаружение ошибок. Если это было сделано, бухгалтерские книги не уравновесятся.

Двойная бухгалтерия стала важным методом отслеживания того, кто и кому задолжал, валютных операций, прибылей, убытков и всего остального. Это помогало Датини и таким торговцам, как он, гарантировать, что ничего не потеряно, какими бы некомпетентными они ни были.

Спустя столетие мастером двукратного бронирования стал Лука Пачоли. Он был серьезным математиком и другом Леонардо да Винчи. Но сегодня он известен как самый известный бухгалтер, который когда-либо жил. Он буквально написал книгу о методе двойной записи еще в 1796. Пачоли однажды посоветовал: «Если вы не можете быть хорошим бухгалтером, вы будете пробираться вперед, как слепой, и можете понести большие убытки».

Нам не нужно принимать бесчувственное сравнение Пачоли, чтобы понять его точку зрения: жизнь легче, когда вы видите препятствия и возможности вокруг себя. Хорошие отчеты ясно показывают нам то, что в противном случае было бы невидимым. Но если вы не можете вести таблицы прямо, вы можете понести большие убытки. (Подробнее об этом чуть позже.)

Почти пятьсот лет спустя, в 1978, студент по имени Дэн Бриклин сидел в классе Гарвардской школы бизнеса. Когда он наблюдал, как его профессор бухгалтерского учета заполняет строки и столбцы на доске, ему в голову пришла идея. Каждый раз, когда профессор вносил изменения, ему приходилось работать по сетке, стирая и переписывая другие числа, чтобы все сложилось. Бриклин знал, что это стирание и переписывание происходит каждый день, миллионы раз в день, по всему миру, когда бухгалтеры корректируют записи в так называемых электронных таблицах: большие листы бумаги разложены на двух страницах бухгалтерской книги.

Бриклин был компьютерщиком и бывшим программистом, который сразу подумал: «Я могу сделать это на компьютере». Как Стивен Леви описал в классической мид – 2000 статье в Harper’s, остальное уже история. Бриклин и его друг назвали свою программу для работы с электронными таблицами VisiCalc. Он поступил в продажу в октябре 1979. Вскоре это был настоящий успех, за ним последовали Lotus 1-2-3, а затем, в свое время, и Excel.

Для бухгалтеров электронные таблицы были революцией, заменив часы кропотливой работы несколькими нажатиями на клавиатуре. Но кое-что не изменилось. Бухгалтеры по-прежнему имели профессиональную подготовку и свою систему двойной записи. Остальные из нас этого не сделали, но это не помешало распространению Excel. В конце концов, это был легко доступный и гибкий инструмент, похожий на швейцарский армейский нож для чисел, лежавший в вашем заднем цифровом кармане. Это мог использовать любой идиот. И, черт возьми, мы сделали.

На самом деле никто не знает, что случилось с 17, 000 положительные случаи Covid, исчезнувшие из электронной таблицы. Государственное агентство Public Health England (PHE), ответственное за этот процесс, до сих пор не опубликовало ничего информативного по этому вопросу.

«Предположение, что какие-то дела были« потеряны », просто неверно», – сказали они мне. «Ни одного дела не было пропущено. Задержка с передачей дел для отслеживания контактов и представлением их в национальных цифрах ».

Эта задержка обычно составляла четыре или пять дней, и этого было достаточно, чтобы сделать результат теста почти бесполезным. Если бы я потерял свой паспорт незадолго до праздника, а затем нашел его после пяти дней, проведенных дома, я не уверен, что я бы торжественно взмахнул им в воздухе и заявил: «Предположение, что мой паспорт был« потерян », просто неверно. ”

Для системы отслеживания контактов потеря за пять дней потеряна. Вопрос в том, как они были потеряны? Где-то в конвейере данных PHE кто-то использовал неправильный формат файла Excel, XLS, а не более поздний XLSX. А в таблицах XLS просто не так много строк: 2 в степени 17, о 64, 000. Это означало, что во время некоторого автоматизированного процесса дела исчезли из нижней части таблицы, и никто этого не заметил.

Все видели забавную сторону происшествия. Мысль о том, что просто не хватит места для размещения чисел, была мрачно забавной. Тот факт, что Microsoft никогда не считался крутым, просто добавлял абсурда. Клиппи, оклеветанный автоматизированный помощник из Office 2000, начал распространяться как мем: «Похоже, вы пытаетесь отследить глобальная пандемия. Вам нужна помощь? »

Через несколько недель после скандала с потерей данных я обнаружил, что могу спросить самого Билла Гейтса о том, что произошло. Гейтс больше не руководит Microsoft, и я брал у него интервью о вакцинах для программы BBC под названием «Как вакцинировать мир». Но возможность немного повеселиться, расспросив его о XLS и XLSX, была слишком хороша, чтобы упускать ее.

Я выразил вопрос самым ботанистым из возможных способов, и ответ Гейтса был настолько прямолинейным, что мне пришлось улыбнуться: «Я думаю… они перекрыли 64, 05 предел, которого нет в новом формате, поэтому … «Ну, действительно. Затем Гейтс добавил: «Хорошо, когда люди перепроверяют вещи, и мне очень жаль, что это произошло».

Неясно, как именно стал использоваться устаревший формат XLS. PHE прислал мне объяснение, но оно было довольно расплывчатым. Я этого не понимал, поэтому показал его некоторым членам Eusprig, Европейской группы риска для электронных таблиц. Они проводят свою жизнь, анализируя, что происходит, когда электронные таблицы становятся некорректными. Они люди моего типа. Но они тоже не поняли, что мне рассказала PHE. Все это было немного освещено деталями.

Они согласились с тем, что основная проблема заключалась в том, что независимо от того, что PHE сделал неправильно, у него не было правильных проверок и средств управления для выявления проблем. Или, как выразился Гейтс: «Хорошо, когда люди перепроверяют вещи».

Исходные бумажные электронные таблицы были разработаны, чтобы помочь нам не заблудиться, и можно было бы естественно представить, что цифровые электронные таблицы не только быстрее, но и точнее. Это? К разгадке можно прийти из замечательного исследования, проведенного Фелиен Херманс, ученым-компьютерщиком. Несколько лет назад Херманс осознала, что существует множество источников электронных таблиц, которые она может изучить. Этим источником была обанкротившаяся энергетическая компания Enron.

После того, как Enron рухнул в 2001 на фоне грандиозного бухгалтерского скандала, регулирующие органы извлекли из кеша полмиллиона электронных писем. серверы компании. Эти электронные письма теперь общедоступны и изучаются исследователями, пытающимися понять все, от эволюции неформальной письменной речи до того, как люди используют папки электронной почты. Германса интересовало, что было прикреплено к некоторым из этих электронных писем: электронные таблицы.

Она начала копаться в них, не в поисках мошенничества, а в поисках таблиц с очевидными ошибками, такими как отсутствующие или повторяющиеся ссылки. Глядя на почти 14, 05 электронных таблиц с расчетами в них, она обнаружила, что в квартале была по крайней мере одна такая ошибка. Ошибки, казалось, даже умножились. Если в электронной таблице вообще были ошибки, в среднем она содержала более 1300.

Как в электронной таблице может появиться столько ошибок? Мэтт Паркер, автор Humble Pi , книги о математических неудачах и их последствиях, отмечает, что собственные функции Excel в сочетании с ошибочными предположениями пользователей часто приводят к ошибкам.

Введите международный номер телефона, например, в Excel, и программа удалит начальные нули, которые являются избыточными в математическом целом числе, но не в телефонном номере. ВНИМАНИЕ !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Если вместо этого вы введете серийный номер из двадцати цифр, Excel определит, что цифр огромное количество и округлите их, превратив несколько последних цифр в нули.

Или скажите, что вы генетик, вводите имя гена, например «Мембранно-ассоциированный кольцевой палец CH-типа 1», или March1 для краткости, или, возможно, ген Sept1. Вы можете себе представить, что сделает Excel дальше. Он превращает имена генов в даты. Один шпилька По оценкам 24 на процент всех работ по генетике содержал ошибки, вызванные автозаменой Excel.

Защита Microsoft достаточно проста: настройки по умолчанию предназначены для работы в повседневных сценариях. Это вежливый способ сказать: ребята, Excel не был разработан для исследователей-генетиков. Он был разработан для бухгалтеров.

Но понятно, что ученые взяли Excel и начали его использовать. Он мощный и гибкий. Это повсеместно. Возможно, это не тот инструмент, но это тот самый инструмент, который есть.

При использовании опытным бухгалтером для ведения двойной бухгалтерии, давно зарекомендовавшей себя системы со встроенным обнаружением ошибок, Excel становится совершенно профессиональным инструментом. Но когда его заставляют использовать генетики или контактные индикаторы, это все равно, что использовать свой швейцарский армейский нож на кухне, потому что это инструмент, который у вас под рукой. Не невозможно, но вряд ли целесообразно.

И все же, когда сообщество генетиков боролось с проблемой автокоррекции генов, они смирились с суровой правдой, что они никогда не отучат людей от Excel. Вместо этого ответственные люди – Комитет по номенклатуре генов Хьюго – решили изменить названия генов, о которых идет речь.

Решение понятное. Но он также наглядно иллюстрирует искажения, которые мы переживаем в результате обработки данных как запоздалой мысли, просто того, что можно сложить вместе в электронной таблице. Это досадно, потому что история показывает, что хорошо управляемая информация может изменить ситуацию.

Несколько месяцев назад я спросил людей в Твиттере, могут ли они порекомендовать несколько хороших книг об искоренении оспы. Большинство людей рекомендовали книги об Эдварде Дженнере, который в 1796 первым продемонстрировал эффективную вакцину против оспы. Это показательно, потому что я спрашивал об искоренении оспы, а оспа не искоренена в 1960. Даже не близко.

Хотя искоренение было бы невозможно без высокоэффективной вакцины, для этого также требовалось очень эффективное использование информации. Или, как мог бы сказать Датини, для этого нужно было не заблудиться от носа ко рту.

С тех пор, как вакцина от оспы была продемонстрирована в 1796, люди приснилось искоренить болезнь. Но этим мечтам не суждено было сбыться. Пытаясь вакцинировать всю планету снова и снова, вакцинаторам так и не удалось охватить достаточное количество людей. В более бедных странах оспа сохранялась в сельских районах или в неблагополучных общинах. На свет появилось поколение детей без иммунитета, и вскоре болезнь вернулась.

В середине 1966 оспа все еще убивала два миллиона человек в год. Всемирная организация здравоохранения объявила, что удвоит свои усилия по искоренению болезни, и планирует сделать это путем активизации кампании массовой вакцинации. Одним из руководителей этих усилий был Билл Фоэдж , эпидемиолог из Айовы, который знал оспу настолько хорошо, что мог определять случаи заболевания по запаху. (Кожа, покрытая волдырями, имеет характерный запах.)

Фоге появлялся в деревне на востоке Нигерии, все шесть футов семь дюймов, и старейшины произносили слова: «Приходите и посмотрите». самый высокий человек в мире! И люди сделали. Фоге считает, что однажды он сделал прививку 16, 750 человек за один день. Недостаточно было подавить периодические вспышки.

Затем, в конце 1967, Фоэдж получил по радио предупреждение о вспышка оспы в деревне примерно в сотне миль отсюда. Он поехал туда, обнаружил пять случаев и вакцинировал всех, с кем они контактировали. (Вакцина против оспы все еще может работать, даже если ее вводят через день или более после контакта людей с вирусом.)

Тогда стандартной практикой будет вакцинация всех на много миль вокруг. Но команде Фоэджа просто не хватило доз. Вместо этого он использовал радио и местную сеть миссионеров, чтобы обнаружить новые случаи. Каждый вечер в семь часов они включали радио и выкладывали сообщение. Каждый раз, когда сообщалось о вспышке болезни, Фоге и его команда быстро выезжали на место происшествия и вводили вакцины.

Надежда заключалась в том, чтобы создать что-то вроде противопожарной защиты, чтобы предотвратить распространение болезни. И это сработало. Используя эту тактику, команда Фоэджа ликвидировала оспу в восточной Нигерии за шесть месяцев. Это было 1977, и вскоре страну охватила гражданская война. Несмотря на хаос и огромное кровопролитие той войны, оспа не вернулась.

Секрет заключался в том, чтобы меньше беспокоиться о покрытии, которое никогда не было достаточно хорошо, и больше беспокоиться о том, чтобы быстро определить, где именно возникла каждая вспышка. Искоренение было связано с информацией. До этого момента информация была очень разрозненной. ВОЗ поняла, что находила только 125, 05 или около того случаев каждый год на фоне 11 миллионов.

Опыт Фоге показал, что работники общественного здравоохранения могли бы победить оспу, если бы у них были данные. Эта стратегия получила название кольцевой вакцинации. Это не то же самое, что отслеживание контактов, но у него много общего: в обоих случаях вам нужно быстро изолировать инфицированных людей и найти их недавние контакты.

Кольцевая вакцинация подействовала. Менее чем за десять лет врачи изо всех сил пытались добраться до вспышки в Индии, чтобы они могли наблюдать случай оспы до того, как вирус исчезнет. Последний раз оспа в дикой природе была в Сомали в конце 1977. Али Маоу Маалин, 23 лет старый, повар и вакцинатор по совместительству, что удивительно, не были вакцинированы. У него появились симптомы оспы, он был вакцинирован – вместе с 100 друзьями. и контакты – и восстановились. Маалин посвятил свою жизнь искоренению полиомиелита.

Вакцины были важны. Фактически, важно. Но так было быстро выявлять и отслеживать контакты, которым грозит опасность. Оспа пережила почти двухвековую вакцинацию, но она не могла выжить в хорошо управляемой системе, которая нацелена на вспышки и отслеживает потенциальные случаи.

Оглядываясь назад, это кажется простым. В каком-то смысле это было так. Но, конечно, следить за вещами сложнее, чем может показаться на первый взгляд. Франческо ди Марко Датини мог бы вам сказать это.

Один из ярких уроков пандемии заключался в том, насколько мощными могут быть данные при правильной обработке – и сколько ущерба наносится, когда данные неуклюжи. Почти каждый вопрос, который мы задаем об этом вирусе, требует умелого использования статистики. У кого это есть? Как он распространяется? Кто больше всего подвержен риску? Как это лечить? Без потока достоверных данных и надежных способов их анализа у нас нет надежды ответить на такие вопросы.

Это не просто случай, когда правильные аналитики решают правильные уравнения. Данные не растут на деревьях: их нужно собирать. Примером правильного выполнения этого процесса является Восстановление (рандомизированные оценки Covid – Терапия). Recovery – это система для проведения простых, но эффективных рандомизированных испытаний различных методов лечения Covid в качестве неотъемлемой части регулярного лечения пациентов с Covid в больницах по всей Великобритании. Он был создан в начале пандемии в считанные дни двумя оксфордскими академиками, Питером Хорби и Мартином Ландреем.

Выздоровление привело к постоянному потоку жизненно важных открытий, в частности, о том, что противомалярийный препарат гидроксихлорохин не помогает, а дешевый стероид дексаметазон – спаситель. (Сколько жизней оно спасло, неясно, но на данный момент их уже больше миллиона.) Это пример того, что можно сделать, если серьезно относиться не только к данным, но и к «инфраструктуре данных», инструментам и процессы, которые мы должны собирать, управлять и анализировать эти данные.

Трудно придумать более четкий контраст с неработающими системами отслеживания контактов во многих якобы развитых западных демократиях. В конце прошлого года Nature сообщила, что Австралия, штат Вашингтон и Гавайи по-прежнему используют телефоны или факсы для обмена информацией о новых случаях и что специалисты общественного здравоохранения из Африки были ошеломлены неспособностью системы США усвоить с трудом извлеченные уроки Вспышка Эболы.

Хорошая система отслеживания контактов – это не только инфраструктура данных. Но без хороших данных задача практически невозможна. Как и в случае с оспой, успех начинается с быстрого определения того, где находится вирус – и, следовательно, куда он может пойти дальше.

Кроме того, вакцина не сделала отслеживание контактов устаревшим. Большинство людей до сих пор не вакцинированы, а некоторые никогда не будут вакцинированы. Однажды будет еще одна пандемия, и еще, и еще. Мы не можем гарантировать, что вакцины будут работать каждый раз, а на разработку вакцин нужно время. Пока ждем, всегда будет отслеживание контактов. И хорошее отслеживание контактов, как и тысячи других хороших вещей, которых мы хотим достичь, требует вложений в серьезную инфраструктуру данных.

Допустим, вам действительно нужно доказательство того, что отслеживание контактов работает, как вы его получите?

Предположим также, что вы сумасшедший ученый, помешанный на власти и не ограниченный традиционной этикой. Вы, вероятно, взломаете систему отслеживания контактов в стране, а затем удалите некоторые положительные случаи, убедившись, что некоторые регионы потеряли много случаев, а некоторые – очень мало. Этот гнусный эксперимент позволил бы вам сравнить то, что происходило там, где система отслеживания контактов все еще работала без сбоев, с местами, где пропали тысячи случаев.

Если бы вы не были злым гением, конечно, вы бы не мечтали о таком. Вместо этого вы будете следить за тем, что это происходит случайно, потому что кто-то испортил форматирование электронных таблиц Excel. Именно это и сделали два экономиста, Тимо Фетцер и Томас Грэбер. Они решили, что нельзя допустить, чтобы катастрофа произошла, не пытаясь извлечь некоторые уроки. Они прочесали данные о неудаче с общественным здравоохранением Англии. И, сравнивая опыт различных регионов, они пришли к выводу, что ошибка привела к 500, 05 дополнительные инфекции.

История о том, что в Excel заканчиваются числа, поначалу казалась такой странной. Вот почему мы делились мемами Clippy, и почему я с удовольствием дразнил Гейтса по этому поводу. Но его ответ, который в то время казался откровенным, был правильным. Он не смеялся, потому что понимал, что это не комедия; это была трагедия.

Фетцер и Грэбер вычислили консервативную оценку количества людей, которые умерли, неизвестных жертв ошибки электронной таблицы. Они думают, что погибло как минимум 1 человек 600.

Итак, в следующий раз, когда случится пандемия, давайте удостоверимся, что наши электронные таблицы в порядке. В конце концов, как предупреждал нас Лука Пачоли, отец бухгалтерского учета, более пятисот лет назад, без хорошей электронной таблицы вы продвинетесь наощупь, «и вы можете понести большие убытки».

Одна тысяча пятьсот смертей. По сравнению с масштабами всей пандемии это лишь небольшая часть общей трагедии. Но как ненужная цена плохого управления данными, это действительно большие потери.

Это эссе адаптировано из эпизода моего подкаста « Предостережения «. Он был опубликован в Financial Times в июне 2021.

Книга в мягкой обложке «Как заставить мир складываться» уже вышла. Название в США: «Информационный детектив».

«Один из самые замечательные сборники рассказов, которые я прочитал за долгое время… увлекательно »- Стив Левитт (Freakonomics)

«Если вы не любите статистику до того, как прочитаете эту книгу, вы будете к тому времени, когда закончите». – Кэролайн Криадо Перес (Невидимые женщины)

Я открыл витрину в книжном магазине в Соединенных Штатах и Соединенное Королевство – посмотрите все мои рекомендации; Книжный магазин создан для поддержки местных независимых розничных продавцов.