Als führende Persönlichkeiten in einem sich entwickelnden Bereich müssen sich Data Scientists oft mit einer frustrierend schlüpfrigen Frage auseinandersetzen: Was genau ist Data Science und wozu ist sie gut?
Alfred Spector ist Gastwissenschaftler am MIT Department of Electrical Engineering and Computer Science (EECS), ein einflussreicher Entwickler von verteilten Computersystemen und -anwendungen und ein erfolgreicher Tech-Manager bei Unternehmen wie IBM und Google. Zusammen mit drei Co-Autoren – Peter Norvig von der Stanford University und Google, Chris Wiggins von der Columbia University und Die New York Times, und Jeannette M. Wing bei Columbia – Spector veröffentlichte kürzlich „Data Science im Kontext: Grundlagen, Herausforderungen, Chancen“ (Cambridge University Press), die einen breiten, konversationellen Überblick über das weitreichende Feld bietet, das den Wandel der Sektoren vorantreibt, von der Gesundheitsversorgung über das Transportwesen bis hin zum Handel und zur Unterhaltung.
Hier spricht Spector über das datengesteuerte Leben, was einen guten Datenwissenschaftler ausmacht und wie sein Buch auf dem Höhepunkt der Covid-19-Pandemie entstand.
Q: Eines der häufigsten Schlagworte, das Amerikaner hören, ist „datengesteuert“, aber viele wissen vielleicht nicht, was dieser Begriff bedeuten soll. Können Sie es für uns auspacken?
EIN: Datengesteuert bezieht sich allgemein auf Techniken oder Algorithmen, die auf Daten basieren – sie bieten entweder Einblicke oder ziehen Schlussfolgerungen, sagen wir eine Empfehlung oder eine Vorhersage. Die Algorithmen treiben Modelle an, die zunehmend in das Gefüge von Wissenschaft, Wirtschaft und Leben eingewoben werden, und sie liefern oft hervorragende Ergebnisse. Die Liste ihrer Erfolge ist wirklich zu lang, um sie überhaupt aufzulisten. Eine Sorge ist jedoch, dass die Verbreitung von Daten es uns als Studenten, Wissenschaftlern oder einfach nur Mitgliedern der Öffentlichkeit leicht macht, falsche Schlussfolgerungen zu ziehen. Nur ein Beispiel: Unsere eigenen Bestätigungsverzerrungen machen uns dazu anfällig zu glauben, dass einige Datenelemente oder Erkenntnisse etwas „beweisen“, von dem wir bereits glauben, dass es wahr ist. Darüber hinaus neigen wir oft dazu, kausale Beziehungen zu sehen, bei denen die Daten nur eine Korrelation zeigen. Es mag paradox erscheinen, aber Data Science macht das kritische Lesen und Analysieren von Daten umso wichtiger.
Q: Was macht Ihrer Meinung nach einen guten Data Scientist aus?
EIN: [In talking to students and colleagues] Ich betone optimistisch die Macht der Datenwissenschaft und die Bedeutung des Erwerbs der rechnerischen, statistischen und maschinellen Lernfähigkeiten, um sie anzuwenden. Aber ich erinnere die Schüler auch daran, dass wir verpflichtet sind, Probleme gut zu lösen. In unserem Buch Chris [Wiggins] paraphrasiert Danah Boyd, der sagt, dass eine erfolgreiche Anwendung der Datenwissenschaft nicht nur ein technisches Ziel erreicht, sondern tatsächlich das Leben verbessert. Genauer gesagt ermahne ich die Praktizierenden, eine echte Lösung anzubieten zu Problemen, oder aber deutlich machen, was wir nicht lösen, damit die Leute die Grenzen unserer Arbeit sehen. Wir sollten äußerst klar sein, damit wir keine schädlichen Ergebnisse erzielen oder andere zu falschen Schlussfolgerungen verleiten. Ich erinnere die Menschen auch daran, dass wir alle, einschließlich Wissenschaftler und Ingenieure, Menschen sind und den gleichen menschlichen Schwächen unterliegen wie alle anderen, wie zum Beispiel verschiedenen Vorurteilen.
Q: Sie sprechen in Ihrem Buch über Covid-19. Während einige Kurzstreckenmodelle für die Sterblichkeit während des Herzens der Pandemie sehr genau waren, stellen Sie fest, dass Langstreckenmodelle keine der vier großen geotemporalen Covid-Wellen des Jahres 2020 in den Vereinigten Staaten vorhersagen konnten. Glauben Sie, dass Covid eine einzigartig schwierige Situation zu modellieren war?
EIN: Covid war aufgrund vieler Faktoren langfristig besonders schwer vorherzusagen – das Virus änderte sich, das menschliche Verhalten änderte sich, politische Einheiten änderten ihre Meinung. Außerdem hatten wir (vielleicht aus guten Gründen) keine detaillierten Mobilitätsdaten und es fehlte uns vor allem im ersten Jahr an einem ausreichenden wissenschaftlichen Verständnis des Virus.
Ich denke, es gibt viele andere Bereiche, die ähnlich schwierig sind. Unser Buch zeigt viele Gründe auf, warum datengesteuerte Modelle möglicherweise nicht anwendbar sind. Vielleicht ist es zu schwierig, die erforderlichen Daten zu erhalten oder zu speichern. Vielleicht sagt die Vergangenheit die Zukunft nicht voraus. Wenn Datenmodelle in Situationen auf Leben und Tod verwendet werden, sind wir möglicherweise nicht in der Lage, sie ausreichend zuverlässig zu machen; Dies gilt insbesondere, da wir alle Motivationen gesehen haben, die schlechte Akteure haben, um Schwachstellen zu finden. Während wir also weiterhin Data Science anwenden, müssen wir alle Anforderungen, die wir haben, und die Fähigkeit des Bereichs, sie zu erfüllen, durchdenken. Sie stimmen oft überein, aber nicht immer. Und da die Datenwissenschaft versucht, Probleme in immer wichtigeren Bereichen wie der menschlichen Gesundheit, Bildung, Verkehrssicherheit usw. zu lösen, wird es viele Herausforderungen geben.
Q: Lassen Sie uns über die Kraft einer guten Visualisierung sprechen. Sie erwähnen die beliebte Website Baby Name Voyager aus den frühen 2000er Jahren als eine Website, die Ihre Ansicht über die Bedeutung der Datenvisualisierung geändert hat. Erzählen Sie uns, wie das passiert ist.
EIN: Diese Website, die kürzlich als die wiedergeboren wurde Name Grapher, hatte zwei Eigenschaften, die ich für brillant hielt. Erstens hatte es eine wirklich natürliche Benutzeroberfläche, in der Sie die Anfangsbuchstaben eines Namens eingeben, und es zeigt ein Häufigkeitsdiagramm aller Namen, die mit diesen Buchstaben beginnen, und ihre Popularität im Laufe der Zeit. Zweitens ist es so viel besser als eine Tabelle mit 140 Spalten, die Jahre und Zeilen darstellen, die Namen darstellen, obwohl es keine zusätzlichen Informationen enthält. Es gab auch sofortiges Feedback, da sich sein Anzeigediagramm während der Eingabe dynamisch änderte. Für mich zeigte dies die Kraft einer sehr einfachen Transformation, die korrekt durchgeführt wird.
Q: Was wollten Sie und Ihre Co-Autoren anbieten, als Sie mit der Planung von „Data Science In Context“ begannen?
EIN: Wir stellen die heutige Datenwissenschaft als ein Gebiet dar, das bereits enorme Vorteile gebracht hat, das noch mehr Zukunftschancen bietet, aber eines, das ebenso große Sorgfalt in seiner Nutzung erfordert. Unter Bezugnahme auf das Wort „Kontext“ im Titel erklären wir, dass die ordnungsgemäße Verwendung von Data Science die Besonderheiten der Anwendung, die Gesetze und Normen der Gesellschaft, in der die Anwendung verwendet wird, und sogar den Zeitraum ihrer Bereitstellung berücksichtigen muss. Und, was für ein MIT-Publikum wichtig ist, die Praxis der Datenwissenschaft muss über die Daten und das Modell hinausgehen und die Ziele einer Anwendung, ihre Sicherheits-, Datenschutz-, Missbrauchs- und Ausfallsicherheitsrisiken und sogar die Verständlichkeit, die sie Menschen vermittelt, sorgfältig berücksichtigen . Innerhalb dieses weitläufigen Kontextbegriffs erklären wir schließlich, dass Datenwissenschaftler auch ethische Kompromisse und gesellschaftliche Auswirkungen sorgfältig berücksichtigen müssen.
Q: Wie haben Sie während des gesamten Prozesses den Fokus gehalten?
EIN: Ähnlich wie bei Open-Source-Projekten spielte ich sowohl die Rolle des koordinierenden Autors als auch die Rolle des Gesamtbibliothekars für das gesamte Material, aber wir alle haben bedeutende Beiträge geleistet. Chris Wiggins kennt sich sehr gut aus die Belmont-Prinzipien und angewandte Ethik; Er war der Hauptverantwortliche für diese Abschnitte. Peter Norvig, als Co-Autor von ein Bestseller-KI-Lehrbuch, der insbesondere an den Abschnitten Modellbau und Kausalität beteiligt war. Jeannette Wing hat sehr eng mit mir an unserer Sieben-Elemente-Analyse-Rubrik gearbeitet und erkannt, dass eine Checkliste für Praktiker der Datenwissenschaft am Ende einer der wichtigsten Beiträge unseres Buches sein würde.
Aus praktischer Sicht haben wir das Buch während Covid geschrieben, indem wir ein großes gemeinsames Google-Dokument mit wöchentlichen Videokonferenzen verwendet haben. Erstaunlicherweise trafen Chris, Jeannette und ich uns überhaupt nicht persönlich, und Peter und ich trafen uns nur einmal – wir saßen draußen auf einer Holzbank auf dem Stanford-Campus.
Q: Das ist eine ungewöhnliche Art, ein Buch zu schreiben! Empfehlen Sie es?
EIN: Es wäre schön gewesen, mehr soziale Interaktion zu haben, aber ein gemeinsames Dokument, zumindest mit einem koordinierenden Autor, hat für etwas bis zu dieser Größe ziemlich gut funktioniert. Der Vorteil ist, dass wir immer eine einzige, kohärente Textbasis hatten, ähnlich wie ein Programmierteam zusammenarbeitet.
Dies ist eine komprimierte, bearbeitete Version von a längeres Vorstellungsgespräch das ursprünglich auf der MIT EECS-Website erschien.