Data Science in der Praxis (eBook)
360 Seiten
Rheinwerk Computing (Verlag)
978-3-8362-8464-6 (ISBN)
Der ideale Einstieg in Data Science für Praktiker! Ob mit oder ohne Mathematikkenntnisse - Sie bekommen hier den Rundumblick, den Sie für Ihre Projekte brauchen. So heben Sie den Schatz, den Daten darstellen können, wenn man sie richtig befragt. Sie lernen die einschlägigen Analysemethoden kennen, bekommen eine Einführung in die Programmiersprache R und erfahren, wie Sie maschinelles Lernen einsetzen. Und zwar inklusive dazugehöriger Werkzeuge wie Notebooks, die die Data-Science-Programmierung heutzutage so zugänglich machen.
Und weil es mit der Technik allein nicht getan ist, geht das Buch auch auf Probleme der Projektdurchführung ein, beleuchtet verschiedene Anwendungsfelder und vergisst auch nicht, ethische Aspekte anzusprechen.
Mit vielen Beispielen, Hinweisen für den Fehlerfall, Entscheidungshilfen und weiteren Praxistipps.
Aus dem Inhalt:
- Erste Schritte mit R und RStudio
- Grundbegriffe der Statistik
- Vorbereitung: Daten reinigen und transformieren
- k-Means Clustering
- Lineare und nichtlineare Regression
- Vorhersagen, Clustering, Klassifizierung
- Tipps und Werkzeuge für alle Projektphasen
- Ihre Anwendung als REST-API bereitstellen
- KI und Maschinelles Lernen einsetzen
- Anomalieerkennung, Warenkorbanalyse und viele weitere Anwendungsfälle
- Machine Learning: Modelle richtig trainieren
Tom Alby ist Chief Digital Transformation Officer bei dem Kreditversicherer »Euler Hermes« für Deutschland, Österreich und die Schweiz. Er unterrichtet Datenanalyse als Lehrbeauftragter an der Hochschule für Angewandte Wissenschaften Hamburg (HAW).
2 Machine Learning, Data Science und künstliche Intelligenz
»I believe that at the end of the century the use of words and general educated opinion will have altered so much that one will be able to speak of machines thinking without expecting to be contradicted.« (Alan Turing 1950)
Der Begriff Data Science wurde zwar schon in den 1960er-Jahren geprägt, hatte aber zunächst nichts mit künstlicher Intelligenz zu tun, die wenige Jahre zuvor zumindest konzeptionell erste Popularität erfuhr. Die Grundlagen für Machine Learning entstanden schon viel früher und legten den Grundstein für viele Konzepte der künstlichen Intelligenz, basierten zunächst aber einfach auf statistischen Modellen. Wie sich die Bereiche genau unterscheiden, das ist das Thema dieses Kapitels.
2.1 Aus der Geschichte lernen – alles nur ein Hype?
Wer den Begriff »künstliche Intelligenz« (KI) in den Mund nimmt, riskiert schon den Vorwurf, sich eines Buzz Words zu bedienen. Kein Wunder, denn die Geschichte der künstlichen Intelligenz ist bis heute von vielen Enttäuschungen gezeichnet. Wir untersuchen in diesem Kapitel, ob es dieses Mal anders sein wird.
2.1.1 Daten und Maschinen vor den Anfängen der KI
Daten sind kein neuzeitliches Phänomen. Schon vor Tausenden von Jahren wurden Daten gesammelt, und sei es nur, um etwas zu zählen und das Ergebnis zu speichern. Bauern, die ihr Vieh zählen wollten, nutzten Steine, für jedes Tier einen, und legten diese in einen Beutel, um zu einem späteren Zeitpunkt nachzählen zu können. Auch Menschen wurden gezählt: Die berühmteste aller Volkszählungen im christlichen Abendland wird schon in der Bibel erwähnt, und alle hatten das gleiche Ziel, nämlich das Volk zu schätzen, um die potenziellen Steuereinnahmen berechnen zu können. Man könnte also behaupten, dass Volkszählungen schon früh einen negativen Beigeschmack für die Betroffenen hatten. Zu dieser Zeit war der Abakus bereits als Rechenmaschine verbreitet.
Im 17. Jahrhundert begannen an verschiedenen Orten Arbeiten an mechanischen Rechenmaschinen, hier seien Schickard, Pascal und Leibnitz erwähnt. 1646 wurde der Begriff Data zum ersten Mal im Englischen für gegebene Quantitäten in mathematischen Problemen genutzt.[ 6 ]
Was bedeutet das Wort »Daten« überhaupt?
Data ist von dem lateinischen Wort dare (geben) abgeleitet, die Konnotation änderte sich im Laufe des 18. Jahrhunderts von dem Gegebenen, also einem Fakt, in das Ergebnis eines Experiments oder einer Kalkulation. Das Wort Datei ist ein Kofferwort aus den Wörtern Daten und Kartei. Auch das Wort Datum stammt von dare ab.
Der Traum von einer Maschine, die selbstständig denken kann, befeuerte schon früh die Menschen und sorgte auch für den Erfolg des Schachtürken, einer 1769 erbauten Maschine, die wie ein Schachroboter zu funktionieren schien. Tatsächlich steckte in der Maschine aber ein kleinwüchsiger Mensch. Amazon ließ sich von dem Schachtürken dazu inspirieren, den Crowdsourcing-Dienst von Amazon Mechanical Turk zu nennen.
Das Arithmomètre von Charles Xavier Thomas von 1820 war die erste in Serienproduktion hergestellte und weitverbreitete Rechenmaschine, sie basierte auf der Leibnitzschen Maschine. Wenige Jahre zuvor waren die ersten Maschinen entstanden, die automatisch Aufgaben ausführen konnten. Der Jacquard-Webstuhl funktionierte mit dem Prinzip einer Lochkarte, auf der ein Muster »vorprogrammiert« war. Man könnte das Muster auf den Lochkarten auch als Datensatz verstehen, zumindest aber wurden Software und Hardware sozusagen voneinander getrennt. Durch den Jacquard-Webstuhl konnte schneller, aber auch mit weniger Personal produziert werden, was dazu führte, dass die bisher traditionell arbeitenden Weber und Weberinnen um ihre Existenz fürchteten. Es ist also nicht das erste Mal, dass Arbeitsplätze durch Maschinen bedroht sind oder sogar wegfallen. Denn genau dies wird auch durch die Einführung von KI-Systemen befürchtet.
Abbildung 2.1 Eine Hollerith-Lochkarte aus dem 19. Jahrhundert
Die Volkszählung in den USA um 1890 markierte einen Wendepunkt in der Geschichte der Datenverarbeitung, da das Prinzip der Lochkarten das erste Mal verwendet wurde, um die Datenauszählung zu beschleunigen. Ein Beispiel für eine Lochkarte können Sie in Abbildung 2.1 bewundern.
Der Ursprung von IBM
Der deutschstämmige Hermann Hollerith hatte seine Tabelliermaschine so entwickelt, dass die Auswertung der Daten innerhalb von Wochen möglich war, anstatt mehrerer Jahre, die es zuvor gedauert hatte. Aus der Firma Hollerith entstand später IBM, eine Abkürzung für International Business Machines. Neben Tabelliermaschinen, die Lochkarten auswerten konnten, waren Bürogeräte wie zum Beispiel Locher im Angebot.
Thomas Watson Senior, der CEO, soll angeblich gesagt haben, dass es auf der ganzen Welt nur einen Bedarf an fünf Computern geben soll. Tatsächlich konnte aber nicht nachgewiesen werden, dass er das tatsächlich gesagt hat. Sein Sohn Thomas Watson Jr. schien allerdings stärker von dem Potenzial der Computer überzeugt zu sein und veränderte IBM damit nachhaltig. Sein Buch »Der Vater, der Sohn und die Firma« beschreibt, wie hoch das Risiko war, das der Junior damals mit der Firma einging.
Tabelliermaschinen wurden bis zum Anfang der 1960er-Jahre eingesetzt; zu diesem Zeitpunkt waren Lochbänder bereits schneller, die wiederum von der magnetischen Datenaufzeichnung überholt wurden.
In den folgenden Jahrzehnten nach Hollerith beschleunigte sich die Entwicklung. Konrad Zuse baute in der zweiten Hälfte der 1930er-Jahre die Z1, das erste »elektronische Gehirn« basierend auf Relais, die im Jahr 1943 folgende Z3 gilt als der erste funktionsfähige Computer der Welt. Auf Basis der Arbeiten von Turing während des Zweiten Weltkriegs, die zum Entschlüsseln der deutschen Wehrmacht-Nachrichten führten, entstand 1946 der ENIAC, der erste digitale programmierbare Röhrencomputer (siehe Abbildung 2.2).
Abbildung 2.2 Der ENIAC, Quelle: US Army (Public Domain)
In den 1950er-Jahren kamen die ersten kommerziellen Computer auf den Markt, unter anderem der UNIVAC I und der TRADIC; Letzterer war der erste Computer, der komplett mit Transistoren bestückt war anstatt mit Röhren. Ebenfalls in diesem Jahrzehnt wurde die IBM 1401 vorgestellt, die als Urvater der modernen EDV gilt. Die monatliche Miete für so einen Rechner lag inflationsbereinigt bei 23500 Dollar, ein saftiger Preis, der aber trotzdem vielen Firmen Produktivitätsgewinne bescherte. DEC stellte in den 60er-Jahren die PDP-8 für weniger als 20000 Dollar vor. Inflationsbereinigt sind das heute immer noch knapp 180000 Dollar, aber dennoch war die Maschine so erschwinglich, dass immer mehr Forschungseinrichtungen sich Computer leisten konnten.
2.1.2 Der erste Frühling der künstlichen Intelligenz
Diese Entwicklung der Hardware beflügelte die Fantasie der Wissenschaftler und der Öffentlichkeit. In den 1950er-Jahren glaubte man, dass es nur noch eine Dekade dauern würde, bis ein Computer einen Menschen im Schach schlagen könnte. Diese im Nachhinein als »Frühling« bezeichnete Phase war voller Euphorie. Tatsächlich dauerte es aber bis 1997, dass IBMs Deep Blue den damaligen Schachweltmeister Garri Kasparov schlagen konnte.
Viele Forschungsprojekte waren vom amerikanischen Militär getrieben, so wollte man zum Beispiel russische Dokumente automatisch übersetzen können. Zwar sehen wir heute bereits gute Programme wie Deepl.com oder Google Translate, zu dieser Zeit war man aber noch weit davon entfernt. Auch entstanden zu dieser Zeit die Konzepte für neuronale Netzwerke.
Ein anderer Ansatz war der General Problem Solver von Simon und Newell, der bereits 1957 entstand. Diese Software sollte ein Problem in kleinere Teilprobleme unterteilen, die dann einfacher zu lösen waren. So allgemein nutzbar war diese Software allerdings nicht.
Außerhalb der Labore entstanden außerdem romantische Vorstellungen davon, was ein Computer leisten könne. 1968 sang zum Beispiel France Gall, dass der Computer Nr. 3 ihr den richtigen »Boy« finden würde; diese Hoffnungen und Träume, die in die künstliche Intelligenz investiert wurden, waren nicht untypisch für die damalige Zeit.
2.1.3 Der erste KI-Winter
Anfang der 1970er-Jahre brach der erste KI-Winter ein. Als KI-Winter bezeichnet man Phasen, in denen KI-Projekten die Forschungsgelder entzogen oder stark gekürzt werden, weil die erhofften Ergebnisse ausblieben. Ausgelöst wurde dieser erste KI-Winter durch mehrere Veröffentlichungen, unter anderem ein Buch über Perzeptronen von Minsky und Papert, der die Grenzen des Ansatzes aufzeigte. Der General Problem Solver war bereits vorher eingestellt worden....
Erscheint lt. Verlag | 3.3.2022 |
---|---|
Sprache | deutsch |
Themenwelt | Mathematik / Informatik ► Informatik ► Datenbanken |
Mathematik / Informatik ► Informatik ► Programmiersprachen / -werkzeuge | |
ISBN-10 | 3-8362-8464-2 / 3836284642 |
ISBN-13 | 978-3-8362-8464-6 / 9783836284646 |
Informationen gemäß Produktsicherheitsverordnung (GPSR) | |
Haben Sie eine Frage zum Produkt? |
Größe: 19,7 MB
DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür die kostenlose Software Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür eine kostenlose App.
Geräteliste und zusätzliche Hinweise
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich