produktivzone
29 Normseiten, geschätzte Lesezeit 29 Min.

Was ist Künstliche Intelligenz?

Einführung

Aktuell findet die KI (künstliche Intelligenz) viel Beachtung. Die Rede ist von Gesichts-, Sprach- und Bilderkennung, von autonomem Fahren, Industry 4.0, Robotersteuerung und vieles mehr. Es vergeht kaum ein Tag, an dem nicht irgendeine sensationeller Durchbruch gemeldet wird. Dabei ist künstliche Intelligenz nichts neues. Es gibt sie schon seit über 70 Jahren.

Neu ist nur, dass Computer schneller geworden sind. Dadurch sind komplexere KI's mit vielen Verarbeitungsschichten möglich. Diese Netzwerke haben eine größere "Tiefe", daher kommt auch der Ausdruck "Deep Learning". Ansonsten hat sich an der Technologie kaum etwas geändert.

Dazu kommt, dass dank des Internets riesige Mengen an Daten zur Verfügung stehen, die sich hervorragend dazu eignen, neuronale Netze zu trainieren. Deshalb überrascht es nicht, dass in diesem Bereich vor allem Firmen tummeln, die direkten Zugang auf diese Datenmengen haben, wie z.B. Microsoft, Facebook und allen voran die Datenkrake Google.

In diesem Artikel soll zunächst einmal nur erklärt werden, was künstliche Intelligenz genau ist und wie sie funktioniert. Ausserdem die Frage geklärt werden, ob es möglich ist, mit Hilfe der KI die Intelligenz eines Menschen abzubilden.

der Vollständigkeit halber, ein bißchen Geschichte

1943 beschäftigen sich Warren McCulloch und Walter Pitts bereits mit Neuronale Netzwerken und beweisen, dass sie damit rechnen können. Wenige Jahre später kann ihr Netzwerk schon räumliche Muster erkennen.

1956 treffen sich auf dem Dartmouth Summer Research Project namhafte Wissen­schaftler, um sich erstmalig darüber Gedanken zu machen, wie man mit Hilfe von neuronalen Netzen ein künstliches Gehirn schaffen könne.

1957 wird am MIT der erste erfolgreiche Neurocomputer vorgestellt, das Mark I Perceptron. Dieser konnte Ziffern erkennen, in einer Auflösung von 20 mal 20 Pixel.

1960 stellen Bernard Widrow und Marcian E. Hoff das erste kommerziell eingesetzte Neuronale Netz ADALINE vor.

1969 finden Marvin Minsky und Seymour Papert heraus, dass viele Probleme nicht mit dem Perceptron-Modell gelöst werden können. Diese Erkenntnis führt dazu, dass Forschungsgelder gestrichen werden, wodurch der KI in den nächsten Jahren nur noch wenig Beachtung geschenkt wird.

1974 Paul Werbos stellt in seiner Harward Dissertation ein Lernverfahren für Neuronale Netze vor, dass er Backpropagation of Error nannte. Dabei handelte es sich um eine wichtige Arbeit, die erst viele Jahre später Beachtung findet.

1985 veröffentlicht John Hopfield einen Artikel, in dem er bescheibt, wie er mit einem neuronalen Netz das Traveling Salesman Problem löst.

1986 Mit Hilfe von Paul Werbos Arbeit über das Lernverfahren Backpropagation of Error gelingt es, die ersten mehrschichtigen Perceptron-Netze zu realisieren. Dadurch kann Minsky teilweise widerlegt werden, was dazu führt, dass erneut Forschungsgelder fließen.

1997 bezwang der IBM-Rechner Deep Blue in einem offiziellen Turnier den damals amtierenden Schachweltmeister Garry Kasparov.

2011 IBM mit kommt mit Watson auf den Markt. Watson kann natürliche Sprache verstehen und schwierige Fragen sehr schnell beantworten, Er besiegt in einem TV-Quiz zwei menschliche Konkurrenten.

2016 schlägt Google's AlphaGo den einen der besten Go-Spieler.

Dank der Erfolge in den letzten Jahre, erfährt diese Technologie stetig wachsende Aufmerksamkeit. Heute steht die künstliche Intelligenz auf der Liste der wichtigsten Trend-Technologien an erster Stelle.

Was ist Intelligenz?

Meine Definition von Intelligenz setzt zunächst einmal die Existenz und das Wissen über einer Welt vorraus, die bestimmten Gesetzmäßigkeiten folgt (die physische Welt). Und es setzt die Fähigkeit voraus, diese Welt mit Hilfe von Sensoren wahrzunehmen (sehen, hören, fühlen, riechen).

Daraus entsteht ein Datenstrom, aus dem in einer geeigneten Recheneinheit (das Gehirn) ein virtuelles Abbild der Umgebung konstruiert werden kann (gedanklich). Mit Hilfe dieses Abbildes können nun verschiedene Abläufe durchlebt werden, ohne physische Konsequenzen fürchten zu müssen.

Zweck dieses Vorgangs ist es, von allen zur Verfügung stehenden Optionen die beste zu finden. Hat sich das intelligente Wesen für eine Option entschieden, kann es diese über den Weg des Handelns in die physische Realität einfließen lassen. Auf diese Weise kann er die Situationen des Alltags besser für sich nutzen, was ihm im täglichen Überlebens­kampf einen Vorteil verschafft.

Wieviel sich die Natur diesen Vorteil kosten lässt, erkennen wir daran, dass das Gehirn beim Menschen ungefähr ein fünftel der zur Verfügung stehenden Energie benötigt.

Fassen wir diese Erkenntnis zusammen, wird klar, wieso es so schwer ist, den Begriff Intelligenz zu umschreiben. Denn wir haben es hier ganz offensichtlich mit einem Sammelbegriff zu tun, der mehrere Tätigkeiten beinhaltet:

wahrnehmen (Input)

Die virtuelle Innenwelt muss mit Daten gefüttert werden, sonst kann dort keine sinnvolle Abstraktion der Realität erstellt werden. Der Detaillierungsgrad des Inputs spielt eine wichtige Rolle. Denn je mehr Daten geliefert werden, desto genauer kann die Realität abgebildet werden. Wenn dagegen nur wenige Daten zur Verfügung stehen, bleibt die Vorstellung unscharf, wodurch nur grobe Prognosen möglich sind.

rechnen (Gehirn)

Damit die Realität virtuell abgebildet werden kann, braucht es eine Recheneinheit, welche die erhaltenen Daten verarbeiten kann. Beim Menschen erledigt diese Aufgabe das Gehirn. Beim Computer ist es die CPU.

Dabei gilt, je schärfer die Realität in den Gedanken abgebildet werden soll, desto mehr Rechenleistung braucht das Gehirn. Deshalb haben intelligentere Wesen ganz all­ge­mein ein komplexeres Gehirn, als weniger intelligente Wesen. Eine Maus hat beispiels­weise ca. 2'000 mal weniger Neuronen in der Großhirnrinde, als der Mensch.

sich erinnern (Daten lesen)

Um mögliche Optionen durchspielen zu können, müssen kausale Zusammenhänge bekannt sein. Hierzu muss das Gehirn über die Gesetzmäßigkeiten der physischen Welt informiert sein. Dadurch weiß das Gehirn beispielsweise, dass ich nicht mit Tante Klara rechnen kann, weil die grad in Mallorca Urlaub macht. Und es ist eine Eigenschaft der physischen Welt, dass sich eine Person nicht an zwei Orten gleichzeitig aufhalten kann. Deshalb hat Tante Klara in der Abstraktion meiner Realität auch nichts verloren.

Ausserdem braucht es einen Erfahrungswert, der dem Gehirn mitteilt, welche Schnitt­stellen zur Verfügung stehen, wenn es darum geht, eine getroffene Entscheidung um­zu­setzen. Das bedeutet, das Gehirn muss über die Eigenheiten des Ich's informiert sein. Dazu gehört beispielsweise Größe, Gewicht, Gesichtsausdruck, Sprache oder Kraft. Dadurch kann die Person beispielsweise abschätzen, ob der Ast eines Apfelbaums ihn tragen wird, oder nicht. Wenn es das nicht tut, kann diese Option schon im Ansatz verworfen werden, wodurch Rechenleistung eingespart werden kann.

Fehlt diese Art von Wissen, können keine realitätsnahen Szenarien durchgespielt werden. In der Folge können keine sinnvollen Ent­scheidungen getroffen werden.

handeln (Output)

Die beste Entscheidung ist wertlos, wenn sie im Anschluss nicht in die phyische Realität übertragen werden kann. Deshalb braucht es zusätzlich zu den Sinnesorganen noch weitere Schnittstellen zur physischen Realität.

Bei Mensch und Tier bildet der Körper die Schnittstelle zur physischen Welt. Die Kontrolle des Körpers erfolgt über den Weg von Muskeln, die mit Nerven­leitungen mit dem Gehirn verbunden sind.

Über den Weg der Sinnesorgane wird überprüft, ob der Körper auch das tut, was er soll. So erhält das Gehirn Feedback, was ihm hilft, die Bewegungen zu koordinieren. So kann sich der Mensch auch einer Umgebung zurechtfinden, die ihm vollkommen fremd ist.

lernen (Daten speichern)

Für den Fall, dass sich die Situation wiederholt, ist es sinnvoll, Erfahrungswerte zu speichern. So kann das Gehirn das nächste Mal genauere Prognosen treffen und gleichzeitig Rechenleistung einsparen. Wir nennen das ganz allgemein lernen.

Was inteligente Personen von weniger intelligenten unter­scheidet, ist der Umstand, dass manche Menschen diese Tätigkeiten insgesamt besser be­herrschen, als andere.

Intelligenz braucht ein Gehirn

Was den Menschen intelligent macht, ist sein Gehirn. Dieses besteht aus vielen kleinen Zellen (Neuronen), die über Synapsen (Leitungen) miteinander vernetzt sind.

Ein einzelnes Neuron bildet im übertragenen Sinn ein Pixel von einer gedanklichen Vorstellung, ähnlich wie eine Sehzelle auf der Netzhaut zusammen mit den anderen Sehzellen ein verwertbares Bild erzeugt.

Um zu verstehen, was im Gehirn geschieht, müssen viele Neuronen gleichzeitig beobachtet werden, was im lebenden Zustand nicht leicht ist. Deshalb weiß die Wissenschaft vergleichsweise wenig über die kollektiven Vorgänge im Gehirn.

Was in einer einzelnen Zelle geschieht, ist dagegen gut erforscht: Über eine Leitung (Synapse) erhält ein Neuron einen Impuls von einem oder mehrere Neuronen oder Nervenzellen. Die Zelle entscheidet nun aufgrund von gespeicherten Erfahrungswerten, ob der Impuls weitergeleitet werden soll, oder nicht. Und das war's dann auch schon.

Während diesem Vorgang werden fortwährend neue Erfahrungswerte gemacht, die unter Berücksichtigung der bestehenden Erfahrungswerte in den Zellen gespeichert werden. Das bedeutet, das Gehirn programmiert sich selbst. Wir nennen diesen Vorgang lernen.

Wenn in einem Areal zuwenig Rechenleistung zur Verfügung steht, können zur Ent­lastung neue Zellen gebildet werden. Wenn Zellen nicht mehr benötigt werden, bilden sich diese wieder zurück, um Energie zu sparen. Denn so eine Zelle muss mit Kalorien versorgt werden.

Ebenso verhält es sich mit den Leitungen (Dendriten und Synapsen). Wichtige Leitungen werden mit einer schützenden Myelin-Schicht geschützt, so dass sichergestellt ist, dass sie nicht versehentlich entfernt werden.

Wenn das Gehirn eine Entscheidung getroffen hat, geht es darum, diese umzusetzen. Hierzu ist das Gehirn über Nervenzellen mit den verschiedenen Muskelpartien des Körper verbunden. Wenn das Gehirn einem Muskeln ein Signal schickt, zieht er sich zusammen, wodurch der Körper gezielt bewegt werden kann.

Auf diese Weise kann das Gehirn die physische Umgebung beeinflussen, wodurch neue Situationen geschaffen werden. Und diese bilden dann die Basis für neue Ent­scheidungen. So ist der Mensch imstande, seine Umgebung zu seinen Gunsten umzu­ge­stalten und zu nutzen.

Schauen wir uns das Wunder einmal etwas genauer an, das den Menschen so intelligent macht:

Der Aufbau des menschlichen Gehirns

Das Gehirn eines Menschen besteht aus durchschnittlich 86 Milliarden Hirnzellen (Neuronen), die mit ungefähr 100 Billionen Leitungen (Synapsen) miteinander verdrahtet sind. Das bedeutet, jede Zelle ist mit durchschnittlich 1'000 anderen Zellen verbunden, wobei die Anzahl der Verbindungen zwischen 1 und 200'000 variieren kann.

Ein Neuron ist ungefähr zehn mal kleiner, als der Querschnitt eines menschlichen Haares. Es ist im Gehirn in Gliazellen eingebettet, welche die Zelle stützt, diese elektrisch isoliert und den Flüssigkeitsaustausch sicherstellt.

Das Gehirn macht ungefähr 2 Prozent der Körpermasse aus und verbraucht mit ca. 20 Watt ungefähr ein fünftel des kompletten Energiebedarfs eines Menschen. Das zeigt, wieviel Bedeutung die Natur der Intelligenz beimisst.

Das Gehirn kann in verschiedene Bereiche unterteilt werden:

der Hirnstamm

Der Hirnstamm verschaltet den Körper mit dem Kopf. Er nimmt Sinneseindrücke entgegen und steuert die Motorik. Dazu gehören auch unbewusste Funktionen wie Atmung, Blutdruck, Stoffwechsel und einfache Reflexe. Der Hinstamm kann weiter unterteilt werden, in Mittelhirn, Pons und Nachhirn. Die enthalten sozusagen die Firmware des gesamten Bewegungsapparates.

das Kleinhirn

Das Kleinhirn ist hauptsächlich für die Planung, Koordination und Feinabstimmung von Bewegungsabläufen unter Berücksichtigung des Gleichgewichts. Es ist ungefähr zehn Mal kleiner, als das Großhirn, hat aber eine wesentlich höhere Zelldichte. Es enthält ungefähr die Hälfte aller Neuronen, die sich im Gehirn befinden.

das Zwischenhirn

Das Zwischenhirn kann in vier Bereiche aufgeteilt werden:

Thalamus

Beim Thalamus laufen die Daten aller Sinnesorgane zusammen. Er gilt als Vermittler aller sensorischer und motorischer Signale zum und vom Großhirn. Man könnte auch sagen, er übersetzt die Signale in eine für das Großhirn verständliche Sprache.

Hypothalamus

Steuert das vegative Nervensystem und somit alle innerkörperliche lebenswichtige Vorgänge, wie Herschlag, Atmung, Verdauung, Stoffwechsel, Blutgefäßssysteme, Hormone (Hypophyse), Exokrine Drüsen, Sexualorgane, und Pupillen.

Subthalamus

Steuert die Grobnotorik.

Epithalamus

Im Epithalamus findet sich die Epiphyse (Zirbeldrüse), welche zyklische Abläufe steuert, wie z.B. der Tag und Nacht-Rythmus. Es enthält unter anderem das Riechhirn (olfaktorische Cortex).

das Großhirn

Auch Endhirn, Telencephalon oder Cortex genannt. Besteht aus zwei voneinander getrennten Hemisphären, die mit einem dicken Nervenstrang miteinander verbunden sind, dem Corpus callosum. Es besteht aus einer 2 bis 4 mm dicken stark gefalteten Oberflächenschicht, die ungefähr 16 Milliarden Nervenzellen beinhalten. Hier finden viele bewusste Vorgänge statt. Es kann grob wie folgt unterteilt werden:

Frontallappen

Vorn werden Handlungen geplant und inittiert. Hier sind viele Merkmale der Persönlichkeit gespeichert.

Parietallappen

Zwischen Frontallappen vorn und dem Okzipitallappen hinten befindet sich der Parietallappen. Hier werden sensorische Informationen verarbeitet. Die Bereiche können verschiedenen Körperbereichen zugeordnet werden (Sensorischer und motorischer Homunculus).

Okzipitallappen

Verarbeitet visuelle Eindrücke (visueller Cortex). Befindet sich in der Verlängerung der sogenannten Sehbahn (Verarbeitung des Bildsignals) am hinteren Teil des Gehirns.

Temporallappen

An den Seiten des Gehirns befinden sich die beiden Temporallappen. Sie enthalten unter anderem das Hörzentrum. Direkt daran angegliedert ist die Inselrinde, die noch nicht so gut erforscht ist. Es enthält unter anderem das Geschmackszentrum.

Limbischer Lappen

Im Inneren des Kortex befindet sich noch das Limbische System, in dem Emotionen und Triebverhalten koordiniert werden. Es soll auch für das Gedächtnis verantwortlich sein und somit für die intellektuellen Leistungen.

Das Neuron

Im Gehirn arbeiten 86 Milliarden Neuronen. Jedes einzelne Neuron besteht aus einer Nervenzelle (Soma), dessen Äste Dendriten genannt werden. Die Zelle kann zwischen 5 und 100 µm groß sein und verfügt über einen langen Arm (Axon), der über einen Meter lang sein kann. Dieser endet in Synapsen, die mit den Dendriten anderer Nervenzellen verbunden sind. Das Axon ist am sogenannten Axonshügel festgemacht.

Wenn ein bestimmtes Schwellenpotential überschritten ist, wird das Signal weitergleitet, sonst nicht. Dabei gilt das Alles oder Nichts-Prinzip. Das bedeutet, es gibt nur zwei Zustände, nämlich an oder aus. Die Zellen kommunizieren also binär miteinander, ähnlich wie ein Computer.

Das Axon selbst ist durch Schwan'sche Zellen oder im Gehirn durch Oligo­dentro­zyten und Gliazellen vor äussere Einflüsse geschützt. Dieser Schutz führt unter anderem dazu, dass die Signale etwa zehnmal schneller übertragen werden können, als in einer ungeschützten Dendrite.

Die Kommunikation innerhalb des Axons erfolgt elektrisch über das Aktionspotential der Nervenzelle. Das erfolgt im Millivolt-Bereich. Das elektrische Ruhepotential eines Neurons liegt zwischen -90 und -70 mV. Wenn es feuert, liegt das Maximum bei ungefähr +20 bis +30 mV.

Die Kommunikation erfolgt bei einer Frequenz von ca. 10 bis 100 Hz. Sie erfolgt nicht über Gleichstrom oder Wechselstrom, sondern über Impulsstrom, wobei ein Neuron pro Sekunde bis zu 500 Impulse abgeben kann. Eine Signalübertragung dauert üblicherweise zwischen 1 bis 2 ms.

Die Kommunikation zwischen einer Dendrite und einer Synapse erfolgt chemisch über Botenstoffe (Neurotransmitter). Wo sich eine Dendrite mit einer Synapse verbindet entsteht ein Endköpfchen, das wie folgt aussieht:

Nachdem eine Zelle gefeuert hat, braucht sie Zeit, bis sie erneut feuern kann. Denn das Aktionspotential muss wieder aufgebaut werden (Natrium-Kalium-Pumpe). Diesen Vorgang wird Repolarisation genannt. Die Erholungszeit (Refraktärzeit) beträgt ungefähr 2 ms. Die Ausschüttung der Neurotransmitter in den Synapsen dauert ebenfalls ein paar Millisekunden.

All dies sorgt für eine Nervenleitgeschwindigkeit von nicht mehr als 100 Meter pro Sekunde. Zum Vergleich, das Signal wird in einem Computer mit rund 0,8-facher Lichtgeschwindigkeit übertragen.

Das Wissen der Zelle ist in Form des elektrischen Widerstands gespeichert. Dabei gilt, je näher eine Synapse dem Axonhügel liegt, desto stärker ist das Signal, das übertragen wird. Erreicht das Aktionspontential aller verbunden Dendriten zusammen den Schwellenwert von ca. -50 mV, feuert der Axonhügel. Eine Zelle lernt dazu, indem die Leitfähigkeit der Dendriten verändert wird, welche die Synapsen mit dem Axonhügel verbinden. Der Längswiderstand kann beispielsweise durch eine Veränderung des Querschnitts oder der Länge angepasst werden.

Neuronen gibt sie in verschiedenen Variationen, nämlich unipolar (1), bipolar (2), multi­polar (3) und pseudounipolar (4). Im Gehirn finden wir vorwiegend multipolare Nerven­zellen.

Einführung in KI (künstliche Intelligenz)

Verfügen zwei identisch strukturierte Recheneinheiten über exakt dieselbe Program­mierung, werden beide dasselbe Resultat liefern. Dabei spielt es keine Rolle, wie die Recheneinheit aufgebaut ist. Sie kann organisch sein oder künstlich. Aus diesem Grund kann es so etwas wie eine künstliche Intelligenz im Grunde nicht geben, sondern nur echte oder gar keine.

Man sollte daher auch nicht von künstlicher Intelligenz sprechen, sondern von künstlichen Gehirnen. Denn darum geht es inhaltlich, wenn von KI die Rede ist. Aber der Begriff KI hat sich durchgesetzt, weshalb ich nicht versuchen werde, ihn zu ersetzen. Ich erwähne das nur, damit Sie wissen, was genau gemeint ist, wenn ich von KI spreche.

Ursprünglich gab es nur eine Art von KI, nämlich die symbolische. Viele Jahre später ist die konnek­tionistische dazu gekommen. Der Unterschied besteht in der Art der Implementierung.

symbolische KI

Bei einer symbolische KI ist es unwichtig, wie eine Aufgabe ausgeführt wird, solange das Ergebnis stimmt. Das führt zu proprietären Ansätzen, die es in der Natur nicht gibt.

Bei diesem Ansatz kann man am Ende nie wirklich sicher sein, ob es sich um eine echte Intelligenz handelt, oder um eine Simulation, wobei das in der Praxis keinen Unterschied macht.

konnektionistische oder neuronale KI

Eine konnektionistische KI ist dagegen dem biologischen Gehirn nach­empfunden, das neuronal aufgebaut ist. Deshalb wird die konnek­tionistische KI oft auch neuronale KI genannt. Diese Variante hat sich durchgesetzt, weshalb ich mich in diesem Artikel darauf begrenzen werde.

In der KI werden die Vorgänge des Gehirns in Form eines Computerprogramms nach­ge­bildet. In der neuronalen Variante wird das Programm in viele kleine Einheiten aufgeteilt, die Neuronen nachempfunden sind. Da Neuronen in einem Programm nur virtuell existieren, genügt eine einmalig installierte Basisfunktion für ein Neuron, die anschließend fortwährend mit Daten aus einer Datenbank gefüttert wird. Dieser Vorgang ist nicht allzu kompliziert.

Kompliziert ist dagegen das Arrangement der Neuronen. Die Kunst besteht darin, diese so zu strukturieren, dass sie das bestmögliche Resultat liefern. Dabei gibt es unzählige Variationen. Welche die richtige ist, ist eine Frage der Anwendung. Hier sind erfahrene Profis gefragt.

Was eine KI von einem gewöhnlichen Programm unterscheidet, ist der Umstand, dass sich eine KI fortwährend den gegebenen Umständen anpassen kann. Das setzt voraus, dass das Programm ganz am Anfang noch nichts weiß.

Wir können uns das vorstellen, wie bei einem neugeborenen Kind. Es verfügt über ein voll ausgebildetes Gehirn, das aber noch nicht verschaltet ist. Deshalb muss man der KI zunächst einmal beibringen, was es zu tun hat. Dies geschieht durch Konditionierung. Das bedeutet, jemand muss dem Programm vormachen, wie das Problem zu lösen ist. Auch an dieser Stelle können unendlich viele Fehler gemacht werden.

Nach dem Training hat sich das Programm so verändert, dass es mit dem Original nicht mehr viel gemein hat. Das führt dazu, dass der Programmierer nicht mehr korrigierend in den Sourcecode eingreifen kann. Wenn also eine KI nicht tut, was von ihm erwartet wird, gibt es nur eine Lösung: das Training muss wiederholt werden. Das bedeutet, gelernte Daten müssen gelöscht werden, das Programm muss neu gestartet werden und das Training muss wiederholt werden. Um das zu verhindern, können Zwischen­schritte gespeichert werden, auf die man je nach Bedarf zurückgreifen kann.

das Perzeptron-Modell

Künstliche neuronale Netze werden in vereinfachter Form Perzeptron genannt. Dieser Begriff kommt von dem englischen perception, was auf deutsch Wahrnehmung bedeutet. Es besteht in der Grundversion aus einem einzelnen künstlichen Neuron (einer Unit). Dieses ist in seiner Funktion der biologischen Vorlage nachempfunden.

Neuronen sind verblüffend einfach aufgebaut, was daran liegt, dass in unserem Gehirn viele Milliarden Neuronen gleichzeitig ihren Dienst verrichten. Eine komplexe Struktur würde für eine hohe Fehleranfälligkeit sorgen, was sich das Gehirn nicht leisten kann. Dank dieser Einfachheit, konnte die Funktions­weise der Neuronen schon 1943 dokumentiert werden:

Ein Neuron ist über Synapsen und Dendriten mit vielen anderen Neuronen verbunden. Diese Leitungen werden hier X1 bis Xn genannt. Nicht jedes Signal hat für das spezifische Neuron dieselbe Bedeutung, deshalb müssen die Signale nach Wichtigkeit unterschieden werden. Hierzu ist im Perzeptron für jede Leitung ein Multiplikator hinterlegt, der Wichtung genannt wird (Ableitung von Gewichtung). Ich habe das Wort fett dargestellt, weil ich es nachfolgend sehr oft verwenden werde. Die Wichtungen sind hier mit den Werten W1j bis Wnj gekennzeichnet.

Die Signale aller Leitungen laufen in der Übertragungsfunktion Σ zusammen, die deswegen so benannt ist, weil dort die Werte zu netj zusammengezählt werden. Aufgrund dieses Wertes kann die Zelle nun entscheiden, was sie tun soll. Das tut sie über die Aktivierungsfunktion φ. Diese enthält den festgelegten Schwellenwert θj. Wird dieser Wert unterschritten, bleibt die Zelle passiv. Wird der Wert überschritten, sendet die Zelle ein Signal an das folgende Neuron.

Schaltet man viele Neuronen zusammen, ergibt sich ein neuronales Netzwerk. Dieses unterteilt man in verschiedene Schichten. In der Eingabeschicht (blau) werden die Daten eingegeben, die man verarbeiten möchte. Diese Daten werden in der versteckten Verarbeitungsschicht (orange) berechnet. Das Ergebnis wird anschließend in der Ausgabeschicht (rot) ausgegeben. Die Verarbeitung folgt in diesem Beispiel von links nach rechts.

Die Anzahl der Verarbeitungsschichten spielt bei der Beschreibung des Netzwerktyps eine wichtige Rolle. Dabei wird die Eingabe-Schicht ignoriert. In diesem Fall haben wir es mit einem dreischichten Netzwerk zu tun.

Das Wissen der Neuronen steckt in der Wichtung der eingehenden Leitungen, nicht im Schwellenwert der Aktivierungsfunktion, auch wenn die in der biologischen Vorlage geringfügig variieren kann. In einem biologischen Neuron passen sich die Werte während der Nutzung kontinuierlich an. So lernt die KI kontinuierlich dazu. Aber wie funktioniert das genau?

wie künstliche Intelligenzen lernen

In den ersten künstlichen neuronalen Netzen mussten die Werte der Wichtungen von Hand mit Hilfe von Potentiometern (einstellbare Widerstände) eingestellt werden. Das war sehr mühsam. Inzwischen hat man diesen Vorgang automatisiert. Da mit diesem Vorgang festgelegt wird, wie genau die KI dazulernt, spricht man von einem Lernverfahren. Die lassen sich wie folgt gruppieren:

das aktive Lernverfahren

Hier erstellt ein Algorithmus anhand der Ergebnisse gezielte Fragen, die einen hohen Informationsgewinn versprechen. Diesen kann von der KI verwendet werden, um Wichtungen anzupassen. Da sich der Algorithmus an die Fragestellung anpassen muss, ist der Umgang mit diesem Lernverfahren umständlich.

Bestärkendes Lernverfahren

Hier beobachtet die KI die Umgebung, um Rückschlüsse darauf zu erhalten, ob eine Aufgabe richtig ausgeführt wurde, oder nicht. Dieses Vorgehen setzt vorraus, dass die KI die Umgebung richtig interpretiert, was in den meisten Fällen nur schwer umsetzbar ist.

das unüberwachte Lernverfahren

Hier wird das Endergebnis gar nicht erst mit einem Sollwert verglichen. Das bedeutet, das System erhält keinen direkten Feedback von der Umwelt und kann somit auch nichts dazu lernen, was die Interaktion mit der Umwelt verbessern könnte.

Um sinnvolle Werte zu erhalten, müssen die Wichtungen anderweitig zugewiesen werden, indem beispielsweise die Werte der Neuronen untereinander verglichen werden (Competetive Learning).

Dieses Verfahren eignet sich daher nur für KI's, die eng abgrenzbare Aufgaben be­wältigen sollen.

das teilüberwachte Lernverfahren

Hier werden die Endergebnisse nur teilweise oder periodisch mit den Sollwerten verglichen, wodurch die KI auch nur langsam dazulernt. Da der Aufwand genauso groß ist, wie beim überwachten Lernverfahren, macht dieses Vorgehen nur in seltenen Fällen Sinn.

das überwachte Lernverfahren

Hier wird zunächst jedes Endergebnis mit Sollwerten verglichen. Weicht das Ergebnis von den Erwartungen habe, werden die Wichtungen angepasst. Um diese Regel durchzusetzen, wird ein aussenstehender Beobachter benötigt, der von außen korrigierend auf die Wichtungen zu­greifen kann.

Die Aufgabe dieser Lernverfahren ist es, fehlerhaft eingestellte Wichtungen zu identifizieren. Wenn sie einmal identifiziert sind, muss entschieden werden, wie der Fehler genau korrigiert werden soll. Hierzu benötigen wir noch ein paar Lernregeln. Auch hier haben sich verschiedene Variationen durchgesetzt:

die Perzeptron-Lernregel

Hier haben wir es mit der Standard-Lernregel zu tun, an der alle anderen Lernregeln an­ge­lehnt sind. Sie funktioniert wie folgt:

Entspricht das Ergebnis dem Sollwert, besteht kein Bedarf, die Wichtungen anzu­passen.

ist die Ausgabe 0, soll aber den Wert 1 annehmen, werden die Wichtungen in­krementiert

ist die Ausgabe 1, soll aber den Wert 0 annehmen, werden die Wichtungen de­krementiert

Hebb-Regel

Diese Regel ist nach dem Psychologen Donald Olding Hebb benannt, der die These aufstellte, dass sich die Wichtung einer Zelle anpasst, wenn sie von einer anderen Zelle viele Impulse hintereinander erhält. Hierzu muss in der Zelle selbst ein Lernparameter gespeichert sein, der definiert, wie stark die Wichtung angepasst werden soll. Man geht davon aus, dass diese Methode dem biologischen Vorbild am nächsten kommt.

Praktisch sieht das so aus, dass schon bei der Eingabe-Schicht unterschieden werden kann, ob es sich um eine Fragestellung oder um eine Answeisung handelt.

Handelt es sich um eine Frage (einzelne Impulse), wird die Wichtung nicht beeinflusst.

Handelt es sich um eine Anweisung (viele Impulse hintereinander), wird die Wichtung anhand des gespeicherten Parameters angepasst.

Delta-Regel

Bei dieser Regel spielt neben den realen Werten auch die Neuronen-Aktivität eine Rolle. Wenn die Wichtung angepasst werden soll, wird der Kontrast zwischen positiven und negativen Signalen erhöht, wobei gilt:

Ist die beobachtete und gewünschte Aktivität gleich groß, bleiben die Werte unver­ändert.

Ist die Aktivität zu niedrig, werden die Gewichte für positive Signale erhöht, während zeitgleich die Gewichte der negativen Signale gesenkt werden.

ist die Aktivität zu hoch, werden die Gewichte für positive Signale gesenkt, während zeitgleich die Gewichte der negativen Signale erhöht werden.

Backpropagation

Sobald ein Neuronales Netz über mehrere versteckte Verarbeitungsschichten verfügt, wir die Anpassung der Wichtungen schwierig. Denn es sind ja mehrere Neuronen an der Entstehung eines Ergebnisses beteiligt. Das bedeutet, die Anpassung muss auf viele Neuronen verteilt werden. Da die Wichtungen der einzelnen Neuronen stark voneinander abweichen können, muss die Anpassung einer bestimmten Logik folgen.

Um das Problem zu lösen, gibt es verschiedene Vorgehensweisen. Man kann sich beispielsweise vom Ergebnis aus rückwärts schrittweise durch die einzelnen Schichten hindurcharbeiten und die Zwischenwerte analysieren. Da hierzu die Sollwerte der Zwischenstufen bekannt sein müssen, ist das umständlich.

Um diesen Vorgang zu automatisieren hat man die Backpropagation eingeführt. Dabei handelt es sich um Rechenvorschrift, die im wesentlichen der Delta-Lernregel folgt. Dazu wird zunächst der Verlauf der Wichtung ausgelesen. Wenn viele Neuronen beteiligt sind, kann ein mehrdimensionaler Datensatz entstehen. Die Werte werden nun so angepasst, dass der resultierende Gesamtfehler möglichst klein ausfällt. Hierzu verwendet man ein paar Tricks:

die Aktivitätsfunktion

Das Axon eines Neurons feuert, wenn ein bestimmter Schwellenwert überschritten wird. Das setzt voraus, dass die Wichtungen und Schwellenwerte analog hinterlegt sind und nicht binär, wie das eingehende oder ausgehende Signal. Das kann unter bestimmten Bedingungen zu einem Flackern führen, das unerwünscht ist. Um das zu verhindern, wird der Netzinput ein wenig manipuliert. Hierzu stehen verschiedene Aktivitäts­funktionen zur Verfügung, wie z.B. die Lineare, die Lineare mit Schwelle, die Binäre und die Sigmoide. In den meisten Netztypen hat sich die Sigmoidfunktion durchgesetzt.

die Sigmoidfunktion

Diese Funktion begrenzt den Netzinput oben und unten, so dass der Vergleichswert nur schwer ganz auf 0 oder 1 fallen kann. Dadurch entsteht ein S-förmiger Graph, weshalb diese Funktion oft auch Schwanenhalsfunktion oder S-Funktion genannt wird. Hierzu verwendet man die Logistische Funktion oder als Ableitung der Tangens Hyperbolicus. Das sind mathematische Funktionen, die ich an dieser Stelle nicht näher erläutern werde.

Gradientenabstiegsverfahren

Wären die Neuronen wie eine Perlenschnur aneinander gereiht, ließen sich ihre Wichtungen zweidimensional abbilden. In solch einem Graphen könnten die Anpassung linear verteilt werden. Leider sind die Neuronen mehrfach untereinander verbunden. Deshalb benötigt man eine Funktion, welche die Werte aller beteiligten Neuronen in einem mehrdimensionalen Raum gleichmäßig verändern kann. Man verwendet hierzu das Gradientenabstiegsverfahren. Auch hier haben wir es mit einer bekannten mathematischen Funktion zu tun, die ich nicht näher erläutern werde.

Bei der Backpropagation vergleicht man das Ergebnis mit dem Sollwert. Wird eine Abweichung festgestellt, werden die Wichtungen aller beteiligten Neuronen über das Gradientenabstiegsverfahren schrittweise angepasst, bis schließlich das Ergebnis stimmt.

Zu beachten ist, dass es für die Backpropagation keine biologische Vorgabe gibt. Ausser­dem wird für die Berechung von vielschichtigen Strukturen viel Rechenleistung benötigt, was das System stark verlangsamen kann. Die Rechenvorschrift eignet sich auch nicht für Rekurrente Netzwerktypen, wo es zu Rückkopplungen kommen kann oder sich die Verarbeitungsrichtung ändern kann.

Es ist auch wichtig zu wissen, dass viele Entwickler ihre eigenen Brötchen backen und dies aus naheligenden Gründen nicht kommunizieren. Denn wer seine Geheimnisse offenlegt, gibt seinen wirtschaftlichen Vorsprung auf. Wir können also annehmen, dass noch viele Lernmethoden gibt, die hier nicht aufgeführt sind.

verschiedene Netztypen

Im Verlauf der Jahrzehnte haben sich für wiederkehrende Anwendungen bestimmte Netztypen bewährt. Diese möchte ich der Vollständigkeit halber auflisten:

Pattern Associator

Hier handelt es sich um ein einfaches neuronales Netz, das gern für die Muster­erkennung eingesetzt wird. Es besteht aus zwei Schichten, der Eingabe- und Ausgabe­schicht. Dieser Netztyp folgt der Hebb- oder der Delta-Lernregel.

Rekurrente Netze bzw. Simple Rekurrent Networks (SRNs)

In Netzwerken, die in eine Richtung betrieben werden, sind keine Rück­kopplungen möglich. Man spricht deshalb von Feedforward-Netzen.

Dem gegenüber stehen sogenannte Rekurrente Netze. Ihre Neuronen sind so ange­ordnet, dass Rückkopplungen möglich sind. Das hört sich zunächst einmal wider­sprüchlich an, macht aber in vielen Fällen Sinn.

Rekurrente Netze eignen sich beispielsweise dann, wenn Prognosen gestellt werden sollen oder oder menschliche Verhaltenssequenzen simuliert werden. Man verwendet sie, wenn es darum geht, sich schrittweise einer stabilen Lösung anzunähern (Attraktorennetze).

Je nach Struktur sind unterschiedliche Arten von Rückkopplungen möglich:

direkten Rückkopplungen (direct feedback)

Hier ist der Output einer Zelle direkt am Input angeschlossen, so dass eine rekursive Schleife gebildet wird. Dies kann in bestimmten Situationen nützlich sein.

indirekten Rückkopplungen (indirect feedback)

Hier springt das Ausgangssignal eines Neurons zu einem Neuron in der vorhergehenden Schicht.

seitlichen Rückkopplungen (lateral feedback)

Hier springt das Ausgangssignal eines Neurons zu einem Neuron in derselben Schicht.

vollständigen Verbindungen

Hier sind alle Neuronen miteinander verbunden, wodurch keine Schichten identifiziert werden können.

Folgende Rekurrente Netzwerk-Typen werden eingesetzt:

Simple Recurrent Networks (SRNs)

Eignet sich als Gedächtnis für komplexe Sequenzen.

Autoassociator

hat Ähnlichkeiten zu Pattern Associator

Jordan-Netze

hat Ähnlichkeiten zu Simple Recurrent Networks (SRNs)

Kompetitive Netze

Auch dieser Netztyp besitzt besitzt keine versteckten Verarbeitungsschichten, sondern nur eine Eingabe- und eine Ausgabeschicht. Dieser Netztyp wird nicht überwacht, besitzt aber dennoch eine eigene Lernregel, die Competetive Learning genannt wird. Bei diesem Verfahren stehen die Ausgabe-Neuronen in Konkurrenz zueinander. Dabei werden die Wichtungen aller Verbindungen, die zu den Siegerunits führen, erhöht.

Dieser Netztyp eignet sich zur Filterung von Redundanzen, zur Faktorenalalys oder zur Musterklassifikation.

Kohonennetze bzw. Selforganizing Maps (SOM's)

Hier handelt es sich um eine Erweiterung der Kompetitiven Netze, mit dem Unterschied, dass jede Input-Unit mit allen Output-Units verbunden ist. Auch dieser Netztyp kommt trotz seiner Komplexität mit nur zwei Neuronenschichten aus. Die Anwendung ist allerdings etwas komplizierter. Für den Betrieb müssen folgende Variablen definiert werden:

Durchlaufzähler

Radius der Nachbarschaft (Größe der bei Gewichtsanpassungen berücksichtigten Nachbarschaft)

Lernparameter (wie stark sollen die Gewichte zwischen Input-Units und den betroffenen Output-Units verändert werden)

Matrixgröße (Anzahl der Outputneuronen)

Form der Nachbarschaftsfunktion (wie sollen Gewicht der Nachbarneuronen angepasst werden?)

Dimension (wieviele Dimensionen sollen bearbeitet werden?)

Auch hier erfolgt die Gewichtsmodifikation über die Siegerunits und deren Nachbarn. Ist eine bestimmte Anzahl Durchläufe erreicht, wird das Programm abgebrochen. Dieser Netztyp eignet sich für zahlreiche Anwendungen:

Approximation von Funktionen (wenn beispielsweise eine analytische Lösung fehlt)

Inverse Kinematik (Roboter)

Finden des kürzesten Weges zwische 2 Punkten trotz Hindernisse

n-dimensionale Figuren transformieren

Traveling Salesman Problem

Spracherkennung, Unterschriftenerkennung, Gesichtererkennung

Wieviel Speicher hat unser Gehirn?

Als nächstes möchte ich ein paar Kennzahlen herleiten, die Rückschlüsse darauf geben, wie weit wir noch von der Entwicklung einer KI entfernt sind, die mit der Intelligenz eines Menschen mithalten kann. Ein wichtiger Indikator ist die Menge an Daten, die benötigt wird, um das Gehirn eines Menschen abzubilden.

Wir wissen, dass Gehirn über 86 Milliarden Nerven­zellen verfügt, die über ca. 100 Billionen Synapsen miteinander verbunden sind. Wie wir gesehen haben, steckt die Intelligenz in den Dendriden. Die Kommunikation zwischen den Zellen erfolgt über das Aktions­potential nach dem Alles oder Nichts Prinzip. Ein Signal entspricht also einem binären Zustand oder ein Bit pro Synapse.

Die Wichtungen sind dagegen analog hinterlegt, nämlich in Form von elektrischen Wider­ständen in den Dendriten. Hier sollte es genügen, wenn wir 1'000 verschiedene Zustände unterscheiden. Um die abzubilden, benötigen wir weitere 10 Bits. Da jede Dendrite mit einer Synapse verbunden ist, entspricht das bei 100 Billionen Synapsen einer Daten­menge von ca. 1'100 Billionen Bits oder umgerechnet 138 Terabytes.

Dazu kommt der Informationsgehalt, der in der physischen Vernetzung selbst gespeichert ist. Um 86 Milliarden Neuronen eindeutig referenzieren zu können, muss die Adresse mindestens 37 Bits groß sein. Das macht für die 100 Billionen Synapsen rund 3'700 Billionen Bits oder umgerechnet weitere 463 Terabyte.

Die Adresse eines Neurons muss natürlich auch im Neuron selbst hinterlegt sein. Davon gibt es 86 Milliarden. Das macht rund 3,182 Billionen Bits oder umgerechnet 0,4 Terrabyte.

Rechnen wir alles zusammen, kommen wir auf ungefähr 602 Terra­byte an Daten, die im menschlichen Gehirn gespeichert sind. Wir wissen, dass die Intelligenz in der Großhirnrinde steckt. Dort befinden sich 16 von 86 Milliarden Neuronen. Der Rest wird für die Steuerung des Körpers benötigt. Rechnen wir die Datenmenge um, kommen wir auf 112 Terrabyte.

Das bedeutet, die Intelligenz eines Menschen kann auf knapp 30 handelsübliche 4TB-Festplatten gespeichert werden.

Zum Vergleich: die Menge an Information, die in unserem Erbgut enthalten ist, beträgt ungefähr 1,5 Gigabyte. Sie passt damit auf eine halbe DVD. Unser Gehirn enthält mit ca. 602 TByte ungefähr 400'000 Mal mehr Informationen. Um diese Datenmenge zu speichern, bräuchten wir ungefähr 130'000 DVD's. Nun fragen Sie sich, was mehr Einfluss auf den Menschen hat, ist es die DNA oder das Wissen, was in dem Gehirn gespeichert ist?

Wenn es Gesellschaftsschichten mit niedrigen Bildungsniveaus gibt, dann kann das niemals daran liegen, dass die Menschen über schlechte Gene verfügen. Es liegt vielmehr daran, dass diese Menschen in einem Millieu leben, in dem die Intelligenz nicht gefördert wird. Und das führt dazu, dass in wichtigen Wachstumsphasen Lücken entstehen, die nicht wieder aufgeholt werden können.

Dieser Kreislauf könnte ganz leicht unterbrochen werden. Man müsste lediglich Bedingungen schaffen, welche Intelligenz fördern. Aber die Menschen verändern ihre Verhaltensmuster nur sehr ungern. Und das führt dazu, dass ihr Lebenstil von einer Generation an die nächste vererbt wird.

Hier zeigt sich einmal mehr, dass Intelligenz nicht mit der genetischen Herkunft korreliert werden kann. Es zeigt auch, wie eminent wichtig eine ausgewogene Ausbildung ist. Wenn Sie also etwas Gutes tun wollen, dann sorgen Sie dafür, dass ihre Nachkommen in einem Millieu aufwachsen, welche Intelligenz fördert.

Wieviel Rechenleistung braucht das Gehirn?

Wie wir gesehen haben, ist ein handelsüblichen Computer ungefähr 40 Millionen mal schneller, als das Gehirn, das nur mit 10 bis 100 Hertz arbeitet. Dafür werden die Anweisung in einem Computer nacheinander ausgeführt und nicht parallel, wie beim menschlichen Gehirn. Und das impliziert, dass ein Computer die Parallelität von 40 Millionen Neuronen abbilden kann.

In einem menschlichen Gehirn können aber sehr viel mehr Neuronen parallel arbeiten. Und das kann nur bedeuten, dass die Rechenleistung eines handelsüblichen Computers nicht genügt, um die Intelligenz eines Menschen abzubilden. Wenn wir also wissen möchten, wieviel Rechenleistung wir benötigen, müssen wir zunächst einmal klären, wieviele Neuronen im Gehirns gleichzeitig aktiviert sein können.

Wir wissen, dass das Gehirn ungefähr 20 Prozent der verfügbaren Energie benötigt. Davon wird die Hälfte benötigt, um die Ruhepotentiale aller Neuronen zu versorgen. Das bedeutet, dass theoretisch jede Zelle gleichzeitig aktiviert werden kann.

In der Praxis geschieht das jedoch nicht. Denn das Gehirn geht sparsam mit der Rechenleistung um, indem es beispielsweise bestimmte Areale nicht gleichzeitig, sondern nacheinander aktiviert. Deshalb ist es fast unmöglich, eine exakte Prozentangabe zu machen, wieviele Neuronen gleichzeitig aktiviert werden können.

Wenn wir uns das Gehirn anschauen, werden wir feststellen, dass der Großteil der Rechenkapazität dafür benötigt wird, den Körper zu steuern. Wir werden ausserdem feststellen, dass die eigentliche Intelligenz in der Großhirnrinde steckt. Und die kommt mit ca. 16 Milliarden Neuronen aus.

Nehmen wir an, dass das Gehirn in Notfällen die Hälfte aller Neuronen gleichzeitig aktiviert, dann hätten wir es mit 8 Milliarden Neuronen zu tun, die mit ungefähr 100 Hertz betrieben werden. Daraus folgt, dass wir mit ca. 800 Milliarden Rechenoperationen pro Sekunde zurecht kommen sollten.

Die Geschwindigkeit von Großrechnern wird in FLOPS (Gleitkommaoperationen pro Sekunde) gemessen. Dies passt sehr gut, denn in einem Neuron findet bei jeder Aktivierung eine Gleitkommaoperation statt. Was wir benötigen, ist demnach ein Computer, der über eine Rechenleistung von ca. 800 GFLOPS verfügt.

Handelsübliche PC's schaffen derzeit so um die 40 GFLOPS. Grafikkarten schaffen sogar bis zu 600 GFLOPS. Um die benötigte Rechenleistung zu erhalten, sollte ein etwas schnellerer PC genügen, der mit zwei hochwertigen Grafikkarten bestückt ist.

Schlusswort

Um die Intelligenz eines Menschen abzubilden, genügen bereits ein schneller PC mit ein paar handelsübliche Speicher­modulen und Grafikkarten. Wir können also festhalten, die Hardware kein Hindernis mehr darstellt, wenn es um die Realisierung von neuronalen Netzwerken geht, die ebenso intelligent sind, wie Menschen.

Diese Erkenntnis sollte uns sehr nachdenklich stimmen. Denn stellen Sie sich einmal vor, was wohl geschehen, wird, wenn die Computer eine Intelligenz entwickeln, die mit unserer ebenbürtig ist. Niemand kann sagen, wie sich die KI's verhalten werden.

Es ist auch nicht anzunehmen, dass sie jemand daran hindern wird, noch intelligenter zu werden, als die Menschen. In diesem Fall stellt sich die Frage, wer wem dienen wird.

All das sind Fragen, die wir vermutlich bald beantworten müssen. Hoffen wir, dass uns die KI's wohlgesonnen sein werden.

September 2017