Neuigkeiten:

Wiki * German blog * Problems? Please contact info at psiram dot com

Main Menu

Auf dem Weg in die Symbiose mit KI?

Postings reflect the private opinion of posters and are not official positions of Psiram - Foreneinträge sind private Meinungen der Forenmitglieder und entsprechen nicht unbedingt der Auffassung von Psiram

Begonnen von Typee, 22. November 2023, 09:34:49

« vorheriges - nächstes »

Typee

Das hier schreibt nicht irgend ein Windei oder eine durchgeknallte größenwahnsinnige Melone mit Problemen, eine Rakete hochzukriegen, sondern der Direktor des MPI für Evolutionsbiologie:

https://www.mpg.de/20900866/W001_Zur-Sache_014-019.pdf

Ich verstehe das so, dass höchstens noch drei oder vier Generationen ins Land gehen, bis wir symbiotisch mit KI werden leben müssen. Ich habe mich etwas erschrocken, gebe ich zu.
The universe is under NO obligation to make sense to us
(Neil deGrasse Tyson)

Max P

Kommt mir alles sehr abstrakt und definitionsbedürftig vor. Was meint er z.B. mit "Bewusstsein"? Will er im Ernst sagen, dass eine KI eine ihrer selbst bewusste Entität sei oder ist das irgendwie im übertragenen Sinne gemeint? Spricht er von einer globalen, einzigen KI-Entität oder von vielen KI-en? Und was ist überhaupt Intelligenz? Mir sind das zu viele Schlagwörter, bei denen ich nicht weiß, welche genauen Bedeutungen sie haben sollen. Wenn sie diese denn haben.
"Ich habe die Demokratie mit ihren eigenen Regeln zur Strecke gebracht."
Adolf Hitler

Typee

Na, so einfach lässt sich das nicht abtun. Der das schrieb, ist kein Neurowissenschaftler, sondern Evolutionsbiologe und denkt hier über die Möglichkeiten von Evolutionsprozessen nach – um was genau es da geht, ist da grundsätzlich gar nicht so wichtig, vor allem nicht, was Intelligenz nun ist oder nicht ist. Ihn interessiert ein Vorgang, in dem zwei Beteiligte so zu interagieren beginnen, dass sie aufeinander angewiesen sind und dadurch einen evolutionären Vorteil erkämpfen. Sein Beispiel war ja auch das Verwachsen von eukaryotischen Zellen und urtümlichen Bakterien, die in einer höheren Organisationsform arbeitsteilig in einer komplexen Zelle zusammenwirken.

Richtig interessant wird das in Bezug auf KI, wenn man in demselben Heft den unmittelbar folgenden Artikel aus den Neurowissenschaften liest, in dem es um zwei unterschiedliche Systeme räumlicher Orientierung geht und was da alles dranhängt – Gedächtnisleistungen und ihre Organisation zum Beispiel. Als Kleinkinder wechseln wir von einer egozentrischen Orientierung – wo bin ich, und wo ist ein Gegenstand im Verhältnis zu mir? – zu einer landkartenähnlichen allozentrischen: wo ist ein Gegenstand im räumlichen Gitternetz? Im Greisenalter beginnt der Prozess sich umzukehren, und weil die Gedächtnisleistungen mit diesem räumlichen Gitternetz verknüpft sind, verschwimmt diese Orientierungsleistung wieder – besonders stark, wenn bei Erkrankungen des Alzheimertyps auftreten: Orientierung und Gedächtnis schwinden parallel zueinander.

Schon der Gebrauch von Navisystemen auf Mobiltelefonen, im Prinzip eine egozentrische Orientierung, ersetzt vermehrt das Kartenlesen in fremden Städten. Der MPI-Neurowissenschaftler Doeller, um dessen Arbeit es da geht, hält Beeinträchtigungen des Orientierungssinns hierdurch durchaus für möglich, was dann aber auch mit Auswirkungen auf Gedächtnisleistungen haben könnte. Und da kommen die Aspekte zusammen:

Das Navi ist noch keine KI, wie auch immer ,,Intelligenz" verstanden wird. Aber nehmen wir an, es wird üblich, die eigenständige räumliche Orientierung durch das Tragen von 3D-Datenbrillen zu ersetzen (wir ersetzen ja auch den Fußweg durch die Stadt durch beknackte E-Scooter), dann haben wir ein Einfallstor für Technik, die Orientierung und Gedächtnis beeinflussen könnte. Auch das ist noch nicht KI; aber aus dem evolutionsbiologischen Aufsatz habe ich gelernt, dass KI tatsächlich auch lernt, wie sie sich Kontroll- und Steuerungsvorkehrungen entziehen kann. Nehmen wir das hinzu, könnte es schon dazu kommen, dass die Wahrnehmung unserer Umwelt und die Abbildung, die wir von ihr abspeichern, von Dingen abhängt, die wir nicht kontrollieren. Es entsteht eine Art Symbiose, die sich dann durchsetzt, wenn sie als Symbiose leistungsfähiger ist, als vorhandene Systeme.
Ganz klar ein evolutionärer Prozess.
The universe is under NO obligation to make sense to us
(Neil deGrasse Tyson)

eLender

Zitat von: Typee am 25. November 2023, 15:30:08Na, so einfach lässt sich das nicht abtun.
In der Tat. Das Thema wird scheinbar auch nicht wirklich großartig beachtet, ggf., weil es einem Angst macht. Das sollte es vll. auch, aber es ist zu bedeutsam und zu wichtig, um es hier untergehen zu lassen.

Das Thema hat Implikationen, die sehr weit reichen, nicht nur was Arbeitsplätze angeht (also die Praxis), auch philosophische / erkenntnistheoretische und skeptisch / rationale Themen müssen entweder neu- oder zumindest anders gesehen werden. Das hat sogar etwas mit unserem Projekt zu tun (also Wiki und Co. inkl. Forum) bzw. unserem Anliegen.

Ich weiß, klingt alles sehr überzogen und abstrakt, aber ich kann das weiter ausführen. Ich habe mich ein wenig tiefer in das Thema eingelesen (auch mit der Hilfe von KIs) und wollte verstehen, wie das im Detail funktioniert. Also das mit den ChatBots bzw. den LLMs. Ich hatte mich schon früher mit neuronalen Netzen beschäftigt (war Thema meiner Abschlussarbeit). Daher kenne ich die Dinger ein wenig, aber wie das für eine Art Menschenersatz verwenden werden kann, hatte ich noch nicht verstanden bzw. mich nicht weiter beschäftigt.

Man muss leider etwas tiefer in das Thema einsteigen, auch versuchen zu verstehen, wie das (informations-)technisch genauer funktioniert. Die meisten Artikel, die für die breite Öffentlichkeit gedacht sind, sind entweder nur schwer zu verstehen (weil zu abstrakt, zu wenig technisch), oder zu sehr vereinfacht, um das tatsächliche Potential zu verstehen.

Ich werde hier mal den bisher besten Text / die beste Darstellung abarbeiten, die ich zu dem Thema bisher gefunden habe (ich werde es zumin. versuchen). Es geht hier nicht um KI im Allgemeinen, sondern um genau das, was ich verstehen wollte: die Chatbots (das ist aber verallgemeinerbar auf andere Ansätze, etwa Bildgeneratoren).

Ich hatte schon damals den Eindruck, künstliche neuronale Netze (KNNs)* sind der Schlüssel, um überhaupt einen (experimentellen) Zugang zum Thema Intelligenz und Bewusstsein zu finden. Ich hatte das sehr technisch eingesetzt (Prognosemodell), aber mir schon gedacht, dass das eines Tages für ganz andere Dinge, womöglich auch menschenähnliche Eigenschaften, eingesetzt wird. Es ist letztendlich eine Frage der Masse und der technischen Möglichkeiten, für was man KNNs verwenden kann. Ich glaube tatsächlich, wir haben einen Punkt erreicht, wo es greifbar ist, dass die Dinger uns Menschen in vielen Bereichen (intellektuell) überlegen sein werden.

Ich weiß, da ist viel Spekulation und Angst / übertriebene Euphorie im Spiel. Man hat immer noch Schwierigkeiten, Intelligenz und Bewusstsein überhaupt zu definieren. Aber wenn sie einem begenet, wird man sie erkennen ::)  Vll. schon hier im Faden. Also, genug der Vorrede, hier der Beitrag (leider nur Englisch, aber ich kann mal versuchen, die wichtigsten Punkte rauszugreifen und noch etwas dazu senften).

Ich nehme mal als Zitat einen Absatz, der ziemlich weit unten steht, der aber ein wenig zusammenfasst, warum man das Thema verstehen sollte.

ZitatIs the LLM really just predicting the next word or is there more to it? Some researchers are arguing for the latter, saying that to become so good at next-word-prediction in any context, the LLM must actually have acquired a compressed understanding of the world internally. Not, as others argue, that the model has simply learned to memorize and copy patterns seen during training, with no actual understanding of language, the world, or anything else.

>> https://medium.com/data-science-at-microsoft/how-large-language-models-work-91c362f5b78f



*das ist der eigentliche Schlüssel, der selbst in dem Beitrag etwas kurz kommt. Der Schlüssel zu einer sehr merkwürdigen Welt... ::)
Wollte ich nur mal gesagt haben!

eLender

So, erste Vorlesungsstunde ::)

Der oben verlinkte Text hält erst mal eine Vorrede, die dem Verständnis dient. Ich springe aber gleich mal zum zentralen Punkt in der Geschichte: die Neuronalen Netzwerke (NNs, auch künstliche NNs, weil sie was mit den Neuronen im Hirn zu tun haben). Das sieht so aus:


Erscheint erstmal komisch, ist aber etwas ganz Einfaches. Aber der Reihe nach. Man hat hier so eine Art Rechenvorschrift (ein Modell, eine Abbildung, eine Funktion), man steckt vorne eine Katze etwas rein, und bekommt hinten etwas raus. Bei den Chatbots steckt man vorne in der Eingabeaufforderung (dem Cursor) einen Text rein (in der Regel eine Frage), und bekommt hinten eine Antwort heraus. Das kann man auch mit Bildern oder allem anderem machen. Aber nur, wenn man das, was man vorne reinsteckt, auch als Zahl(-enkolonne) ausdrücken kann. Das ist der notwendige Schritt bei allem, was nicht schon zahlenmäßig vorliegt.

Ist bei Texte erst mal komisch, weil das ja Buchstaben und Wörter sind. Die kann man aber in Zahlen umwandeln, also codieren (man ordnet Wörtern z.B. einfach Werte zu, das sind die sog. Token, ist aber nur nebensächlich). Hinten kommt wieder eine Zahl raus, die man dann in ein Wort zurückverwandeln kann. Das Wort hängt man an den vorne eingegebenen Satz und das füttert man dann vorne wieder rein. Das "Merkwürdige" ist erstmal (es wird immer merkwürdiger, je weiter man sich das absieht), dass das dann tatsächlich eine sinnvolle Antwort ist, als würde man mit einem Menschen reden.

Stop! Das ist erst mal ganz grob, wie das funktioniert. Aber wie und was hat das mit Intelligenz zu tun? 

Intelligenz ist hier erst mal eine Bezeichnung für Mustererkennung. Die Worte (>Zahlen) haben eine bestimmte Reihenfolge(! > Muster), die typisch für bestimmte Inhalte ist (ganz generell). Wenn in einem Satz bestimmte Worte hintereinander vorkommen, dann hat das ein bestimmtes Muster (nicht nur Grammatik, die lernt das Model so nebenbei), das man dann finden kann, wenn man sich (unglaublich viele) solcher Texte ansieht. Das sieht dann so aus (ich komme dann nochmal genauer darauf, was diese Bildchen eigentlich darstellen (nein, nicht, was das für ein Tier ist)):



Es heißt ja, diese Sprachmodelle nehmen nur einen Text (eine Eingabe) und "erraten" dann, welches Wort als Nächstes kommt (und spielen das ganze dann mit dem erweiterten Satz/Text wieder durch, bis ein beliebig langer Text entsteht). Das machen die zwar so, aber es wird der Sache nicht annähernd gerecht. Sie raten nämlich nicht, sie wissen :o

Und woher wissen die das? Weil sie es gelernt haben. Das ist eigentlich (mMn) das Einzigartige an den Dingern, sie können lernen. Und zwar unbegrenzt, jeden noch so komplexen Zusammenhang (hängt nur davon ab, wie groß das Netz ist; hier wird nur beispielhaft ein winziges Netzlein gezeigt, die realen LLMs haben mehr "Knoten" als das menschliche Gehirn).*

Solche NNs, die schon die richtige "Antwort" kennen, sind bereits "trainiert", d.h. sie haben die Zusammenhänge schon gelernt. Aber wie kommen sie überhaupt zu ihrem Wissen?

Das erzähle ich in der nächsten Vorlesungsstunde. Ich bleibe erst noch mal den fertigen Teilen (das ist letztendlich das, was man so im Alltag nutzt). Die sind schon mit den ganzen Daten gefüttert, die sie finden können. Das sind unglaubliche Mengen an Text (das ganze Internet und mehr), die sie in ihrem Netz gespeichert haben. Aber nicht wirklich die Texte, sondern die Muster in den Texten (so auch das "Wissen", das in den Texten steckt). Die fertige Netzstruktur bildet sozusagen das Wissen ab, wie solche Texte aussehen und erzeugt (generiert GPT) werden können.

Sie haben die Welt (so wie sie in den Texten beschrieben wird) in sich aufgenommen, sie haben Wissen, die Welt ist in kleinerem Maße in der Struktur solcher Netze abgebildet (mal salopp gesagt: als neuronales Korrelat ::) ). Das ist eine der vielen Parallelen mit dem menschlichen Gehirn. Hier kann man Wissen auch als eine Struktur des Hirns (der neuronalen Netzwerke) sehen. Das bildet sich auch erst durch Lernen (abgesehen von dem, was man schon vorher im evolutionärem Prozess "erlernt" hat - Stichwort: unbeschriebenes Blatt, komme noch mal darauf). Daher kann man schon sagen, die Dinger "denken". Also: immer höflich bleiben, wenn man mit dem Chatbot seiner Wahl redet :angel:




*ich komme noch auf die Implikationen, erst mal das technische Zeugs, auch, warum das was mit Grafikkarten und PC-Zockern zu tun hat
Wollte ich nur mal gesagt haben!

eLender

Jetzt gehts ans Eingemachte :ohnmacht:

Weil das immer so abstrakt beschrieben wird, wie so ein neuronales Netz eigentlich aussieht, wie es aufgebaut ist und wie es arbeitet/rechnet, will ich das mal konkreter machen. Es ist aber einfacher, als man glaubt.

Das Bildchen mit dem Netz oben zeigt ja nur Punkte, die mit Linien verbunden sind. Und man achte darauf, dass da Pfeile eingezeichnet sind. Das soll andeuten, dass da irgendetwas von links (Eingang) nach rechts (Ausgang) "läuft" (geschickt wird), bzw. dass die Daten immer von den linken Knoten zu den rechten Knoten rübergereicht werden. Und wie gesagt, das können nur Zahlen sein, weil das ein mathematisches Modell ist, das halt mit Zahlen rechnet. Diese Punkte (oder Knoten, Neuronen) sind einfache Recheneinheiten, die Werte aufnehmen, berechnen, und wieder abgeben (etwas bildlich gesprochen, in Wirklichkeit sind das Rechenvorschriften, wie man sie auf ein Blatt Papier kritzeln könnte). Kommt aber aufs Gleiche heraus.

Hier mal ein Bildchen, wie so ein Knoten aussieht:


Stammt aus dem Artikel: https://www.golem.de/news/kuenstliche-intelligenz-wie-sich-deep-learning-vom-gehirn-unterscheidet-2202-162231.html  (der die Sache mit dem Hirn vergleicht, schenke ich mir erst mal, aber davon ist das alles inspiriert)

Das ist ein "Neuron" (Knoten), der mitten im Netz steckt (ist gegenüber dem oberen Bild aus meinem letzten Beitrag auch nach oben gedreht). Die "Eingangswerte" sind hier entweder die Werte, die ich in das Modell stecke (also hier: die in eine Zahl verwandelten Wörter), oder die Werte eines Neurons aus einer Zwischenschicht. Die Eingangsneuronen sind halt gegeben, die reichen nur die Zahl an die Neuronen der Zwischenschicht weiter. In diesen werden dann die Werte der Eingangsneuronen irgendwie zu einer neuen Zahl zusammengerechnet, die dann an die nächste Schicht weitergegeben wird (am Bildchen orientieren!).

Im Bild hier ist das als die Funktion y=pi*Daumen ::)  dargestellt. Man muss das jetzt nicht im Detail verstehen, aber man nimmt die Eingangswerte, multipliziert diese mit einer Zahl ("Gewicht"- die ist wichtig, weil man die variieren kann, was das "Lernen" erst ermöglicht), rechnet diese zusammen (addiert) und transferiert/wandelt diese Zahl dann nochmal (man könnte die einfach zum Quadrat nehmen oder die Wurzel daraus ziehen). Immer aufs Bildchen schauen, dann wirds hoffentlich klar.

Die Zahl, die man jetzt im Knoten (Neuron) errechnet hat, schickt man an die Neuronen der nächsten Schicht. Wenn das die Ausgabeschicht ist (die rechte im Bild oben), dann ist das auch das Ergebnis. Also wieder eine Zahl (oder mehrere), die man in ein Wort übersetzten kann.

Ich beschreibe das deshalb so im Detail, weil das irgendwie zu einfach klingt, um damit so eine komplizierte Sache wie eine Mustererkennung oder gar eine Textgenerierung machen zu können. Man denkt vll., das müssen unglaublich komplizierte Formeln und ganz verwickelte Algorithmen sein, die z.B. aus einem einfachen Eingangssatz eine so komplexe Sache wie einen verständlichen Text machen. Aber es ist recht simpel (es braucht natürlich noch ein paar Schritte - komme noch drauf - aber viel mehr ist das nicht). Man kann mit sehr einfachen Regeln, die man nur oft genug (in sehr großer Zahl) anwendet, unendlich komplexe Sachen machen. (die Evolution "kennt" ja erstmal auch nur einfache Regeln, was man daraus machen kann, sieht man...)

Was da genau passiert, warum man mit so einer Konstruktion auch die komplexesten Zusammenhänge (Abbildungen) errechnen / erkennen kann, ist - soweit ich das bisher weiß - nicht wirklich verstanden. Es ist eine "Black Box" (heißt tatsächlich so), weil man vorne etwas reinsteckt, und hinten etwas herausbekommt, man aber gar nicht weiß, was dazwischen (in der Kiste) genau passiert (obwohl man in die Kiste schauen kann, man wird nicht schlau draus). Man hat sich einfach mal angesehen, wie das im Hirn aussieht (s. Bild) und das vereinfacht nachgebaut. Man hat wie die Schienäsen einfach abgekupfert, ohne genau zu wissen, wie das genau funktioniert.

Ich will es erst mal bei der Beschreibung belassen und im nächsten Schritt erklären, wie man so ein Netz denn nun auf irgendwelche Zusammenhänge (Muster) "trainiert". Im Moment ist das Netz erst mal im Rohzustand (Blank State), ich habe noch nicht an den Schrauben gedreht, damit ein sinnvoller Ausgangswert aus den Eingangswerten erzeugt / errechnet wird. Das ist nämlich das eigentliche Wunder, hier kommt die "Magie" ins Spiel (nuja, das ist der eigentliche Trick an der Sache). Die "Schrauben" sind die genannten "Gewichte", also die Zahlen, mit denen die Eingangswerte multipliziert werden, bevor sie weiter verwurstet werden.

Die kann ich variieren, solange, bis es stimmt (also hinten das herauskommt, was herauskommen soll). Man kann sich das bildlich vorstellen: Man hat eine Kiste mit Stellschrauben, die miteinander verbunden sind. Jetzt kann ich an diesen Schrauben mit einem Schraubenzieher solange rumdrehen, bis das Netz richtig eingestellt ist.

Wie das gemacht wird, ist dann Thema der nächsten Vorlesungsstunde. Es ist auch wieder einfacher, als man glaubt. Und dann wieder umso verwunderlicher, warum das dann trotzdem so komplexe Dinge ermöglicht. Man wundert sich immer wieder, nichwa.

Wollte ich nur mal gesagt haben!

eLender

Nun zu dem Trick, wie man die Schrauben richtig einstellt, damit hinten das rauskomt, was man erwartet (bzw. was Sinn macht). Bildchen:


(die "Schwellenwerte kann man mal ignorieren (hat was mit der Übertragungsfunktion in den Neuronen zu tun (s. oben)) - wichtig sind die Verbindungsstärken (durch die Dicke der Linien angedeutet), die man variieren kann)

Nochmal zur Erinnerung: die Eingabewerte (Schicht) sind unsere Wörter (vor dem Ausgabewort) in Zahlenform. Der Ausgabewert ist das Wort, das dann als Nächstes käme. Das ist ja bekannt, weil man das Modell mit bekannten Sätzen trainiert (was man dann nicht mehr macht, wenn das Model fertig trainiert ist, weil es die Antwort ja gelernt hat). Der ganze Prozess des Trainings ist ein schrittweiser Verbesserungsprozess, der so lange an den Schrauben (den Gewichtungen zwischen den Neuronen) dreht, bis das Ergebnis zur Erwartung passt (oder zumindest möglichst nahe dran liegt). Hat was von Evolution ::)

Man kennt diese richtigen Gewichte nicht, daher startet man einfach mit irgendwelchen Werten. Dann lässt man das Modell einfach mit diesen Werten aus den Eingangswerten einen Ausgangswert berechnen und schaut sich den an.

Der stimmt natürlich in der Regel nicht, wäre glatter Zufall, wenn es so wäre. Jetzt kann man aber messen, wie weit der Unterschied zwischen berechneten und tatsächlichen  (erwarteten) Wert ist (wie man das macht, erspare ich mir erst mal, aber wenn ein Wort wie "Elefant" statt "Mehrfamilienhaus" die richtige Lösung wäre, dann kann man schon intuitiv erkennen, dass das was mit den "Merkmalen" eines solchen Wortes (der Semantik) zu tun hat. Komme ggf. nochmal darauf, sehr trickreiche Sache das).

Jetzt kann man an den Schrauben drehen (die Gewichte leicht ändern) und sich das ganze nochmal berechnen lassen. Wenn man jetzt näher am richtigen Wert ist, ist man auf der richtigen Spur. Es wird immer so variiert, dass der Fehler (die Abweichung) minimiert wird. Dafür gibt es bestimmte Algorithmen, z.B. kann man Werte stärker ändern, wenn die Abweichung größer ist. Die Details sind nicht so wichtig, es ist ein automatisch laufender Optimierungsprozess, der nach einem Minimum sucht.

Man macht das nicht nur für einen Satz/Text (der ja selbst in zig Teile zerlegt wird), sondern mit Tausenden bis Millionen (k.A., vll. sind es sogar noch mehr) an Beispielen (der Trainingssatz). Hat man dann irgendwann den Fehler (im Mittel) bestmöglich verringert, dann ist das Training abgeschlossen, und man hat ein trainiertes Model, das schon fast einsatzfähig ist.

Einsatzfähig heißt, es kann aus einem eingegebenen Text eine Wortergänzung machen. Das heißt auch, dass die Verbindungsstärken (Gewichte) feststehen und man die (in der Regel) dann in der Anwendung so lässt.

Mehr heute erst mal nicht, das ist auch schon fast das ganze Rätsel. Warum man mit so einem Verfahren quasi das ganze Wissen der Menschheit in ein Netz pumpen kann, ist kaum anschaulich (es ist auch nicht wirklich zu verstehen). Man muss sich aber vergegenwärtigen, dass so ein Netz in der Realität riesig ist, man also unglaublich viele Freiheitsgrade (also Möglichkeit) hat, das Netz zu strukturieren. D.h., man kann darin beinahe unendliche Mengen an Mustern speichern. Das geschieht, wie gesagt, durch automatisiertes Training, einschalten und Kaffeetrinken gehen....



Es gibt natürlich noch ein paar weitere Tricks, auf die ich ggf. nochmal komme. Aber es ist letztendlich einfach eine Frage der schieren Masse an Daten und Rechenkapazität (so ein Training eines großen Sprachmodells benötigt ganze Rechenzentren und Megawattstunden an elektrischer Energie, dauert auch lange, ich glaube Wochen bis Monate).

Es geht hier auch nur darum, eine Vorstellung zu bekommen, wie das grob funktioniert. Keine Hexerei, obwohl... ::)
Wollte ich nur mal gesagt haben!

eLender

Letzte Vorlesungsstunde ::)  (ist ja plötzlich so leer im Hörsaal :'( )

Nur noch ein Hinweis zu der Technik, damit man zumindest eine grobe Vorstellung hat, wie das funktioniert. Mir war das bis vor Kurzem auch nicht klar, nur in ganz groben Zügen (und ich habe bei Weitem noch nicht alles verstanden). Es gibt immer neue Tricks, wie man das ganze verbessern kann und dann ganz neue, auch überraschende Ergebnisse bekommt. Nochmal, weil ich das immer wieder lese: Man experimentiert herum und ist erstaunt, was dann passiert. Man sieht plötzliche Dinge, die man dem Modell gar nicht explizit beigebracht hat. Da sind selbst die Einsteins unter den KI-Forscher überrascht.

OK, zur Sache. Was noch zu klären ist, wie denn nun die Wörter in das Modell (beim Training, aber auch bei der Anwendung, wenn das Modell trainiert ist). Ich habe nicht die ganze Wahrheit erzählt, aber ich habe mich ja auch nur an dem orientiert, was der obige Beitrag (mein "Leitartikel") erzählt hat :angel:

Da heißt es, man wandelt die Wörter, die man in das Modell füttert, erst in Zahlen um, weil das Modell halt nur Zahlen verarbeiten kann. Das ist aber nur die halbe Wahrheit. Ich führe mal ein wenig aus:

Wenn man einem Wort eine beliebige Zahl zuordnet, dann hat die Zahl an sich keine weitere Bedeutung. Stellt sich natürlich erstmal die Frage, wie man eine Bedeutung durch eine Zahl ausdrücken soll (komme gleich dazu).

Erst mal ein anderes Beispiel, damit die Problematik klar wird. Wenn man einen anderen Zusammenhang abbilden will, z.B. eine Temperaturentwicklung, dann kann man verschiedene Temperaturen zu verschiedenen Zeitpunkten messen. Das ist eine Zeitreihe, die einen typischen Verlauf hat (der Tagesgang der Temperatur an einem Tag/Ort). Ich kann einen großen Datensatz mit diesen Werten nehmen und daraus ein Modell / eine Vorhersage machen (das hat ein bestimmtes Muster, eine Regelhaftigkeit, die ich aber nicht genau kenne, die das Neuronale Netz (NN) aber aus den Daten "erlernt").

Z.B. könnte ich mir anhand der Temperaturen der letzte 3 Stunden den Wert für die übernächste Stunde berechnen lassen (erst mit bekannten Daten trainieren, und dann unbekannten Wert vorhersagen lassen). Jetzt haben die Zahlen aber eine echte Bedeutung, sie stehen für eine physikalische Größe, die irgendwie was mit Naturgesetzen zu tun hat. Und die Naturgesetze sind nicht beliebig (wichtiger Punkt: Es gibt Zusammenhänge/Muster, die einfach da sind, und nur die kann so ein Modell erkennen. Die Realität ist also auch außerhalb unserer Köpfe vorhanden, darauf komme ich nochmal, weil das eine der wichtigen Implikationen ist, die sich aufdrängen).

Würde ich die Temperaturen jetzt willkürlich durch irgendeine beliebige Zahl ersetzen (z.B. mache ich aus 20 °C ne 3, aus 10 °C ne 33), dann haben die Werte keine wirkliche Bedeutung mehr. Würde ich also "echte" Werte (die eine Bedeutung haben) durch beliebige Werte ersetzen, dann würde das mit dem Modell nicht mehr funktionieren (ich könnte das NN nicht mehr so trainieren, dass es eine Vorhersage ermöglicht). Das ist aber bei den Wörtern dann der Fall, wenn ich sie durch beliebige Zahlen ersetze (wiedergebe), so wie das hier aktuell beschrieben ist. Die Zahlen bedeuten nichts.

Aber wie soll ich Wörtern mit Zahlen irgendeine Bedeutung geben? Zumindest reicht es nicht aus, ein Wort nur durch eine Zahl zu ersetzen. Wenn ich stattdessen jedem Wort ganz viele Zahlen zuordne, dann kann ich die Bedeutung ggf. besser erfassen bzw. beschreiben. Das ist wirklich tricky und ich hatte auch etwas Schwierigkeiten, das zu verstehen. Ich versuche mal anzudeuten, wie das geht (und viel mehr als dieses "Andeutungsverständnis" hat man wohl auch nicht, man braucht es auch gar nicht :o ).

Man finde häufig dieses Beispiel: Königin und König. Beide haben einen hohen "Adeligkeitsfaktor", unterscheiden sich aber in einem Aspekt: dem Geschlecht. Eine Gräfin wäre dann "näher" bei einer Königin, als bei einem König. Verstanden? ::)

Es geht prinzipiell nur darum, Wörter mit (zahlenmäßigen) Merkmalen zu belegen, um ihre Nähe oder Ähnlichkeit abzubilden (um eine Bedeutung des Wortes durch eine Zahl, oder mehrere Zahlen, in die Eingangsschicht des NN zu bringen). Königin und König hätten z.B. einen hohen Wert der Adeligkeit, aber Gräfin und Königin einen anderen Wert der Geschlechtlichkeit (es soll ja ein Spektrum sein... ::) ). Mal ein Bildchen, vll. wird das etwas klarer (man muss das aber tatsächlich nicht wirklich verstehen, weil das zu abstrakt ist und weil es letztendlich für das Modell nur eine notwendige Info ist, die eben nicht beliebig ist).



In Wirklichkeit ist das noch viel komplexer als hier dargestellt. Man kann Wörter in einen "Merkmalsraum" beliebiger Dimension "abbilden" (hier ist nur ein dreidimensionaler Raum dargestellt, aber evtl. erkennt man das Prinzip). Je mehr Dimensionen der Raum hat (ich weiß, jetzt wird es wenig anschaulich), desto mehr Werte kann ich einem Wort zuordnen. Eine Liste an mehreren / vielen Werten nennt man auch Vektor. Die Werte / Zahlen sind hier die x,y,z-Koordinaten des Wortes im Merkmalsraum. Zahlen!

Ich kürze mal ein wenig ab, weil ich darauf ggf. nochmal komme. Die Wörter für das NN (beim Training sowie bei der letztendlichen Anwendung) werden nicht nur in einfache Zahlen (Token) übersetzt, sondern in solche Wortvektoren, die einen gewissen Zusammenhang oder auch Bedeutung (Semantik) dieser Wörter widerspiegeln. Man nennt diese Wortvektoren auch Embeddings (weil sie in einen "Bedeutungsraum" eingebettet sind).

Wie man das macht, erkläre ich nochmal. Das ist das, was mir erst am meisten Kopfschmerzen bereitet hat, aber es ist wieder (relativ) einfach. Man macht das natürlich auch mit einem NN, weil man so komplexe Muster (Bedeutung der Wörter / Beziehungen untereinander) erstens kaum erfassen kann, und zweitens niemals per Hand alle vorhandenen Wörter einer Sprache so klassifizieren könnte. Es würde auf keine Kuhhaut passen und würde auch zu lange dauern. Also lässt man die DrecksArbeit wieder die unermüdlichen NNs machen, die sind günstiger als selbst die Schienäsen ::)
Wollte ich nur mal gesagt haben!

eLender

Ich denke, ich werde hier nicht weiter in die technischen Details gehen, auch weil es langsam doch etwas schwieriger wird mit dem Verstehen (auch für mich, dann kann ich das auch nicht mehr erklären). Vll. hat man ein gewisses Grundverständnis gewonnen, auch wenn man nicht viel schlauer geworden ist. Das ist aber gar nicht so schlimm, weil es in dem ganzen Bereich, selbst für die Insider, viel Unklarheiten gibt. Man stolpert irrt sich voran, wie sich das in der Wissenschaft und Technik auch gehört.

Generell ist das als Laie auch schwer zu verstehen, man müßte das langwierig studieren und sich sehr konzentrieren. Da hat alles sehr viel von Trail and Error, man hat vage Konzepte (das liegt auch an der Natur der Sache, gerade was Sprache angeht) und versucht, das irgendwie rechnerisch abzubilden. Ich hatte mich zuletzt mit dem Konzept der "Self-Attention" (kaum zu erklärender bzw. übersetzender Begriff) beschäftigt. Es geht letztendlich immer darum, Konzepte, die man in der natürlichen Sprache beobachtet, in solche Modelle einzubringen (immer daran denken, das können sehr komplexe Zusammenhänge sein, die man gar nicht mathematisch beschreiben kann, die man aber durch NNs trainieren / erkennen lassen kann).

Ich hatte dazu eine Artikelserie des KI-Chefs von Meta (FB und Co.) auf LinkedIn gelesen. Ich zitiere nur mal einen Satz, der das Voranirren "zugibt" (Kommi kommt gleich):

ZitatI don't really know why this and why not something else, but a lot of things in deep learning are trial and error and I suspect this works well

(das sind mehrere Beiträge / Serie, hier gehts los: https://www.linkedin.com/pulse/understanding-chatgpt-from-scratch-guide-jon-snow-part-rohit-patel?trk=article-ssr-frontend-pulse_little-text-block)

Finde ich gut, dass der das so sagt. Man merkt, dass er selbst in der Entwicklung ist. Er beschreibt alles so, dass man das am ehesten verstehen kann, auch wenn es dann irgendwann zu abstrakt /rechnerisch wird. Es gibt sehr viele Beiträge anderer, die komplett unverständlich sind, weil die meisten Autoren das wahrscheinlich selbst nicht ganz verstanden haben.

Es reicht halt nicht zu beschreiben, wie etwas (vermeintlich) funktioniert; wichtiger ist, dass man deutlich macht, dass man gar nicht genau weiß, wie das letztendlich funktioniert, nur dass es funktioniert ::)

So, ich möchte dann langsam zu den Implikationen kommen. Die sind welterschütternd :ohnmacht:

Achso: das wollte ich zumind. noch hier abladen (aber heute nicht mehr erklären; fasst das zusammen, was man so im Hinterkopf behalten könnte...)

Wollte ich nur mal gesagt haben!

Juliette

Eine interessante These, die Hugging Face-Gründer Thomas Wolf in einem Interview aufstellt (diese Firma gehört zu den bedeutendsten KI-Unternehmen):

ZitatWas er damals realisiert habe: Um ein guter Forscher zu sein, reicht es nicht, alle wissenschaftlichen Aufsätze gelesen zu haben, alle Fakten miteinander verknüpft zu haben – und dann kommen die guten Ideen von allein. "Der wichtigste Aspekt der Wissenschaft ist die Fähigkeit, die richtigen Fragen zu stellen", sagt Wolf. "Und auch das, was man gelernt hat, zu hinterfragen." Kurzum: Für die richtig großen wissenschaftlichen Durchbrüche müssen Forscherinnen und Forscher in der Lage sein, gegen den Konsens zu denken. Und es sind laut Wolf genau diese seltenen Durchbrüche – etwa Einsteins Relativitätstheorie oder die Gen-Schere CRISPR –, die den Großteil des wissenschaftlichen Fortschritts ausmachen. Der Rest: vor allem Rauschen. "Albert Einstein war nicht der beste Student", sagt Wolf. Nicht derjenige, der brav die Fragen der Professoren beantwortete.

https://www.zeit.de/digital/2025-03/generative-ki-sprachmodelle-wissenschaft-durchbrueche-entwicklung

Ich muss gestehen, ich bin voreingenommen und da einer Meinung mit ihm.  :angel:
"Die Zukunft war früher auch besser." Karl Valentin

Peiresc

Nun ja. Die übergroße Mehrzahl derjenigen, die gegen den Strom denkt, hat jedenfalls nichts mit Wissenschaft zu tun. Und bei Einstein fällt mir dann auch gleich Popper ein: wenn die Genialität so was Seltenes ist, dann ist sie auch nicht vorhersehbar, und es ist zwangsläufig einigermaßen belletristisch, sich auszumalen, wie die Technologie oder gar die Wissenschaft in einigen Jahrzehnten sein werden. Dazu kommt, dass die transhumanistischen Seifenblasen, die ich mir bisher angeschaut habe, reaktionäre Utopien sind.

Andererseits: vor mehr als einem halben Jahrhundert ist Stanislaw Lem auf die Idee gekommen, die Entwicklung der Technologie (man sollte das von der Wissenschaft gedanklich trennen) mit der biologischen Evolution zu vergleichen (die ersten Autos sahen genauso aus wie Kutschen, mit einem Haufen Atavismen). Ich hatte das Buch als Jugendlicher gelesen und war beeindruckt, dass die Technik sich tatsächlich in der von ihm skizzierten Richtung bewegt hat. Inzwischen habe ich alle Einzelheiten wieder vergessen, aber vielleicht lese ich es noch einmal.

Völlig OT und dann auch wieder nicht:
Mal ein Beispiel. Ich werde das Gefühl nicht los, dass die KI überschätzt wird. Mein jüngstes Erlebnis, weniger als 24 Stunden alt, geht so. Ich wollte wissen, wer ,,Don Allen" ist, von dem nichts weiter bekannt ist, als dass er ein Buch geschrieben hat. Über ihn lässt sich mit gewöhnlicher Suche nichts finden (und etwaige Treffer werden von dem prominenteren "Allen, Don Cameron" maskiert). In Online-Buchquellen (z. B. Gutenberg) wird er als "Don Allen (Allen, Don, pseud)" geführt. Ich habe die KI danach gefragt. Die Antwort war:

ZitatThe book you are referring to is "The Resurrection of Jesus: An Agnostic's View," written by the agnostic philosopher and writer, Paul-Louis Couchoud. Published in 1893, Couchoud's work explores the concept of the resurrection from a skeptical perspective, arguing against the literal interpretation of the resurrection story and examining its implications within the context of Christian belief.

Ich habe natürlich nach Belegen gefragt, aber nur die Empfehlung bekommen, in Datenbanken und Nachschlagewerken zu suchen. Das ist eine Antwort, wie man sie von einem Troll erwartet. Die KI ist allein mit ihrer Meinung: "Keine Ergebnisse für "The Resurrection of Jesus: An Agnostic's View" "Couchoud" gefunden", sagt Google. Auch war Couchoud im Jahr 1893 fünfzehn Jahre alt - nicht das Alter, dem man eine Buchpublikation zutrauen möchte, und dann noch in einer fremden Sprache in einem fernen Land.

Ich schätze also, sie hat halluziniert. Eine Halluzination ist definiert als ein Sinneseindruck ohne äußeren Reiz. Da die KI aber keine Außenwelt sondern Texte kennt, kann sie auch nicht erkennen, dass sie halluziniert. Sie kann keinen Korrespondenzbegriff der Wahrheit haben.

Anders läge der Fall, wenn sie Sensoren hätte und eine Möglichkeit, auf die Umwelt einzuwirken. Dann könnte sie sich über Versuch und Irrtum entwickeln, und wir wären bei Stanislaw Lem.

PS: Das Buch (von Lem, nicht von Allen ;) ) heißt Summa technologiae.

Eratosthenes

Zitat von: Peiresc am 30. März 2025, 05:32:52Summa technologiae

Sehr zu empfehlen, ich möchte zwar nicht behaupten, dass ich damals mit 15 alles verstanden hatte, aber was Lem da (1963?) vorausgesagt und vorweggenommen hat, unnglaublich.

ZitatInzwischen habe ich alle Einzelheiten wieder vergessen, aber vielleicht lese ich es noch einmal.

Gute Idee, aber offensichtlich habe ich es mal irgendwem "ausgeliehen"  :wut . Naja was solls "Regalhaltung ist Buchquälerei"

Zum "Reinschnuppern" und "Erinnern":

https://www.lehmanns.de/media/1460529/1?PHPSESSID=fim6om551hm04pa2t8ssb2ulu5

https://german.lem.pl/werke/essays/summa-technologiae/108-leseprobe



Sollen sie doch Salzteig essen!
Das kleinere Übel wird auch immer grösser.

Max P

Off topic: Mein Lieblingsbuch von Stanislaw Lem ist "Der futurologische Kongress". Ich besitze sogar noch die alte Ausgabe mit psychedelisch-türkisfarbener Schrift. Lems andere Bücher sind natürlich auch allesamt sehr lesenswert, nur beispielsweise die "Sterntagebücher". Unvergessen wie Raumpilot Pirx, damals noch Kadett, mit einem gefährlichen Kurzschluss im Raumschiff zu kämpfen hatte, weil eine Fliege ins Cockpit gelangt ist...
"Ich habe die Demokratie mit ihren eigenen Regeln zur Strecke gebracht."
Adolf Hitler

Eratosthenes

Zitat von: Max P am 30. März 2025, 12:40:10Off topic: Mein Lieblingsbuch von Stanislaw Lem ist "Der futurologische Kongress". Ich besitze sogar noch die alte Ausgabe mit psychedelisch-türkisfarbener Schrift. Lems andere Bücher sind natürlich auch allesamt sehr lesenswert, nur beispielsweise die "Sterntagebücher". Unvergessen wie Raumpilot Pirx, damals noch Kadett, mit einem gefährlichen Kurzschluss im Raumschiff zu kämpfen hatte, weil eine Fliege ins Cockpit gelangt ist...

Nett, dass Du nicht gespoilert hast :-)

Oder er sich selber verprügelt hat, weil er zuerst allein mit seinem Raumschiff in eine Zone mit Zeitstrudeln flog, er jeden Morgen in einer anderen Kopie aufwachte, sich aber weder selber noch seine dutzende Zwillinge, auch nicht mit Fäusten, überreden konnte gemeinsam das Leitwerk zu reparieren, bei dem Innen einer mit dem Schraubenschlüssel dagegen hätte halten müssen, damit die Schraube nicht durchdreht, während ein anderer von aussen festzieht.  Erschwerend es gab nur einen Raumanzug an Bord. :rofl2  :rofl

Sollen sie doch Salzteig essen!
Das kleinere Übel wird auch immer grösser.

eLender

Zitat von: Juliette am 30. März 2025, 01:27:26Eine interessante These, die Hugging Face-Gründer Thomas Wolf in einem Interview aufstellt (diese Firma gehört zu den bedeutendsten KI-Unternehmen):

In dem Bereich wird viel spekuliert, ganz einfach deshalb, weil keiner genau weiß, wohin die Reise geht und wo sie endet. Solche Aussagen - wie die von Wolf - sind auch nur Spekulation, zumal ziemlich widersprüchlich. Das hören manche zwar gerne, aber woher will er das wissen? Es gibt Hypes in beide Richtungen: Entweder soll sich das alles als ein gigantischer Flop erweisen, oder es steht die ultimative Superintelligenz kurz bevor. Ich halte das für keinen Flop und würde mich nicht wundern, wenn wir in absehbarer Zeit eine sehr menschenähnliche (mglw. überlegene) KI sehen werden. "Überlegen" ist schwer zu fassen, weil das sehr viele Domänen betrifft. Ich glaube auch nicht unbedingt, dass die KI in allen Bereichen überlegen sein wird, aber dass sie z.B. nicht auch kreativ und erfinderisch sein sollte, unterschätzt die Entwicklung. Natürlich haben die Dinger noch Macken, sind in vielen Bereichen nicht ausgereift und können vieles nicht, was der menschliche Verstand kann (aber Irren könne sie sich schonmal ::) ).

Aber immer daran denken: noch nicht. Die Entwicklung ist so rasant und teilweise spektakulär, dass ich da mit solchen Aussagen (KIs werden nie...) vorsichtig wäre. Wolf muss gegen Ende auch zugeben, dass wir schon KI-Assistenten haben, die Beiträge zu wissenschaftlichen Leistungen bringen (und widerspricht sich somit selbst). Auch wenn er sagt, KIs würden nichts Neues erzeugen und nur das wiederkäuen, was schon da ist, stimmt das nicht (komme nochmal darauf). Insgesamt ist sein Verständnis von der Art, wie Wissen generiert wird, ähm, seltsam. Neues kann natürlich durch die Verknüpfung bereits Bekanntem erzeugt werden (Einstein hat vll. auch nur Bekanntes in neuen Zusammenhang gebracht).

Wie gesagt, kann sein, kann nicht sein. Aber wissen tut das momentan keiner. Was sich immer mehr abzeichnet: Alles, was das menschliche Denken ausmacht, kann man prinzipiell auch nachbilden / abbilden (bzw. nachbilden lassen). Warum sollten KIs nicht lernen, neue Lösungen zu finden, nach neuen Fakten zu suchen etc.? Wenn man sich genauer ansieht, wie KIs arbeiten, dann wird man sehen, dass das sehr viel vom menschlichen Denken hat (das ist auch kein Zufall, man hat sich als Vorbild). Ich kann ggf. nochmal versuchen zu erklären, was es z.B. mit dem Konzept der "Self Attention" zu tun hat, eines der wesentlichen Konzepte, warum die Sprachmodelle so gut funktionieren. Das sind Innovationen, die man sich aus der menschlichen Denke abschaut und dann einfach mal einbaut. Man ist dann selbst verblüfft, dass das so einen riesigen Sprung ausmacht (den man sich auch kaum erklären kann). Da ist viel von Versuch und Irrtum am Werkeln, man stolpert langsam voran.

Ein wenig Anschauung:



Dazu ein Text: https://www.anthropic.com/research/tracing-thoughts-language-model

Alleine das zeigt schon, dass KIs an sich (noch nicht mal in der Anwendung) einen wissenschaftlichen Wert haben. Man kann an ihnen forschen und sie für ein vereinfachtes Modell der "Denkens" verwenden. "Biologie" halte ich für ein wenig übertrieben, aber es baut auf den biologischen Mustern auf, daher kann man da ähnliche Fragen stellen.

Zitat von: Peiresc am 30. März 2025, 05:32:52Ich schätze also, sie hat halluziniert.

Hat sie, und das ist auch gar nicht, was verwundert (es ist quasi der Default Mode). Der Trick ist ja gerade, wie man sie dazu bringt, nicht zu halluzinieren. Das fängt schon mit seiner eigenen Frage / Vorstellung / Erwartung / Haltung an (man kennt es aus Gesprächen mit anderen Menschen ::) )

ZitatClaude, on occasion, will give a plausible-sounding argument designed to agree with the user rather than to follow logical steps.

Es ist alles so menschlich:

ZitatClaude sometimes engages in what the philosopher Harry Frankfurt would call bullshitting—just coming up with an answer, any answer, without caring whether it is true or false. Even though it does claim to have run a calculation, our interpretability techniques reveal no evidence at all of that calculation having occurred. Even more interestingly, when given a hint about the answer, Claude sometimes works backwards, finding intermediate steps that would lead to that target, thus displaying a form of motivated reasoning.

Halluzinationen sind die Antworten ja nur dann, wenn man sie nicht so erwarten würde ;)

Frankfurter und Bullshittieren passt immer. Daher noch eine kleine Ergänzung:

ZitatAuf das Thema Bullshit kam er in den Achtzigerjahren, als er an der Yale University lehrte, damals ein Zentrum der postmodernen Literaturtheorie, in der Wahrheit als künstliches Konstrukt galt, das nichts mit einer unabhängigen Wirklichkeit zu tun hat. Dort wirkte auch Jacques Derrida, der französische Philosoph, von dessen Methode der sogenannten Dekonstruktion Harry G. Frankfurt wenig hielt. "Yale ist die Bullshit-Hauptstadt der Welt", zitierte er zustimmend einen Yale-Kollegen.
https://www.zeit.de/kultur/2023-07/harry-frankfurt-on-bullshit-tod
Wollte ich nur mal gesagt haben!