Vil solen stige op i morgen?

Laplace, Bayes og maskinindlæring i dag

Det er måske ikke et spørgsmål, som du bekymrede dig meget for. Når alt kommer til alt ser det ud til at ske hver dag uden fejl.

Men hvad er sandsynligheden for, at solen kommer op i morgen?

Tro det eller ej, dette spørgsmål blev overvejet af en af ​​matematikens allermest store Pierre-Simon Laplace i sit banebrydende arbejde i 1814, " Essai philosophique sur les probabilités".

Grundlæggende var Laplaces behandling af spørgsmålet beregnet til at illustrere et mere generelt koncept. Det var ikke et seriøst forsøg på at estimere, om solen faktisk vil stige op.

I sit essay beskriver Laplace en ramme for probabilistisk ræsonnement, som vi i dag anerkender som Bayesian.

Den Bayesiske tilgang danner en grundsten i mange moderne maskinlæringsalgoritmer. Men den krævede beregningskraft til at bruge disse metoder har kun været tilgængelig siden sidste halvdel af det 20. århundrede.

(Indtil videre ser det ud til, at den aktuelle moderne AI holder stille om spørgsmålet om morgendagens solopgang.)

Laplaces ideer er stadig relevante i dag på trods af at de er udviklet for mere end to århundreder siden. Denne artikel gennemgår nogle af disse ideer og viser, hvordan de bruges i moderne applikationer, måske planlagt af Laplaces samtidige.

Pierre-Simon Laplace

Født i den lille Normandie-kommune Beaumont-en-Auge i 1749 blev Pierre-Simon Laplace oprindeligt markeret til at blive teolog.

Men mens han studerede ved University of Caen, opdagede han en strålende evne til matematik. Han flyttede til Paris, hvor han imponerede den store matematiker og fysiker Jean le Rond d'Alembert.

I en alder af 24 blev Laplace valgt til den prestigefyldte Académie des Sciences.

Laplace var en forbløffende produktiv videnskabsmand og matematiker. Blandt hans mange bidrag skiller hans arbejde med sandsynlighed, planetarisk bevægelse og matematisk fysik sig ud. Han tællede figurer som Antoine Lavoisier, Jean d'Alembert, Siméon Poisson og endda Napoleon Bonaparte som hans samarbejdspartnere, rådgivere og studerende.

Laplaces “Essai philosophique sur les probabilités”var baseret på et foredrag, han holdt i 1795. Det gav en generel oversigt over ideer indeholdt i hans arbejde ”Théorie analytique des probabilités”, der blev offentliggjort to år tidligere i 1812.

I “Essai philosophique” giver Laplace ti sandsynlighedsprincipper. De første par dækker grundlæggende definitioner, og hvordan man beregner sandsynligheder i forbindelse med uafhængige og afhængige begivenheder.

Principper otte, ni og ti vedrører anvendelsen af ​​sandsynligheden for det, vi i dag kan beskrive som cost-benefit-analyse.

Den sjette er en vigtig generalisering af Thomas Bayes 'eponymiske sætning fra 1763.

Det hedder, at sandsynligheden for hver mulig årsag for en given begivenhed findes ved at gange den tidligere sandsynlighed for denne årsag med en brøkdel.

Denne brøkdel er sandsynligheden for, at begivenheden stammer fra den bestemte årsag divideret med sandsynligheden for, at begivenheden finder sted af en hvilken som helst årsag.

Denne sætninges indflydelse inden for maskinlæring kan ikke overvurderes.

Det syvende princip er det, der har skabt mest kontrovers siden offentliggørelsen. Den faktiske ordlyd er dog uskadelig nok.

Det er snarere Laplaces valg af at diskutere sandsynligheden for, at solen kommer op næste dag ved hjælp af et illustrativt eksempel, der igen har trukket til latterliggørelse og indsigelse i de følgende to århundreder.

Reglen om arv bruges stadig i dag under forskellige former og undertiden i den oprindeligt beskrevne form Laplace.

Faktisk repræsenterer successionsreglen et vigtigt tidligt skridt i at anvende Bayesiansk tænkning på systemer, hvor vi har meget begrænsede data og ringe eller ingen forudgående viden. Dette er et udgangspunkt, der ofte står over for i moderne maskinlæringsproblemer.

Laplaces arveregel

Det syvende sandsynlighedsprincip givet i Laplace's “Essai philosophique”er i det væsentlige ligetil.

Det hedder, at sandsynligheden for, at en given begivenhed finder sted, findes ved at summere sandsynligheden for hver af dens potentielle årsager ganget med sandsynligheden for, at den årsag giver anledning til den pågældende begivenhed.

Laplace fortsætter derefter med at skitsere et eksempel baseret på at trække kugler fra urner. Så langt så godt. Intet omstridt endnu.

Imidlertid beskriver han derefter, hvordan man fortsætter med at estimere sandsynligheden for, at en begivenhed finder sted i situationer, hvor vi har begrænset (eller faktisk ingen) forudgående viden om, hvad denne sandsynlighed kan være.

"On trouve ainsi qu'un événement étant arrivé de suite un nombre quelconque de fois, la probabilité qu'il arrivera encore la fois suivante est égale à ce nombre augmenté de l'unité, divisé par le même nombre augmenté de deux unités."

Som oversættes til engelsk: "Så man finder for en begivenhed, der har fundet sted et antal gange indtil nu, sandsynligheden for, at det vil forekomme igen næste gang, er lig med dette antal steget med en divideret med det samme antal øget med to" .

Eller i matematiknotation:

Det vil sige, givet s succeser ud af n forsøg, er sandsynligheden for succes i det næste forsøg ca. (s + 1) / (n + 2).

For at gøre sit punkt holder Laplace ikke tilbage:

“... par eksempler, remonter la plus ancienne époque de l'histoire à cinq mille ans, ou à 1.826.213 jours, et le soleil s'étant levé constamment dans cet intervalle, à chaque revolution de vingtquatre heures, il ya 1.826.214 à parier contre un qu'il se lèvera encore demain ”

Som oversættes som: “… for eksempel, givet solen er steget hver dag i de sidste 5000 år - eller 1.826.213 dage - er sandsynligheden for, at den vil stige i morgen 1.826.214 / 1.826.215”.

På 99,9% er det et ret sikkert væddemål. Og det bliver kun mere sikkert hver dag, solen fortsætter med at stige.

Alligevel erkender Laplace, at selv denne sandsynlighed er urimeligt lav for nogen, der forstår den mekanisme, hvormed solen stiger og ikke ser nogen grund til, at den skal ophøre med at fungere.

Og det viser sig, at denne kvalifikation måske er lige så vigtig som selve reglen. Når alt kommer til alt antyder det, at vores forudgående kendskab til et system er kodet i de antagelser, vi gør, når vi tildeler sandsynligheder til hvert af dets potentielle resultater.

Dette gælder i maskinlæring i dag, især når vi prøver at lære af begrænsede eller ufuldstændige træningsdata.

Men hvad er begrundelsen for Laplaces successionsregel, og hvordan lever den videre i nogle af nutidens mest populære maskinindlæringsalgoritmer?

Intet er umuligt?

For bedre at forstå betydningen af ​​Laplace's regel skal vi overveje, hvad det betyder at have meget lidt forudgående viden om et system.

Sig, at du har en af ​​Laplaces urner, som du ved indeholder mindst en rød kugle. Du ved intet andet om indholdet af urnens “system”. Måske indeholder den mange forskellige farver, måske indeholder den kun den ene røde kugle.

Træk en kugle fra urnen. Du kender sandsynligheden for, at den bliver rød, er større end nul og enten mindre end eller lig med en.

Men da du ikke ved, om urnen indeholder andre farver, kan du ikke sige sandsynligheden for at tegne rødt bestemtsvarer til en. Du kan simpelthen ikke udelukke nogen anden mulighed.

Så hvordan estimerer du sandsynligheden for at trække en rød kugle fra urnen?

I henhold til Laplace's successionsregel kan du modellere tegning af en kugle fra urnen som et Bernoulli-forsøg med to mulige resultater: “rød” og “ikke-rød”.

Før vi har trukket noget fra urnen, har vi allerede tilladt, at to potentielle resultater eksisterer. På den måde har vi effektivt "pseudotællet" to imaginære træk fra urnen og observeret hvert resultat en gang.

Dette giver hvert resultat ("rødt" og "ikke-rødt") en sandsynlighed på 1/2.

Efterhånden som antallet af træk fra urnen øges, bliver effekten af ​​disse pseudotællinger mindre og mindre vigtig. Hvis den første kugle, der trækkes, er rød, opdaterer du sandsynligheden for, at den næste er rød til (1 + 1) / (1 + 2) = 2/3.

Hvis den næste bold er rød, opdateres sandsynligheden til 3/4. Hvis du bliver ved med at tegne rødt, når sandsynligheden stadig tættere på 1.

I dagens sprog vedrører sandsynligheden et prøveområde. Dette er et matematisk sæt med alle mulige resultater for et givet "eksperiment" (en proces, der vælger et af resultaterne).

Sandsynligheden blev sat på et formelt aksiomatisk grundlag af Andrey Kolmogorov i 1930'erne. Kolmogorovs aksiomer gør det let at bevise, at et prøveområde skal indeholde mindst et element.

Kolmogorov definerer også sandsynligheden som et mål, der returnerer et reelt værdsat tal mellem nul og et for alle elementer i prøveområdet.

Naturligvis er sandsynligheden en nyttig måde at modellere virkelige verdenssystemer på, især når du antager fuldstændig viden om indholdet af prøveområdet.

Men når vi ikke forstår systemet ved hånden, kender vi ikke prøveområdet - bortset fra det skal det indeholde mindst et element. Dette er et almindeligt udgangspunkt i mange sammenhænge med maskinindlæring. Vi er nødt til at lære indholdet af prøveområdet, når vi går.

Derfor bør vi tillade, at prøveområdet rummer mindst et ekstra, alt-sammen-element - eller, hvis du vil, det "ukendte ukendte". Laplaces successionsregel fortæller os at tildele det ”ukendte ukendte” sandsynligheden for 1 / n + 2 efter n gentagne observationer af kendte begivenheder.

Selv om det i mange tilfælde er praktisk at ignorere muligheden for ukendte ukendte, er der epistemologiske grunde til altid at lade sådanne begivenheder eksistere.

Et sådant argument er kendt som Cromwells regel, opfundet af den afdøde Dennis Lindley. Citering af det 17. århundredes Oliver Cromwell:

"Jeg beder jer om, i Kristi tarm, at det er muligt, at I kan tage fejl"

Denne ret dramatiske erklæring beder os om at tillade en fjern mulighed for det uventede at forekomme. På det sprog med Bayesian-sandsynligheden betyder det, at vi altid kræver en ikke-nul-prioritet.

Fordi hvis din tidligere sandsynlighed er sat til nul, vil intet bevismateriale nogensinde overbevise dig om andet. Når alt kommer til alt vil selv det stærkeste bevis for det modsatte stadig give en bageste sandsynlighed for nul, når den ganges med nul.

Indsigelser og et forsvar af Laplace

Det kan være lidt overraskende at høre, at Laplace's solopgangseksempel tiltrak meget kritik fra hans samtidige.

Folk protesterede mod den opfattede enkelhed - selv naivitet - af Laplaces antagelser. Tanken om, at der var 1 / 1.826.215 sandsynlighed for, at solen ikke ville stige den følgende dag, syntes absurd.

Det er fristende at tro, at der i betragtning af et stort antal forsøg skal ske en sandsynlighedshændelse, der ikke er nul. Og derfor, at observere så mange på hinanden følgende solopgange uden en eneste fiasko indebærer helt sikkert, at Laplace's skøn er en overestimering?

For eksempel kan du forvente, at du efter en million forsøg ville have observeret en en-til-en-million begivenhed - næsten garanteret pr. Definition! Hvad er sandsynligheden for at gøre andet?

Nå, du ville ikke blive overrasket, hvis du kastede en fair mønt to gange uden at lande hoveder. Det ville heller ikke give anledning til bekymring, hvis du rullede en matrix seks gange og aldrig så nummer seks. Dette er hændelser med sandsynlighed henholdsvis 1/2 og 1/6, men det garanterer absolut ikke deres forekomst i de første to og seks forsøg.

Et resultat tilskrevet Bernoulli tilbage i det 17. århundrede finder grænsen som sandsynligheden 1 / n og antallet af forsøg nbliver meget stor:

Selvom du i gennemsnit vil have observeret mindst en forekomst af en begivenhed med sandsynlighed 1 / n efter n forsøg, er der stadig større end 1/3 chance for, at du ikke vil.

Ligeledes, hvis den sande sandsynlighed for, at solen ikke stiger, virkelig var 1 / 1.826.215, så skulle vi måske ikke være så overraskede, at en sådan begivenhed aldrig er blevet registreret i historien.

Og uden tvivl er Laplaces kvalifikation for generøs.

Det er rigtigt, at for en person, der hævder at forstå den mekanisme, hvormed solen stiger hver dag, skal sandsynligheden for, at den undlader at gøre det, være meget tættere på nul.

Alligevel forudsætter vi en forståelse af en sådan mekanisme, at vi har forudgående kendskab til systemet ud over det, vi har observeret. Dette skyldes, at en sådan mekanisme implicit antages konstant - med andre ord sand for alle tider.

Denne antagelse lader os på en måde "tryllebinde" et ubegrænset antal observationer - oven på dem, vi faktisk har observeret. Det er en antagelse, der kræves af ingen ringere end Isaac Newton, i begyndelsen af ​​den tredje bog i hans berømte "Philosophiae Naturalis Principia Mathematica".

Newton skitserer fire ”Ræsonnementsregler i filosofi”. Den fjerde regel hævder, at vi kan betragte propositioner, der stammer fra tidligere observationer, som "næsten næsten sande", indtil de modsiges af fremtidige observationer.

En sådan antagelse var afgørende for den videnskabelige revolution på trods af at det var et spark i tænderne for filosoffer som David Hume, der berømt argumenterede for induktionsproblemet.

Det er dette epistemologiske kompromis, der lader os gøre nyttig videnskab og til gengæld opfinde teknologi. Et eller andet sted langs linjen, da vi ser den anslåede sandsynlighed for, at solen ikke falder op stadig tættere på nul, tillader vi os selv at "runde ned" og hævde en fuldgyldig videnskabelig sandhed.

Men alt dette ligger formentlig uden for rækkevidden af ​​det punkt, som Laplace oprindeligt søgte at gøre.

Faktisk er hans valg af et solopgangseksempel uheldigt. Reglen om arv kommer virkelig til sin ret, når den anvendes på helt ukendte “black-box” -systemer, som vi har nul (eller meget få) observationer for.

Dette skyldes, at arvereglen giver et tidligt eksempel på en ikke-informativ prior.

Hvordan man antager så lidt som muligt

Bayesiansk sandsynlighed er et grundstenskoncept i moderne maskinlæring. Algoritmer som Naive Bayes-klassificering, Expectation Maximization, Variational Inference og Markov Chain Monte Carlo er blandt de mest populære i brug i dag.

Bayesiansk sandsynlighed refererer generelt til en fortolkning af sandsynligheden, hvor du opdaterer din (ofte subjektive) tro i lyset af nye beviser.

To nøglebegreber er tidligere og bageste sandsynligheder.

Posterior sandsynligheder er dem, vi tilskriver efter opdatering af vores tro over for nye beviser.

Tidligere sandsynligheder (eller 'priors') er dem, vi holder for at være sande, før vi ser nye beviser.

Dataforskere er interesserede i, hvordan vi tildeler tidligere sandsynligheder til begivenheder i mangel af nogen tidligere viden overhovedet. Dette er et typisk udgangspunkt for mange problemer inden for maskinlæring og forudsigende analyse.

Priors kan være informative, i den forstand de kommer med "meninger" om sandsynligheden for forskellige begivenheder. Disse “meninger” kan være stærke eller svage og er normalt baseret på tidligere observationer eller på anden måde rimelige antagelser. Disse er uvurderlige i situationer, hvor vi hurtigt vil træne vores maskinlæringsmodel.

Prior kan dog også være ikke-informativ. Dette betyder, at de antager så lidt som muligt om de respektive sandsynligheder for en begivenhed. Disse er nyttige i situationer, hvor vi ønsker, at vores maskinlæringsmodel skal lære af en tom tilstand.

Så vi må spørge: hvordan måler du, hvor "informativ" en tidligere sandsynlighedsfordeling er?

Informationsteori giver et svar. Dette er en gren af ​​matematik, der vedrører, hvordan information måles og kommunikeres.

Information kan tænkes i form af sikkerhed eller mangel på dem.

Når alt kommer til alt, i hverdagens forstand, jo mere information du har om en begivenhed, jo mere sikker er du om dens resultat. Mindre information svarer til mindre sikkerhed. Dette betyder, at informationsteori og sandsynlighedsteori er uløseligt forbundet.

Informationsentropi er et grundlæggende begreb i informationsteorien. Det tjener som et mål for den usikkerhed, der er forbundet med en given sandsynlighedsfordeling. En sandsynlighedsfordeling med høj entropi er en, som resultatet er mere usikkert for.

Måske intuitivt kan du begrunde, at en ensartet sandsynlighedsfordeling - en fordeling, som hver begivenhed er lige sandsynlig for - har den højest mulige entropi. Hvis du f.eks. Vendte en fair mønt og en partisk mønt, hvilket resultat ville du være mindst sikker på?

Informationsentropi giver et formelt middel til at kvantificere dette, og hvis du kender noget beregning, kan du tjekke beviset her.

Så den ensartede fordeling er i en meget reel forstand den mindst mulige informative distribution. Og af den grund træffer det et indlysende valg for en uinformativ prior.

Måske har du set, hvordan Laplaces successionsregel faktisk svarer til at bruge en ensartet tidligere? Ved at tilføje en succes og en fiasko, før vi overhovedet har observeret nogen resultater, bruger vi en ensartet sandsynlighedsfordeling til at repræsentere vores "forudgående" tro på systemet.

Derefter, når vi observerer flere og flere resultater, overvægter bevisets vægt i stigende grad det tidligere.

Casestudie: Naive Bayes-klassificering

I dag generaliseres Laplace's successionsregel til additiv udjævning og pseudotælling.

Dette er teknikker, der giver os mulighed for at bruge sandsynligheder, der ikke er nul, til begivenheder, der ikke er observeret i træningsdata. Dette er en vigtig del af, hvordan algoritmer til maskinindlæring er i stand til at generalisere, når de står over for input, der ikke er set tidligere.

For eksempel tage Naive Bayes klassifikation.

Dette er en enkel, men alligevel effektiv algoritme, der kan klassificere tekstlige og andre passende tokeniserede data ved hjælp af Bayes 'sætning.

Algoritmen trænes i et korpus af præklassificerede data, hvor hvert dokument består af et sæt ord eller “features”. Algoritmen begynder med at estimere sandsynligheden for hver funktion givet en bestemt klasse.

Ved hjælp af Bayes 'sætning (og nogle meget naive antagelser om funktionsuafhængighed) kan algoritmen derefter tilnærme de relative sandsynligheder for hver klasse i betragtning af de funktioner, der er observeret i et tidligere uset dokument.

Et vigtigt trin i Naive Bayes-klassifikationen er at estimere sandsynligheden for, at en funktion observeres inden for en given klasse. Dette kan gøres ved at beregne den hyppighed, hvor funktionen observeres i hver af klassens poster i træningsdataene.

For eksempel kan ordet "Python" muligvis forekomme i 12% af alle dokumenter klassificeret som "programmering" sammenlignet med 1% af alle dokumenter klassificeret som "opstart". Ordet "lær" kan forekomme i 10% af programmeringsdokumenterne og 20% ​​af alle opstartsdokumenter.

Tag sætningen "lær Python".

Ved hjælp af disse frekvenser finder vi sandsynligheden for, at sætningen klassificeres som "programmering" er lig med 0,12 × 0,10 = 0,012, og sandsynligheden for, at den bliver klassificeret som "opstart" er 0,01 × 0,20 = 0,002.

Derfor er "programmering" mere sandsynligt for disse to klasser.

Men denne frekvensbaserede tilgang løber ind i problemer, når vi overvejer en funktion, der aldrig forekommer i en given klasse. Dette vil betyde, at det har en frekvens på nul.

Naiv Bayes-klassifikation kræver, at vi multiplicerer sandsynligheder, men at multiplicere noget med nul vil naturligvis altid give nul.

Så hvad sker der, hvis et tidligere uset dokument indeholder et ord, der aldrig er observeret i en given klasse i træningsdataene? Denne klasse anses for umulig - uanset hvor ofte hvert andet ord i dokumentet forekommer i den klasse.

Additiv udjævning

En fremgangsmåde kaldet additiv udjævning tilbyder en løsning. I stedet for at tillade nul frekvenser, tilføjer vi en lille konstant til tælleren. Dette forhindrer usynlige klasse / funktionskombinationer i at spore klassifikatoren af.

Når denne konstant er lig med en, er additiv udjævning det samme som at anvende Laplaces successionsregel.

Ud over Naive Bayes-klassifikation anvendes additiv udjævning i andre sandsynlige maskinindlæringssammenhænge. Eksempler inkluderer problemer i sprogmodellering, neurale netværk og skjulte Markov-modeller.

I matematiske termer svarer additiv udjævning til at bruge en beta-distribution som et konjugat forud for udførelse af Bayesian-inferens med binomiale og geometriske fordelinger.

Betafordelingen er en familie af sandsynlighedsfordelinger defineret over intervallet [0,1]. Det tager to formparametre, αog β. Laplaces successionsregel svarer til indstilling α= 1 og β = 1.

Som diskuteret ovenfor er fordelingen af ​​beta (1,1) den, for hvilken informationsentropi maksimeres. Der er dog alternative prioriteter for tilfælde, hvor antagelsen om en succes og en fiasko ikke er gyldig.

For eksempel er Haldanes tidligere defineret som en beta (0,0) distribution. Det gælder i tilfælde, hvor vi ikke engang er sikre på, om vi kan give mulighed for et binært resultat. Haldanes tidligere placerer en uendelig mængde "vægt" på nul og en.

Jeffreys tidligere, beta (0,5, 0,5) distribution, er en anden ikke-informativ prior. Det har den nyttige egenskab, at det forbliver uændret under reparameterisering. Dens afledning er uden for denne artikels anvendelsesområde, men hvis du er interesseret, skal du tjekke denne tråd.

Ideernes arv

Personligt finder jeg det fascinerende, hvordan nogle af de tidligste ideer inden for sandsynlighed og statistik har overlevet mange års stridigheder og stadig finder udbredt anvendelse i moderne maskinlæring.

Det er ekstraordinært at indse, at indflydelsen på ideer, der er udviklet for mere end to århundreder siden, stadig mærkes i dag. Maskinindlæring og datalogi har fået reel dynamik i det sidste årti eller deromkring. Men fundamentet, hvorpå de er bygget, blev lagt længe før de første computere var tæt på realisering.

Det er ikke tilfældigt, at sådanne ideer grænser op til vidensfilosofien. Dette bliver især relevant, da maskiner bliver mere og mere intelligente. På hvilket tidspunkt kan fokus skifte til vores bevidsthedsfilosofi?

Endelig, hvad ville Laplace og hans samtidige have med maskinlæring i dag? Det er fristende at foreslå, at de vil blive forbløffede over de fremskridt, der er gjort.

Men det ville sandsynligvis være en bjørnetjeneste for deres fremsyn. Den franske filosof René Descartes havde trods alt skrevet om en mekanistisk filosofi tilbage i det 17. århundrede. Beskriver en hypotetisk maskine:

“Je désire que vous considériez… toutes les fonctions que j'ai attribuées à cette machine, comme… la réception de la lumière, des sons, des odeurs, des goûts… l'empreinte de ces idées dans la mémoire… et enfin les mouiations extérieurs… qu'ils imitent le plus parfaitement mulig ceux d'un vrai homme… betragteriez que ces fontions… de la seule disposition de ses organes, ni plus ni moins que font les mouiations d'une horloge… de celle de ses contrepoids et de ses roues ”

Hvilket oversættes som: ”Jeg ønsker, at du overvejer, at alle de funktioner, jeg har tilskrevet denne maskine, såsom ... modtagelse af lys, lyd, lugt og smag ... aftryk af disse ideer i hukommelsen ... og endelig de eksterne bevægelser, som imiter så perfekt som muligt et sandt menneskes ... Overvej at disse funktioner kun er under organernes kontrol, ikke mere eller mindre end et urs bevægelser er mod dets vægte og hjul ”

Passagen ovenfor beskriver en hypotetisk maskine, der er i stand til at reagere på stimuli og opføre sig som et ”sandt menneske”. Det blev offentliggjort i Descartes 'værk "Traité de l'homme" fra 1664- hele 150 år før Laplaces “Essai philosophique sur les probabilités”.

Faktisk så det 18. og tidlige 19. århundrede opførelsen af ​​utroligt sofistikerede automater af opfindere som Pierre Jaquet-Droz og Henri Maillardet. Disse urværk androider kunne "programmeres" til at skrive, tegne og afspille musik.

Så der er ingen tvivl om, at Laplace og hans samtidige kunne forestille sig forestillingen om en intelligent maskine. Og det ville helt sikkert ikke have undgået deres opmærksomhed, hvordan fremskridt inden for sandsynlighedsfeltet kunne anvendes på maskinens intelligens.

Lige i begyndelsen af ​​"Essai philosophique" skriver Laplace om en hypotetisk superintelligens, der med tilbagevirkende kraft hedder "Laplace's Demon":

“Une intelligence qui, pour un instant donné, connaîtrait toutes les forces dont la nature est animée, et la situation respect des des êtres qui la composent, si d'ailleurs elle était assez vaste pour soumettre ces données à l'analyse… rien ne serait incertain pour elle, et l'avenir comme le passé, serait présent à ses yeux ”

Som oversættes som: ”En intelligens, der i et givet øjeblik kender alle de kræfter, hvormed naturen animeres, og den respektive situation for de væsener, der komponerer den, og hvis den var stor nok til at underkaste disse data til analyse ... intet ville være usikker på det, og fremtiden som fortid, ville være til stede i dens øjne ”.

Kunne Laplace's dæmon realiseres som en af ​​Descartes 'intelligente maskiner? Moderne følelser tyder overvældende på nej.

Alligevel kan Laplaces forudsætning i mindre målestok snart blive en realitet takket være hans eget banebrydende arbejde inden for sandsynlighedsområdet.

I mellemtiden vil solen (sandsynligvis) fortsætte med at stige.