Kaj se zgodi, če znanstveniki s podatki trčijo skozi tri stoletja Robinson Crusoeja?

Brian Skerry reveals ocean's glory -- and horror (Junij 2019).

Anonim

Ker je brodska zgodba Daniel Defoe "Robinson Crusoe" prvič objavljena pred skoraj 300 leti, je bilo v več sto jezikih objavljenih več tisoč izdaj in različic spinoff.

Raziskovalna ekipa, ki jo vodi Grant Glass, doktorat znanosti. študentka v angleščini in primerjalna književnost na Univerzi v Severni Karolini na Chapel Hillu, je želela vedeti, kako se je zgodba spremenila, ko je šla skozi različne izdaje, imitacije in prevode ter ugotovila, kateri deli so bili test časa.

Branje skozi vse, vsak dan na dan, bi trajalo nekaj let. Namesto tega raziskovalci usposabljajo računalnike, da to storijo zanje.

To poletje, skupina Glass v poletnem raziskovalnem programu Data +, je uporabila računalniške algoritme in tehnike strojnega učenja za presejanje 1, 482 celotnih besedil Robinson Crusoe, ki so bili zbrani iz spletnih arhivov.

"Velikokrat razmišljamo o knjigi, ki je postavljena v kamen", je dejal Glass. "Vendar projekt, kot je ta, kaže, da je grdo. Obstaja veliko odstopanja."

"Ko vzamete knjigo, je pomembno vedeti, kaj je kopija, ker to lahko vpliva na način razmišljanja o zgodbi", je dejal Glass.

Samo besedila so dobili v obliko, ki bi jo računalnik lahko obdelal, kar se je izkazalo za polovico bitke, je povedal dodiplomski član ekipe Orgil Batzaya, Duke dvojni magisterij iz matematike in računalništva.

Knjige so bile že skenirane in objavljene na spletu, zato so študentje s programsko opremo, imenovano »strganje«, uporabili programsko opremo za prenos sken iz interneta. Ampak obdelava skeniranih strani starih tiskanih knjig, od katerih so nekatere imele pramene, pike ali obrabljene vrste in jih pretvorili v strojno berljivo obliko, so se izkazale bolj zahtevne, kot so si mislili.

Programska oprema se je borila za dekodiranje čudnih črkovanj ("deliver'd", "wish'd", "perswasions", "shore" in "shoar"), različni tipi med različicami in drugimi quirksi.

Posebni znaki, ki so edinstveni za pisave iz 18. stoletja, kot je radovedna različica črke "s" v obliki črke f, omogočajo, da celo ljudje preberejo "diftance" in "beffible" z duševnim šopom.

Njihovi prvi poskusi so nastali z gobbledygookom. "Rezultat optičnega prepoznavanja znakov je bil popolnoma neuporaben, " je dejal član ekipe in Duke senior Gabriel Guedes.

Na seji Data + plakat v avgustu so Guedes, Batzaya in zgodovina ter računalništvo dvojno velik Lucian Li predstavili svoje začetne rezultate: zbirko barvnih razpršenih ploskev, zemljevidov, diagramov poteka in grafov grafov.

Guedes je opozoril na skupine pik na omrežnem grafu. "Tukaj so rdeče izdaje ameriške, modre izdaje iz Velike Britanije", je dejal Guedes. "Grafični prikaz omrežja prepozna podobnost med vsemi izdajami in jih združuje skupaj."

Ko so optično prebrane strani pretvorile v strojno berljiva besedila, jih je ekipa hranila v strojni učni algoritem, ki meri podobnost med dokumenti.

Algoritem zajema besedne stavke, odstavke, celo celo romane - in jih pretvori v visokozmogljive vektorje.

Guedes je ustvaril to številčno predstavitev vsake knjige, kar je omogočilo izvajanje matematičnih operacij na njih. Dodali so vektorje za vsako knjigo, da bi našli svojo vsoto, izračunali sredino in si ogledali, katera izdaja je bila najbližja "povprečni" izdaji. Izkazalo se je, da je bila izdaja Robinson Crusoeja objavljena leta 1875 v Glasgowu.

Analizirali so tudi pomen posameznih ploskalnih točk pri določanju bližine te izdaje s "povprečno" izdajo: kaj je trenutek, ko Crusoe na peščeni podlagi zazna odtis in se zaveda, da ni sam? Ali je čas, ko so Crusoe in petek, potem ko so zapustili otok, v Pireneju lačni volkovi?

Rezultati ekipe se lahko zgubijo tistim, ki niso navdušeni, da se je 300 let objave zmanjšalo na grafikon. Toda z uporabo računalnikov za primerjavo tisočih knjig hkrati, znanstveniki "digitalnih humanističnih" pravijo, da je mogoče slediti obsežnim vzorcem in trendom, ki jih ljudje ne bi mogli posneti nad posameznimi knjigami.

"To je resnično nekaj, kar lahko naredi samo računalnik", je dejal Guedes, ki je kazal na časovni presledek, ki prikazuje, kako se je zgodba Crusoeja razširila po vsem svetu, zgrajena iz podatkov o kraju in datumu objave za 15.000 izdaj.

"To je oblika" oddaljenega branja ", je dejal Guedes. "To množično količino informacij uporabljate za pomoč pri oblikovanju sklepov o zgodovini objave, gibanju idej in znanju na splošno skozi čas".

menu
menu