21.12.09

Endelig i gang?

Politikens forsidehistorie, og kultursektionens også, handler om Det Kongelige Bibliotek og Erland Kolding Nielsens udspil om at lade Google skanne bibliotekets bøger frem til 1940.
Ingen kan vist være i tvivl om at hvis hele vores boglige kulturarv vil blive tilgængeligt digitalt, vil dette ikke alene være et fantastisk fremskridt for forfattere, forlag, biblioteker og først og fremmest boglæsere. Det ville også markere dansk kultur internationalt.
Men i praksis har det set anderledes ud. Økonomiske og ophavsretlige problemer har i næsten et årti bogstaveligt lammet processen. Google har som den eneste virksomhed i praksis vist vilje og også evne til at løfte denne opgave. EU, den danske stat, andre søgemaskiner .... der har ikke manglet på smukke ord og hensigtserklæringer. Men vi er gang på gang blevet skuffet. I stedet er det blevet til at alle i samlet flok er faldet over Google - som stadig er den eneste der reelt får skanningen til at flytte sig.
Kig blot på indslagene på denne weblog for de seneste par måneder: Det har været en bedrøvelighed. Og nærmest udstillet hvor pauvert og figenbladsagtigt de hidtidige danske og europæiske initiativer hidtil har været.
Når ingen således har formået at opstille et alternativ til netmastodonten, må det siges at være en logisk beslutning. Nu kommer vi endelig i gang. Og det vil helt sikkert ikke blive uproblematisk. Vi er allerede sakket langt agterud. Meget skal indhentes. Google vil helt sikkert stille krav. Og kan Det Kongelige Bibliotek acceptere disse? Oxford University Library og andre europæiske biblioteker har i årevis haft aftaler.
Forhåbentligt strander dette initiativ ikke på at nogen af parterne bliver for "selvcentrerede". Men for mig at se er dette den bedste julegave dansk biblioteksvæsen, de danske bogelskere og også udenlandske interesserede overhovedet kunne have fået. Selv om den foreløbig kun er en slags "ønskeliste". Men nu lader det da i det mindste til at vi er i gang. 2010 vil vise om der også kommer noget konkret ud af det.

3 kommentarer:

Ulla de Stricker sagde ...

En rigtig rar julegave til Danmark! Tak for kommentaren Erik, og lad os håbe, aftalen kommer i stand.

jensguld sagde ...

Skal det gøres quick and dirty, så kan man kombinere grafikkerne af siderne med den OCR'ede tekst. Det vil i mange - måske de fleste - tilfælde være godt nok.
Jeg har nørklet med indskanning og OCR i en del år og der skal altså en del efterbehandling til, hvis teksten skal være helt i orden, for selv om Googles grej utvivlsomt er en størrelsesorden bedre end mit, så vil produktet stadigvæk ikke være perfekt.

Der er behov for et program, der fremfinder den ene procent af bogmasserne, som det er værd at viderebehandle efter skanning og OCR. Det må kunne gøres ved at man ser hvilke tekster, der nedhentes og hvilke der skaffes interurbant.

Jeg vil her bemærke at behovet for efterbehandling er en hel del større for bøger med tal og tabeller.

Ronni Marker sagde ...

Tja. hvis man vælger at skanne medierne ind - uden OCR, men som standard tiff/jpg/pdf kan man kunne scanne op til 55 millioner bog sider for en pris af 6 mio dkk - Det ville tage 12 måneder at gøre.

For 6 mio DKK kunne man OCR scanne (med korrektur) omkring 5 millioner sider på et år.

Så det er nu mere et spørgsmål om KB vil digitalisere alle deres medier i et billigere format, for derefter at kunne komme halvejs.