13.11.05

Super bog-scanner.
I disse digitaliseringstider udvikler scannerne sig med lynets hast, men hvordan er det lige, at man bare kan lægge en bog ind i en scanner, som selv bladrer igennem siderne med en hastighed af 1200 sider i timen?
Kirtas Technologies præsenterer stolt deres APT BookScan 1200 med SureTurn og SmartCradle!!
Nå ja, en ting er at scanne, en anden at efterbehandle det scannede (tilskæring af sider, OCR, som muliggør søgning i dokumentet osv.) Men mon ikke en super-scanner bliver standard-udstyr på bibliotekerne en dag?

Kirtas Technologies Klik evt. videre fra forsiden til en videooptagelse af uhyret i funktion.

5 kommentarer:

Jens Guld sagde ...

Tjcha, hvor meget koster den. Hvor mange sider pr minut. Hvad er fejlprocenten under forskellige omstændigheder? Det ved vi ikke. Diverse tegnsæt, gotisk f.eks? Belysning?
Spørgsmålstegn, spørgsmålstegn.

At digitalisere vor fædrenearv er en seriøs affære.
ODS blev digitaliseret med kinesisk håndkraft. To sæt inddateringerer og så tjeckede man. Godt, men jeg er ikke sikker på at det er godt nok. Vi bør nok forlange bedre forhold for danske data. Et tredie datasæt bør inddateres og sammenlignes med de foregående. Det er seriøst det her, at I ved det.

Til nu har de centrale myndigheder ikke engang forsøgt at leve op til deres ansvar.

Jørgen Gram Christensen sagde ...

Jamen, så slå det dog op, det turde vel være såre simpelt. Er du ikke bibliotekar?

1. pris? - $150.000
"Our cost analysis, based on a 2-shift, 5 day/week operation with 90% machine availability, suggests that the cost per page will be less than 3¢ per page"
2. sider pr. minut? - ja, det er så hovedregning for begyndere. 1200 sider i timen, hvad er det i minuttet?
3. fejlprocent? - læs FAQ'en:
"Our page turning accuracy specification is 1 error per 1,000 pages. The observed rate is less than that - depending somewhat on the book"
4. tegnsæt? - det er en scanner, så den kan vel fotografere selv de særeste tegn?
Svar, svar, svar.

Men kan vi nu stole på de oplysninger? Eller er vi paranoide?
Næh nej, det er nok heller ikke godt nok til danske forhold.

Vi må efter min mening også forlange et fjerde datasæt, som vi kan sammenligne med det tredie og et femte datasæt, som vi kan sammenligne med det fjerde.
Derefter skal det femte sammenlignes med det andet og det fjerde sammenlignes med det første.
For det er seriøst det her, at I ved det. Vi kan slet, slet ikke bruge tid nok på at sammenligne datasæt.
Faktisk vil vil være nødsaget til at bruge al vor tid på at sammenligne datasæt. For hvem kan vide sig sikker?

Det vil derfor være dybt uansvarligt af de centrale myndigheder at vælge sådan et useriøst, nymodens fotoapparatur til at digitalisere vores gulnede kulturarv.
Vi skulle meget hellere lade nogle munke skrive dem af i hånden.

Jens Guld sagde ...

Jeg har skannet og OCR'et lidt og jeg tror ikke meget på firmaers salgsbløb. Så og så få fejl? Utvilvsomt, men under hvilke betingelser? Opløsning? Kontrast? Gamle mørnede bøger? Amerikanerne har et begreb "rigged demonstration" som får den højere magi til at virke som barnemad. Hvad måler de i det hele taget, når de nævner fejlpromillen? Det grafiske billede af siden? Det er den letteste del.
Hvor ofte vil maskinen springe et par sider over. Det nævner bløbbet ikke. Heraf må man tro, at det ikke sker. Men det må bare ske. OK, det er en mindre ting, der let kan fixes bagefter.
Og det påstås at maskinen behandler bøgerne blidere end menneskehænder. Måske, men hvem er det, der påstår det. Og hvem siger at de taler sandt.
Og så er der OCR delen og det er her helgener drives til druk.
Jeg har haft en bog som bare gik derud af og pt en hvor det bare er sorg og elende. Og jeg brugte Finereader, som Kirta åbenbart har forlovet sig med (accenterne ´` kan Finereader 5.00 bare ikke finde ud af)
Hvis vi vil have en maskine, der fremstiller grafikfiler, der kan læses på skærmen, så leverer Kirta formentlig næsten varen. Men hvis vi taler on tekst, er sagen en ganske anden.
Jeg læser på nettet, at Omnipage har en meget lavere fejlprocent end Finereader. Jeg ved ikke om det passer, jeg har ikke prøvet Omnipage, men kig ind hos Piratgruppen:
http://www.piratgruppen.org/article.php3?id_article=603
Der er der en sammenligning mellem Finereader og Omnipage.

Jens Guld sagde ...

Et sidste lille grynt, smut ind og se hvad Google har gang i med public domain bøger på
http://googleblog.blogspot.com/2005/11/preserving-public-domain-books.html

Kvaliteten er ikke overbevisende. Utvivlsomt er der intet her, der er produceret med det maskineri, vi taler om. Men at levere høj kvalitet for ingen penge er ikke noget man bare gør. Især ikke når der er mange bevægelige dele at tage hensyn til. Og når der så oveni er edb og andre viderværdigheder.

Formentlig er der bøger som dette superdygtige isenkram kan klare som en mis. Men alle bøger i alle formater og tykkelser? Med papir af alle tykkelser og kvaliteter? Og så er der vandskader.
Om fem-ti år er der formentlig materiel, der kan opfylde disse krav, men her og nu vil det være nødvendigt at "demand references" fra firmaet og desuden at slå på tråden til biblioteksbekendte i Guds Eget Land for at høre den lokale sladder.
Selv om maskineriet ikke kan klare mere end en lille procentdel af vore gamle bøger, kan det da godt være, at det kan anskaffes med fordel, for vi har mange mange bøger, men jeg er ikke glad for firmaer, der lusker.

Preben Madsen sagde ...

Vi repræsenterer det schweiziske firma 4DigitalBooks som producerer en automatisk bogscanner. Vi valgte at samarbejde med dem fordi vi ikke turde lægge en antikvarisk bog i den amerikanske maskine. Se selv videoen der linkes til - den ligner en gammel bogtrykkermaskine fra 30'erne. Den schweiziske er high-tech i forhold til den og anvendes bl.a. af et servicefirma der scanner for EU og har 3 maskiner kørende i døgndrift. 4DigitalBooks har 3 modeller, og den hurtigste kan scanne op til 3000 sider i timen. Se mere på http://www.doctech.dk/060816-News.html