A Google még több PDF-ben keres

| kategória: web | téma: , , |

A Google keresője eddig 315 millió .pdf kiterjesztésű fájlt indexelt be. Ezek egy jelentős része olyan dokumentum, melyet készítője képként szkennelte be, tehát a szó legközvetlenebb értelmében véve szövegkép. Ebben eddig nem keresett a Google. Ennek most vége.

Az optikai karakterfelismerés (rövidítve OCR az angol optical character recognition szavakból) egy olyan módszer, mely lehetővé teszik a fizikai hordozón (leggyakrabban papíron) szereplő analóg írás, szöveg digitális formába történő alakítását. Az átalakított szöveg ezután könnyen használható, feldolgozható számítógépes környezetben.

Mivel itt már részben feldolgozott (beszkennelt) dokumentumokról van szó, ezért nem a klasszikus metódust, hanem annak egy kifejezetten ilyen célra – a Google által finanszírozott – változatát, az OCRopus nevű nyílt forráskódú szoftvert használják.

A “miért jó ez nekem?” kérdésre pedig az a válasz, hogy egyre több – milliónyi – PDF lesz még pontosabban kereshető.

Békéscsaba, szitáló eső – Frankfurt, ragyogó napfény. De a Google keresője egyre csak okosabb.