ARANABİLİR PDF NEDİR?

searchable pdf
Aranabilir PDF içerisinde arama, düzenleme yapılabilen, sayfa, paragraf veya metin seçilerek kopyalanabilen pdf dosyalarıdır.

Scanner ile taranan belgeler bilgisayar ortamına grafik olarak aktarılır ve bu grafik üzerinde arama, düzenleme ve kopyalama yapılamaz. Taranan belge, doküman veya kitap sayfalarının üzerinde arama, düzenleme veya kopyalama yapılmak isteniyorsa dijital ortama dosya olarak aktarılmış sayfaların OCR işlemine tabi tutulması gerekmektedir.

OCR işlevi yapan bu iş için geliştirilmiş programların yanında Adobe firmasıda PDF oluşturabilen Acrobat versiyonlarına OCR işlevini entegre etmiştir. Bu sayede kısa süre içerisinde grafik dosyalardan oluşturulmuş PDF dosyaları aranabilir, düzenlenebilir ve kopyalanabilir hale dönüştürülebilmektedir.

Acrobat programında OCR işlemi menüden tıklayarak yapılan ve herhangi bir bilgi veya beceri gerektirmeyen bir işlemdir, bunun yanında Acrobat programının Microsoft Word gibi bir kelime işlem veya OCR için geliştirilmiş bir program olmamasından dolayı karaktere dönüştürülen metinlerin düzenlenmesi ve OCR esnasından yanlış tanıma sonucunda oluşan hataların düzeltilmesi diğer yazılımlara oranla çok zordur.

Aranabilir PDF dosyalarında karakter tanıma hatalarının düzeltilmesi çok zor olduğu için oluşturulan dosya içerisinde yapılan aramalar büyük oranda eksik bilgi getirecektir.

PDF Nedir ?

PDF Portable Document Format kelimelerinin kısaltmasıdır. Türkçe karşılığı Taşınabilir Doküman Biçimidir. Genellikle tanıtım, katalog, kullanım kılavuzu, e-kitap gibi amaçlarla kullanılır. Küçük dosya boyutları, yaygın olarak kullanılan her tür bilgisayar ve taşınabilir cihazlarla uyumluluğu, değiştirilme, yazdırma ve kopyalamaya karşı koruması, internette arama motorlarının PDF dosyalarının içerisinde arama yapabilmesi gibi özellikler PDF'lerin yaygın halde kullanılmasını sağlamaktadır.

PDF dosya tipleri

Grafik dosyalardan oluşturulmuş PDF dosyaları

Scanner ile taranmış kitap, dergi, evrak, doküman, belge gibi basılı malzemeler, fotoğraf makinası ile çekilmiş fotoğraflar ve bilgisayar ekranlarından alınan görüntülerle oluşturulan PDF dosyalarıdır. Bu tipteki pdf dosyaları grafiklerden oluşması sebebi ile içerisindeki görüntülerin kalitelerine bağlı olarak çok büyük dosya boyutlarında oluşabilir. Grafik dosyalardan oluşturulmuş PDF'lerde arama, düzenleme ve kopyalama yapılamaz bunların yanında, dosyaların bilgisayarda yavaş açılması, internette upload ve download esnasındaki uzun süre alması ve disklerde çok yer tutması gibi ciddi dezavantajları vardır. Avantajları ise taradıktan sonra çok fazla işlem gerektirmemesi sebebi ile zaman ve paradan tasarruf sağlaması. Daha çok resmi belgeler, görsel sunumlar, katologlar için uygundur.

Grafik PDF dosyalarında OCR işlemi yapılarak oluşturulmuş dosyalar

Grafik dosyalar ile oluşturulmuş PDF dosyaları üzerinde Acrobat programı ile OCR işlemi yapılarak aranabilir PDF'e dönüştürülmüş dosyalardır. Bu tip dosyalarda arama, düzenleme ve kopyalama yapılabilir ama hata düzeltmesi yapılamadığı için arama sonuçları güvenilir olmaktan uzak olacaktır. Kopyalanarak başka bir programa yapıştırılan metinler mutlaka kontrol edilerek hataların düzeltilmesi gerekmektedir. Maliyet açısından OCR işlemine oranla daha cazip bir seçenektir.

OCR yapılarak oluşturulmuş PDF dosyaları

Microsoft Word (.doc, .docx) dosyaları, Metin (.txt) dosyaları, Microsoft Excel veya OCR işlemi yapılmış dosyalar gibi metin tabanlı dosyalardan oluşturulmuş PDF dosyalarıdır. Diğer tipteki PDF dosyalarına nispeten taşınabilirlik, paylaşılabilirlik ve düzenlenebilirlik açısından en kullanışlı PDF dosya tipidir. Oluşturulan dosyalar grafik PDF dosyalarına oranla yüzlerce kat daha küçük olabilir. İnternette kolayca paylaşılabilir mail ile gönderilip alınabilir ve taşınabilir cihazlarda kolayca okunabilir. Ayrıca yaygın olarak kullanılan E-Kitap formatlarına kolayca dönüştürülebilir. İçerisinde OCR işleminden sonra hata düzeltmesi yapılabildiği için yapılacak kelime ve kelime grupları aramaları birebir sonuç verecektir. Bu dosyalardan kopyalanacak metinler başka programlara yapıştırılarak düzeltme yapmadan kullanılabilir.