OCR Çıkarıcı
PDF ve görsel dosyalardan metin çıkarır. Birden fazla AI motoru ve dil destekler. Tek dosya canlı önizleme veya toplu klasör işleme yapar.
Ne işe yarar
Taranmış faturalardan veri çıkarmak, eski belgeleri dijitalleştirmek, görseldeki yazıyı metne çevirmek, taranmış PDF arşivini aranabilir hale getirmek için kullanılır.
Not: Bu araç evrenseldir (PDF, görsel hepsi). Sadece PDF için pdf_tools/ocr daha basit ve hızlıdır.
Nasıl kullanılır
3 mod vardır:
Single (Tek dosya canlı önizleme)
- Dosyayı sürükleyin.
- Sol panelde önizleme görünür.
- Dil ve motor seçimi yapın.
- Sağ panelde tanınan metin canlı olarak görünür.
Batch (Toplu)
- Birden fazla dosya veya klasör ekleyin.
- Çıktı Formatı seçin: TXT, JSON, DOCX, veya aranabilir PDF.
- Çalıştır butonuna basın.
Settings (Ayarlar)
Motor, dil, DPI, güven eşiği gibi varsayılanları kaydeder.
Desteklenen formatlar
Girdi: JPG, PNG, WebP, BMP, TIFF, PDF.
Çıktı: TXT, JSON (yapısal veri), DOCX, Aranabilir PDF.
OCR motorları
| Motor | Özellik |
|---|---|
| Tesseract (varsayılan) | Hızlı, geniş dil desteği. |
| EasyOCR | Karmaşık yazıtlarda daha iyi. GPU varsa hızlanır. |
| PaddleOCR | Asya dilleri için iyi. GPU desteği var. |
Dil seçenekleri
Tesseract için tüm yüklü diller kullanılabilir. Varsayılan İngilizce + Türkçe (eng, tur). Türkçe için tur.traineddata Tesseract'a yüklenmiş olmalı.
DPI seçenekleri
PDF render için 150, 200, 300, 400, 600 DPI. Varsayılan 300 dengelidir, 600 yüksek kalite ama yavaş.
Kullanım örnekleri
Faturadan veri çıkarmak: Single mode, fatura görselini sürükleyin, Türkçe seçin, metni alın.
Taranmış belge arşivini aranabilir yapmak: Batch modu, klasörü ekleyin, çıktı Aranabilir PDF, çalıştırın.
El yazısı not fotoğraflarını metne çevirmek: Single mode, EasyOCR seçin, Türkçe, ihlafa daha iyi sonuç verir.
JSON yapılı veri çıkarmak: Batch modu, formdan dosyaları ekleyin, çıktı JSON, çalıştırın. Programatik kullanım için.
Dikkat edilmesi gerekenler
- Tesseract sistemde kurulu olmalı.
- EasyOCR ve PaddleOCR Python paketleri kurulu olmalı.
- Türkçe için ek dil paketi gerekir.
- PDF'in metin katmanı zaten varsa OCR gereksiz, doğrudan metin çıkarın.
- Çok düşük çözünürlüklü görsellerde doğruluk düşer.
- El yazısı sınırlıdır, daktilo/dijital yazı için optimum.
Lisans
Bu araç Ultimate paketine özeldir. Ücretsiz ve Office paketlerinde devre dışıdır.