PDF Metin Çıkarma

PDF dosyalarının içindeki yazılı metni düz metin dosyasına aktarır. Toplu çalışır, isterseniz her PDF için ayrı .txt, isterseniz hepsini tek dosyada birleştirir.

Ne işe yarar

Raporlardan, kitap PDF'lerinden veya sözleşmelerden ham metni çıkarmanız gerektiğinde kullanılır. Çıkan metni Word'e yapıştırabilir, arama yapabilir, NLP/analiz araçlarına verebilirsiniz. Taranmış PDF'lerden metin çıkarmak için bu araç değil OCR aracı gerekir.

Nasıl kullanılır

  1. PDF dosyalarını listeye sürükleyin.
  2. Çıktı Modu seçin: her PDF için ayrı dosya, ya da hepsini tek results.txt içinde birleştir.
  3. İsterseniz Sayfa Aralığı yazın (örn. 1-5, 10). Boş bırakırsanız tüm sayfalar işlenir.
  4. Çalıştır butonuna basın.

Seçenekler

  • Çıktı Modu: "Her PDF için ayrı dosya" varsayılan ve en sık kullanılan. "Tek dosyada birleştir" tüm metinleri results.txt içinde tutar.
  • Sayfa Aralığı: 1-5 veya 1-5, 10, 15-20 yazabilirsiniz. Boş bırakmak tüm sayfalar demektir.
  • Fiziksel Düzeni Koru: Açık tutarsanız sütun ve hizalama korunmaya çalışılır. Kapatırsanız metin akışı tek satır halinde gelir, NLP/arama için uygundur.
  • Sayfa Ayırıcıları Ekle: Açık tutarsanız çıktıda --- Page 2 --- benzeri ayırıcılar olur. Birleştirme modunda hangi metnin hangi dosyadan geldiğini belli eder.

Kullanım örnekleri

12 aylık rapordan kelime arama: Tüm raporları ekleyin, "Ayrı dosya" modunda çalıştırın. 12 ayrı .txt çıkar.

Kitabın bir bölümünü çıkarmak: kitap.pdf'i ekleyin, sayfa aralığına 45-120 yazın. Sadece o bölüm gelir.

50 sözleşmeyi tek dosyada analiz etmek: Hepsini ekleyin, "Birleştir" modunda, "Fiziksel düzeni koru" kapalı, "Ayırıcılar" açık çalıştırın. Tek results.txt çıkar.

Hangi PDF'ler taranmış anlamak: 20 PDF ekleyip çalıştırın. Boş çıkan .txt dosyalarına karşılık gelen PDF'ler taranmıştır, onları OCR aracına verin.

Dikkat edilmesi gerekenler

  • Taranmış (görüntü) PDF'lerden metin çıkmaz, sonuç boş olur. Bu durumda OCR aracını kullanın.
  • Şifreli PDF'lerden metin çıkarılamaz. Önce PDF Şifreleme ile şifreyi kaldırın.
  • Sayfa aralığı tüm dosyalara aynı uygulanır, dosya başına farklı aralık veremezsiniz.
  • Karmaşık tablo ve dipnotlu PDF'lerde düzen tam korunamayabilir. Bu durumda PDF'i Word'e çevirmek daha iyidir.
  • Birleştir modunda çıktı dosyası adı sabittir (results.txt).

Lisans

Ücretsiz pakette aylık metin çıkarma limiti vardır. Office paketinde limitsizdir.