Futorial

Fu-styled tutorial
See also: Other Geeks@INDC

Meng-ekstrak teks dari file PDF menggunakan library dari Winnovative

Pertama-tama, kunjungi halaman http://www.winnovative-software.com/download.aspx. Di situ, scroll down ke bawah sampai pada produk PDF to Text Coverter 2.0.

image

Simpan license key nya (misalkan disimpan di file txt atau di OneNote supaya gampang nyarinya), kemudian klik link “Continue Download”. Anda akan mendapatkan sebuah file zip bernama WnvPdfToText.zip. Ekstrak file tersebut.

Nah, dengan cara yang hampir sama dengan cara pada post saya sebelumnya, kita buat sebuah aplikasi WPF. Perbedaannya adalah:

  1. File yang di-reference adalah pdftotext.dll yang didapat dari hasil ekstrak WnvPdfToText.zip.
  2. Tidak perlu add file PDFParser.cs ke project.
  3. Tidak perlu add file pdf (Source.pdf) ke project. Namun kita harus tahu lokasi file pdf nya, misalnya di C:\Temp\Source.pdf

Nahhh, pada intinya adalah, kita import namespae Winnovative

using Winnovative;

Kemudian isi method Button_Click dengan code seperti berikut:

PdfToTextConverter pdfToTextConverter = new PdfToTextConverter();

pdfToTextConverter.Layout = TextLayout.OriginalLayout;
pdfToTextConverter.AddHtmlMetaTags = false;

//License key didapat dari website Winnovative
pdfToTextConverter.LicenseKey = @"WXJoeWtseWhpaWl5a3dpeWlhd2lrd2tpaWA=";

string extractedText = pdfToTextConverter.ConvertToText(@"C:\Temp\Source.pdf");
textBlockResult.Text = extractedText;

Kali ini hasilnya jauh lebih baik, kalau file pdf mengandung gambar, maka pengambilan teks tetap berhasil, dan gambar akan di-ignore oleh extractor.

Sumbernya:

image

Hasilnya:

image

 

Hmm… mantapp!!

 

Sumber: http://www.winnovative-software.com/PdfToText.aspx
Share this post: | | | |

Comments

No Comments