Setelah mencoba beberapa librarary (itextsharp, pdfbox, dll) dan membaca beberapa artikel untuk mengetract text dari pdf file akhirnya saya mengambil kesimpulan pdfbox merupakan library yg paling bagus untuk keperluan ini. Sayangnya pdfbox merupakan library untuk java, sehingga kita memerlukan library tambahan (IKVM) untuk menggunakannya di lingkungan .net.
Contoh perintah menggunaan library tersebut adalah sebagai berikut
Imports Org.pdfbox.pdmodel
Imports Org.pdfbox.util
Public Class ReadPdf
Public Function ReadFromFile(ByVal PdfFileName As String) As String
Dim doc As PDDocument = PDDocument.load(PdfFileName)
Dim stripper As New PDFTextStripper
Return stripper.getText(doc)
End Function
End Class
Saya juga sempat kebingungan untuk mencari library-library yg diperlukan.Untuk keperluan kemudian hari semua library tersebut sudah saya upload di skydrive.