Web & PDF - Data Extraction Tool

Project Overview :

The project focuses on developing an application that extracts structured data, including text, images, and tables, from website URLs and PDF files. It employs various parsing techniques to process the data, which is securely stored and displayed in a standardized format for consistency. The implementation integrates open-source and enterprise tools, along with document-linguistic approaches, to assess compatibility and performance. This prototype serves as a scalable framework for testing and validating data extraction capabilities across diverse input formats.

Resources :

GitHub Repository: ‣

Application : https://webpdfdataextractiontool.streamlit.app/

Hosted APIs (Deployed on Google Cloud Run): https://fastapi-service-rhtrkfwlfq-uc.a.run.app/

Tech Stack:

Streamlit: Frontend Framework
FastAPI: API Framework
Google Cloud Run: Backend Deployment
AWS S3: External Cloud Storage
Scrapy: Website Data Extraction Open Source Tool
PyMuPDF: PDF Data Extraction Open Source Tool
Diffbot: Website Data Extraction Enterprise Tool
Microsoft Document Intelligence: PDF Data Extraction Enterprise Tool
Docling: Document Data Extraction Tool

Project Overview :

Resources :

Tech Stack:

Application Workflow Diagram

Workflow