বাংলা PDF বইগুলো OCR: Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা

Written By Sanjir Habib On Feb-11th, 2016

বাংলা PDF বইগুলো OCR:

Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা ব্লক টেক্সট পোস্ট করেছি। অবভিয়াসলি এটা কস্ট করে টাইপ করি নি। PDF টা নেট থেকে ডাউনলোড করে OCR চালিয়েছি। এবং চমৎকার রেজাল্ট। কিছু এডিটিং লাগছে। তবে এটা সময়ের সাথে ঠিক হয়ে যাবে, ইনশাল্লাহ।

Next. চিন্তে করছি ইসলামি যত PDF আছে নেটে সবগুলো OCR করে ওয়েবসাইটে দিয়ে দেবো। মানুষ সহজে পড়তে পারবে আর কপি-পেস্ট করে শেয়ার করতে পারবে।

Problem? Tesseract এ প্রচুর প্রোসেসিং পাওয়ার লাগে। দেড় মিনিটে এক পেজ। ৬০০ পৃস্টার একটা বই OCR করতে লাগবে হাজার মিনিট। এক দিন যেহেতু দেড় হাজার মিনিটে তাই প্রায় এক দিন।

তাও খারাপ না প্রতি দিন একটা বই দেয়া যাবে।

তারপরও কিছু প্রবলেম এখনো আছে সেগুলো ফিক্স করতে হবে।

প্রথম বই হবে ইনশাল্লাহ আল বিদায়া ওয়ান্নিহায়ার ১০ টি খন্ড। যদি সব কিছু ঠিক ঠাক মত থাকে।