বাংলা PDF বইগুলো OCR: Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা

 
Written By Sanjir Habib On Feb-11th, 2016

বাংলা PDF বইগুলো OCR:

Tesseract দেখলাম। কাজ চলে। গতকাল আল বিদায়া ওয়ান্নিহায়া থেকে বড় একটা ব্লক টেক্সট পোস্ট করেছি। অবভিয়াসলি এটা কস্ট করে টাইপ করি নি। PDF টা নেট থেকে ডাউনলোড করে OCR চালিয়েছি। এবং চমৎকার রেজাল্ট। কিছু এডিটিং লাগছে। তবে এটা সময়ের সাথে ঠিক হয়ে যাবে, ইনশাল্লাহ।

Next. চিন্তে করছি ইসলামি যত PDF আছে নেটে সবগুলো OCR করে ওয়েবসাইটে দিয়ে দেবো। মানুষ সহজে পড়তে পারবে আর কপি-পেস্ট করে শেয়ার করতে পারবে।

Problem? Tesseract এ প্রচুর প্রোসেসিং পাওয়ার লাগে। দেড় মিনিটে এক পেজ। ৬০০ পৃস্টার একটা বই OCR করতে লাগবে হাজার মিনিট। এক দিন যেহেতু দেড় হাজার মিনিটে তাই প্রায় এক দিন।

তাও খারাপ না প্রতি দিন একটা বই দেয়া যাবে।

তারপরও কিছু প্রবলেম এখনো আছে সেগুলো ফিক্স করতে হবে।

প্রথম বই হবে ইনশাল্লাহ আল বিদায়া ওয়ান্নিহায়ার ১০ টি খন্ড। যদি সব কিছু ঠিক ঠাক মত থাকে।