OCR করে ইসলামি ফাউন্ডেশনের আল বিদায়ার ১ম থেকে ১০ম খন্ড ঢুকানো আরম্ভ করেছি।

Written By Sanjir Habib On Aug-30th, 2016

এখানে আছে। প্রায় ২০০ পেইজ।
http://habibur.com/kitab/bidaya1/

জাঙ্ক যেগুলো আসছে সেগুলো হলো বাংলা লিখার মাঝে মাঝে আরবীগুলোর জন্য। এগুলো মেনুয়েলি ডিলিট করে দিতে হবে।

বাকি বাংলার কোয়ালিটি মেনুয়ালি কারেকশনের আগে খুব একটা খারাপ না।
মেনুয়াল কারেকশন লাগবে। তবে এটা অপারেটর দিয়ে সবকিছু টাইপ করে ঢুকানোর থেকে অনেক ভালো।

hadithbd ভলেন্টিয়ারলি যেগুলো টাইপ করে ঢুকিয়েছে, সেগুলোতেও কিন্তু ভুল আছে অনেক। তাই মেনুয়ালি ঢুকালে যে এটা ঠিক হবে তাও না।

এই রেটে চললে আশা করছি ইনশাল্লাহ সামনের তিন দিনে ১০ খন্ড দিয়ে দিতে পারবো। এর পর কারেকশন।

একটা পুরানো লেপটপ লাগিয়ে দিয়েছি PDF থেকে একটা একটা পেইজ এক্সট্রাক্ট করে OCR করতে। প্রতি পেইজ ২ মিনিটের মত লাগে। ৭০০০ পেইজ আছে। দুটা প্রসেশ পেরালাল চলছে, যেহেতু প্রসেস প্রতি ১টা core ইউজ করে। কোয়াড কোর প্রসেসরে চারটা পর্যন্ত চালানো যাবে ইনশাল্লাহ।

OCR use করছি Tesseract ওপেন সোর্স ফ্রি টা।
https://github.com/tesseract-ocr/tesseract