OCR করে ইসলামি ফাউন্ডেশনের আল বিদায়ার ১ম থেকে ১০ম খন্ড ঢুকানো আরম্ভ করেছি।
এখানে আছে। প্রায় ২০০ পেইজ।
http://habibur.com/kitab/bidaya1/
জাঙ্ক যেগুলো আসছে সেগুলো হলো বাংলা লিখার মাঝে মাঝে আরবীগুলোর জন্য। এগুলো মেনুয়েলি ডিলিট করে দিতে হবে।
বাকি বাংলার কোয়ালিটি মেনুয়ালি কারেকশনের আগে খুব একটা খারাপ না।
মেনুয়াল কারেকশন লাগবে। তবে এটা অপারেটর দিয়ে সবকিছু টাইপ করে ঢুকানোর থেকে অনেক ভালো।
hadithbd ভলেন্টিয়ারলি যেগুলো টাইপ করে ঢুকিয়েছে, সেগুলোতেও কিন্তু ভুল আছে অনেক। তাই মেনুয়ালি ঢুকালে যে এটা ঠিক হবে তাও না।
এই রেটে চললে আশা করছি ইনশাল্লাহ সামনের তিন দিনে ১০ খন্ড দিয়ে দিতে পারবো। এর পর কারেকশন।
একটা পুরানো লেপটপ লাগিয়ে দিয়েছি PDF থেকে একটা একটা পেইজ এক্সট্রাক্ট করে OCR করতে। প্রতি পেইজ ২ মিনিটের মত লাগে। ৭০০০ পেইজ আছে। দুটা প্রসেশ পেরালাল চলছে, যেহেতু প্রসেস প্রতি ১টা core ইউজ করে। কোয়াড কোর প্রসেসরে চারটা পর্যন্ত চালানো যাবে ইনশাল্লাহ।
OCR use করছি Tesseract ওপেন সোর্স ফ্রি টা।
https://github.com/tesseract-ocr/tesseract