تبدیل PDF فارسی به متن با استفاده از چند ابزار لینوکسی و کمی پایتون
مشکل اینجاست که در ایمکس فونت سراسریام متن فارسی را به صورت جدا جدا نشان میدهد. ولی طبق روشی که به آن اشاره کردم، کاراکترهایی که در رنج خاصی از کدهای یونیکد هستند، باید با فونت Tahoma (انتخاب من) نمایش داده شوند. اما وقتی فایل خروجی Okular را باز میکنم میبینم کاراکترها کاملا درست، ولی با فونتی غیر از تاهوما دیده میشوند. خوب تجربه ثابت کرده که هیچ مشکلی به این راحتی حل نمیشود. کمی از خروجی را به یک فایل tex تبدیل میکنم و خروجی PDFش را بررسی میکنم. خروجی تقریبا قابل قبول است ولی در بعضی از خطوط کاراکترها به صورت مبهمی به هم ریختهاند. از آنجایی که خودم برنامهٔ officeای روی سیستم ندارم و [وضع اینترنتام](shahinism.com/blog/1391/08/25/%d9%88%d9%82%.. "وقتی دزدی میکن(م،ن،ید)") هم معلوم است، از دوست [libreoffice کار قهارم](emanlog.com/?p=303 "لیبره آفیس قدم رو") میخواهم که فایل خروجی Okular را یک بار دیگر و اینبار با libreoffice تست کند و ببیند آیا قابل ویرایش است یا نه؟ ایمان در جواب میگوید که کاراکترها مثل تصویر عمل میکنند و قدرت ویرایش چندانی روی آنها ندارم.(اگر دروغ گفته، یقهٔ خودش رو بگیرید ;-))
پس حالا نوبت این است که کمی دستهایمان را کثیفتر کنیم. مساله ساده است. فایلی داریم شامل کاراکترهایی که امیدواریم حداقل یونیکد باشند، ولی میخواهیم آنها را به رنج استانداردی که میشناسیم تبدیل کنیم (یک Find & Replace سریع و دوست داشتنی D:). پایتون دوستداشتنی چند تابع خیلی، خیلی باحال برای کمک به ما در همچین وضعیتهایی دارد. اولیشان ord است. کارش این است که یک کاراکتر را به عنوان ورودی بگیرد و در خروجی کد معادلش را چاپ کند. دیگری unichr است که تقریبا کاری برعکس کار ord میکند. یک کد (که فکر میکند یونیکد است) در ورودی میگیرد، و کاراکتر یونیکد معادلش را در خروجی بر میگرداند.
پس برای شروع کار چند تابع کوچک مینویسیم که برای دستکاری فایل کمکمان کند. تابع اولمان، چیزی است که در بقیه راه نیازش داریم. تابعی که یک فایل را از ورودی بخواند:
def read_file(file_name):
the_file = codecs.open(file_name, encoding="utf-8")
return the_file
همینطور برای این که خیالمان راحت شود، تابعی مینویسیم که کل محتوای فایل ورودیاش را به صورت کاراکتر به کاراکتر (هر کاراکتر در یک خط) چاپ کند:
def show_characters(input_file):
for line in read_file(input_file).readlines():
for char in line:
print char
حالا نوبت بخش هیجانانگیزتر ماجرا میرسد. تابعی دیگر مینویسیم که اینبار به جای کاراکترها، کدهای معادلشان را چاپ کند:
def show_unicode_code(input_file):
for line in read_file(input_file).readlines():
for char in line:
print ord(char)
و سرانجام تابعی مینویسیم که عکس کار بالا را انجام دهد:
def replace_unicode_char(input_file):
for line in read_file(input_file).readlines():
print unichr(int(line)).encode('utf-8')
مطمئنا میشد این توابع را به صورتهای سادهتری هم نوشت. ولی خوب اولا سواد من به همینقدر میرسید، دوما هم به نظرم برنامه خواناتر شده. برای کسانی که پایتون میدانند به نظرم کدها به قدر کافی گویا هستند (آنهایی هم که نمیدانند کافیست انگلیسیشان کفایت کند. نا سلامتی هنر پایتون همین است D:). فقط یک نکته در تابع replace_unicode_char باقی میماند و آن هم این که کاراکترهای ورودی به صورت رشته هستند و قبل از خوراندنشان به unichar باید تبدیل به عدد (int) شوند. همینطور اگر میخواهید کاراکترها را در خروجی چاپ کنید، باید به صورت utf-8 کد کنید که خود دستور به قدر کافی گویا هست.
من کل این توابع به علاوهٔ یک تابع مهمتر از آنها را (که پایینتر توضیحاش میدهم) به صورت یک اسکریپت نوشتهام که میتوانید از [اینجا](github.com/shahinism/Scripts/blob/master/Py.. "لینک به اسکریپت chrvalidator.py") دریافتش کنید. که خوب به عنوان راهنما اضافه کنم که در صورتی که خواستید فایل را به صورت کاراکتر به کاراکتر در خروجی ببینید از دستور زیر بهره بگیرید:
python chrvalidator.py -i INPUT_FILE -c
اگر خواستید که کدهای یونیکد کاراکترهایش را ببینید از دستور زیر استفاده کنید:
python chrvalidator.py -i INPUT_FILE -u
و اگر هم خواستید که بر عکس کار فوق (تبدیل کدهای یونیکد به کاراکترهای نظیرشان) را انجام دهید، به جای -u در دستور فوق از -U استفاده کنید. خوب بگذارید به مسالهٔ اصلیمان برگردیم. برای شروع کار بیایید با دستورات زیر، لیستی از کدهای کاراکتر استفاده شده در فایلمان به دست آوریم:
python chrvalidator.py -i ashamloo.txt -u > chrcodes.txt
sort -u chrcodes.txt > uniq.txt
خوب همانطور که معلوم است اول از همه کد تمام کاراکترها را استخراج کردیم. و سپس از آنجایی که مطمئنیم کاراکترهای تکراری زیادی داریم، و صد البته مطمئنتریم که یک فایل مرتب شده بیشتر به دردمان میخورد با استفاده از دستور sort -u کاراکترهای تکراری را حذف کرده و فایل را مرتب میکنیم. حالا همین فایل مرتب شده را دوباره به اسکریپتمان میخورانیم تا کاراکترهای نظیرشان را پیدا کنیم:
python chrvalidator.py -i uniq.txt > uniqchr.txt
یک بررسی سرسری، نشانمان میدهد که تنها کاراکترهای محدودی از مجموع کاراکترها نیاز به تعویض دارند. دستهای از کل کاراکترها مربوط به حروف انگلیسی یا اعدادند. دستهای دیگر هم در این بین کاراکترهای استانداردند. و این وسط ما اکثرا نیاز به تغییر کاراکترهایی موسوم به [Arabic Presentation Forms-B](ssec.wisc.edu/~tomw/java/unicode.html#xFE70 "unicode character table") داریم. خوب همانطور که میبینید در بین این کاراکترها برای نمونه حرف «ب» در سه حالت مختلف «اول، وسط، آخر» نمایش داده میشود که هر کدام کاراکتر مربوط به خود و در نتیجه کد مربوط به خود را دارند. برای همین ما تابعی دیگری نیز به صورت زیر به اسکریپتمان اضافه میکنیم:
for line in read_file(input_file).readlines():
for char in line:
if ord(char) in (64343, 64344, 64345):
char = "پ"
در این تابع همانطور که پر واضح است، میگوییم فایل را کاراکتر به کاراکتر بخوان، کد دسیمال کاراکتر را پیدا کن، و اگر این کد دسیمال شبیه به یکی از سه عدد (کدهای مربوط به حروف پ اول، وسط و آخر) بود آن را با حرف پ جایگزین کن. ساده است، اینطور نیست؟ خوب من این کار را برای تقریبا چهل کاراکتر استاندارد انجام دادم که نتیجهاش در اسکریپت معلوم است (اگر شما خواستید فایل دیگری را به این روش تبدیل کنید و کاراکتری به این لیست اضافه کردید، خوشحال میشوم که اسکریپت تکمیل شدهتان را با من و بقیه به اشتراک بگذارید). در آخر کار هم با دستور زیر تابع را میبندیم:
sys.stdout.softspace=False
try:
print char.encode("utf-8"),
except UnicodeDecodeError:
print char,
خوب خط اول این مجموعه مربوط به این است که به پایتون بفهمانیم در هنگام چاپ کاراکترها بینشان فاصله نگذارد. اگر این مقدار درست باشد، کاراکترها به صورت س ل ا م نوشته میشوند، که خوب به درد ما نمیخورد. همینطور ممکن است به دلیل این که بعضی اوقات در بین کاراکترها، کاراکتر به صورت utf-8 کد شدهای پیدا شود و خروجی را بشکند، با یک try, except جلوی این اتفاق را میگیریم، که یک کمی ممکن است گیج کنند باشد. در این مورد فقط به من اعتماد داشته باشید که اسکریپت کار میکند ;-)
برای پایان کار هم فایل تکست اولیهمان را به صورت زیر با اسکریپت حاضرمان ویرایش میکنیم:
python chrvalidator.py -i ashamloo.txt > validashamloo.txt
خوب کار تقریبا تمام شد. ولی خوب، کامپیوتر است دیگر. همیشه که درست عمل نمیکند. فایل خروجی نمونهٔ مرا در [اینجا](dl.dropbox.com/u/25017694/Blog_files/ashaml.. "ashamloo text file") میبینید. خالی از اشکال هم نیست، ولی خوب طبیعتا مشکلات زیادی را برایم حل میکند (دیگر لازم نیست به آن فونت کذایی Arial زل بزنم). دیگر باقی کارها میافتد گردن یک ویراستار به درد بخور. (البته شاید بتوان از [نگار](shahinism.com/blog/1391/07/10/%d9%86%d8%b3%.. "نسخهٔ جدید ویرایشگر متن نگار") هم کمک گرفت، که فعلا دارم شدیدا رویش کار میکنم. نسخهٔ فعلیاش مشکلاتی دارد، ولی امیدوارم بتوانم حلشان کنم)
پینوشت: Okular از قرار، قادر نیست PDFهایی که رمزگذاری شدهاند را باز کند (خودم امتحان نکردم) در آن صورت یک ابزار پایتونی برای این کار وجود دارد که در آینده در موردش مینویسم. تا اینجای کار، خروجیهای این تابع زیاد با روش ذکر شده همخوانی ندارد، پس باید به فکر دستکاریاش باشم. اسم این تابع هم در صورتی که دلتان میخواهد کشفش کنید pdfminer است.