تشخیص متن از سند اسکن شده

6 دقیقه مطالعه

11 February 2026

آرش نیکخواه

OCR یا «تشخیص نوری حروف» فناوری‌ای است که متن قابل‌جستجو و قابل‌کپی را از اسناد اسکن‌شده، PDF و تصاویر استخراج می‌کند. به زبان ساده، روند OCR شامل سه گام است: 1) پیش‌پردازش تصویر برای حذف نویز و افزایش کنتراست، 2) شناسایی حروف، کلمات و خطوط با الگوریتم‌های بینایی ماشین و هوش مصنوعی، 3) بازسازی ساختار صفحه و خروجی‌گیری به‌صورت متن یا فایل‌های Doc/JSON. با پیشرفت هوش مصنوعی، مدل‌های بینایی امروزی دقت بالاتری برای فارسی، علائم نگارشی و حتی جدول‌ها ارائه می‌دهند؛ به‌ویژه وقتی رزولوشن و کیفیت اسکن مناسب باشد. برای شروع عملی، راهنمای کار با ای پی آی استخراج متن از تصویر و آموزش تبدیل تصویر به متن و سرویس OCR فارسی آنلاین را ببینید.

اگر می‌خواهید OCR را در کنار مدل‌های متن‌محور آزمایش کنید، GapGPT یک پلتفرم ایرانی با رابط فارسی است که دسترسی آسان به مدل‌های ChatGPT، Claude و Gemini را بدون نیاز به تحریم شکن و با قیمت مناسب فراهم می‌کند؛ مناسب برای ساخت گردش‌کار OCR+LLM و خلاصه‌سازی یا ترجمه خروجی‌ها.

🚀 توصیه GapGPT

برای ساخت گردش‌کارهای OCR و پردازش متن فارسی، از مدل‌های هوش مصنوعی در GapGPT استفاده کنید؛ بدون نیاز به تحریم شکن.

مشاهده GapGPT →

چالش‌های OCR فارسی: فونت‌ها، علائم نگارشی و کیفیت اسکن

OCR فارسی با موانعی مثل تنوع فونت‌ها (نسخ، نستعلیق، تیتر، دست‌نویس)، اتصالات حروف و نیم‌فاصله، تفاوت نویسه‌های عربی و فارسی (ک/ك، ی/ي)، و نشانه‌گذاری راست‌به‌چپ روبه‌روست. وجود اعداد فارسی و لاتین در یک خط، جدول‌ها و چندستونه بودن صفحات، مهرها و امضاها، و پی‌دی‌اف‌های تصویری به پیچیدگی افزوده‌اند. کیفیت اسکن هم حیاتی است؛ DPI پایین، کجی صفحه، نویز، سایه، فشرده‌سازی JPEG و پس‌زمینه‌های لکه‌دار باعث افت دقت تشخیص متن می‌شوند.

برای بهبود دقت تشخیص متن: رزولوشن اسکن را 300–400 DPI بگیرید، پیش‌پردازش‌هایی مثل deskew، denoise، افزایش کنتراست و دودویی‌سازی انجام دهید، زبان و جهت متن را درست تنظیم کنید، نویسه‌ها را نرمال‌سازی کنید (تبدیل ي به ی و ك به ک)، و نیم‌فاصله‌ها را حفظ کنید. در اسناد نستعلیق یا دست‌نویس، مدل‌های اختصاصی نیاز است. اگر با PDFهای تصویری کار می‌کنید، تبدیل تصویر به متن را مرحله‌به‌مرحله انجام دهید؛ راهنمایی‌های کاربردی در « OCR فارسی آنلاین»، « تبدیل تصویر به متن» و « استخراج متن از عکس با هوش مصنوعی» موجود است. برای پیاده‌سازی حرفه‌ای، « کار با ای‌پی‌آی استخراج متن از تصویر» را ببینید.

(Naskh, Nastaliq, bold headline), right-to-left layout, diacritics and half-

راهنمای گام‌به‌گام استخراج متن از PDF و تصاویر اسکن‌شده

در این مسیر کوتاه یاد می‌گیرید چطور با OCR فارسی، متن اسناد اسکن‌شده را دقیق و تمیز استخراج کنید.

آماده‌سازی فایل: سند را با حداقل 300 DPI اسکن کنید، کادر را برش بزنید، کجی صفحه را اصلاح و کنتراست را افزایش دهید. برای جزئیات بیشتر ببینید: تبدیل تصویر به متن.
تبدیل PDF چندصفحه‌ای به تصویر: صفحات را به PNG/TIFF با کیفیت بالا تبدیل کنید تا دقت شناسایی بهتر شود.
پیش‌پردازش هوشمند: حذف نویز، صاف‌سازی لبه‌ها و یکدست‌سازی پس‌زمینه؛ راهنمای عملی: استخراج متن از عکس.
اجرای OCR فارسی: در GapGPT فایل را آپلود کنید، زبان را «fa» (و در صورت نیاز «en») انتخاب کنید، خروجی TXT/DOCX/JSON و حالت «حفظ چیدمان» را فعال کنید. گزینه‌ی OCR فارسی آنلاین کمک‌تان می‌کند.
پس‌پردازش و ویرایش: غلط‌گیری، یکسان‌سازی اعداد فارسی/انگلیسی، و تبدیل به Markdown/Word. برای تمیزکاری سریع از ویرایش متن فارسی با هوش مصنوعی استفاده کنید.
اتوماسیون با API: اگر حجم کار بالاست، جریان OCR را با وب‌سرویس پیاده‌سازی کنید: API استخراج متن از تصویر.

افزایش دقت OCR: رزولوشن، فرمت فایل و پیش‌پردازش تصویر

برای تشخیص متن دقیق از اسناد اسکن‌شده (OCR) سه مؤلفه بیشترین اثر را دارند: رزولوشن مناسب، انتخاب فرمت فایل درست، و پیش‌پردازش هدفمند تصویر. رعایت این نکات، مخصوصاً برای متن فارسی و PDFهای اسکن‌شده، نرخ خطا را چشم‌گیر کاهش می‌دهد.

رزولوشن ایده‌آل (DPI): اسکن با 300 تا 400 DPI (برای فونت‌های ریز 400 DPI)، حالت Grayscale یا Color ملایم. از عکس زاویه‌دار پرهیز کنید و حتماً Deskew (اصلاح کجی) را اعمال کنید.
فرمت فایل: فرمت‌های بدون اتلاف مثل PNG یا TIFF (با فشرده‌سازی LZW) را به JPEG کم‌کیفیت ترجیح دهید. برای PDF اسکن‌شده، صفحات را به تصاویر 300 DPI یکدست تبدیل کنید.
پیش‌پردازش هوشمند: برش حاشیه، حذف نویز (Median/Bilateral)، افزایش کنتراست، Binarization تطبیقی برای نور ناهمگن، De-blur ملایم، حذف پس‌زمینه و پاک‌سازی واترمارک. در صورت نیاز، Super-Resolution 1.5–2x قبل از OCR.

clean vector pipeline diagram of image preprocessing for OCR: crop, deskew, denoise, adaptive threshold, contrast stretch;

💡 نکته مهم

برای پروژه‌های تولیدی، مراحل پیش‌پردازش را با APIها خودکار کنید. راهنما: کار با API استخراج متن از تصویر و OCR فارسی آنلاین.

هوش مصنوعی بینایی: مقایسه مدل‌های ChatGPT، Claude و Gemini برای OCR

برای OCR فارسی، سه خانواده‌ی محبوب مدل‌ها عملکردهای متفاوتی دارند: ChatGPT (GPT‑4o/4.1)، Claude 3.5 Sonnet و Gemini 2.0. اگر دقت در بازسازی ساختار سند، تاب‌آوری در برابر نویز اسکن و سرعت پاسخ برایتان مهم است، انتخاب درست مدل نتیجه را متحول می‌کند. GPT‑4o در فهم چیدمان صفحه و نگه‌داشت جداول و فرم‌ها عالی است؛ Claude در وفاداری به متن و خروجی‌های تمیز و قابل‌تحلیل می‌درخشد؛ Gemini در بینایی چندوجهی و تاب‌آوری نسبت به اسکن‌های کم‌کیفیت و دست‌نویس‌ها عملکرد سریعی دارد.

ChatGPT (GPT‑4o/4.1): ساختارگرا و دستورپذیر؛ مناسب فاکتورهای چندستونی و فرم‌ها. مدل GPT‑4o · دسترسی رایگان به GPT‑4.1
Claude 3.5 Sonnet: وفاداری بالاتر به متن، خروجی JSON تمیز؛ مناسب اسناد حقوقی و گزارش‌ها. Claude 3.5 Sonnet
Gemini 2.0: بینایی قوی و سریع؛ مناسب آرشیوهای اسکن‌شده و دست‌نویس‌های کم‌کیفیت. Gemini 2.0 Flash/Pro

برای شروع عملی OCR فارسی ببینید: OCR فارسی آنلاین، استخراج متن از تصویر با API، تبدیل تصویر به متن.

OCR چیست؟ تشخیص متن از سند اسکن‌شده به زبان ساده

OCR یا تشخیص متن از تصویر، الگوهای پیکسلی حروف را به داده‌های قابل‌جستجو تبدیل می‌کند؛ خروجی می‌تواند متن ساده (TXT)، فایل قابل‌ویرایش (DOCX) یا ساختارمند (JSON) برای جدول‌ها و فرم‌ها باشد. این فناوری برای دیجیتالی‌سازی آرشیوها، جستجوی سریع در PDFها و استخراج محتوا از قبض‌ها و گزارش‌ها ضروری است. اگر تازه شروع می‌کنید، آموزش تبدیل تصویر به متن و راهکار تبدیل فایل تصویری به متن قابل‌ویرایش و مقاله خواندن نوشته از تصویر کمک می‌کنند مسیر درست را انتخاب کنید.

GapGPT (https://gapgpt.app): دسترسی به مدل‌های هوش مصنوعی با رابط فارسی و بدون نیاز به تحریم‌شکن

اگر به دنبال یک نقطه شروع ساده برای ساخت گردش‌کار OCR+LLM هستید، GapGPT میان‌بری هوشمند فراهم می‌کند: پلتفرم ایرانی با رابط کاملاً فارسی، دسترسی یکپارچه به مدل‌های ChatGPT، Claude و Gemini، و استفاده بدون نیاز به تحریم شکن. با سوییچ یک‌کلیکی بین مدل‌ها، می‌توانید خروجی OCR را پاک‌سازی، استانداردسازی نیم‌فاصله‌ها، تبدیل اعداد و حتی استخراج فیلدهای فرم را انجام دهید. برای تیم‌های محتوا و آرشیو، قیمت‌گذاری مناسب و پشتیبانی داخلی، پیاده‌سازی را کم‌هزینه و سریع می‌کند. اگر توسعه‌دهنده هستید، ای‌پی‌آی GapGPT اجازه می‌دهد مرحله OCR را به ترجمه، خلاصه‌سازی و برچسب‌گذاری خودکار متصل کنید و نتایج را در قالب JSON ذخیره کنید. از آن‌جا که سرویس بر تجربه فارسی متمرکز است، تنظیمات زبان و نگارش به‌صورت پیش‌فرض بهینه‌اند. همین حالا وارد شوید و گردش‌کار اسناد اسکن‌شده را بدون دردسر راه بیندازید.

حریم خصوصی و هزینه‌ها: انتخاب ابزارهای امن و مقرون‌به‌صرفه برای کاربران ایرانی

برای اسناد حساس، داده‌ها را حداقل‌سازی و رمزنگاری کنید و سیاست نگهداشت سرویس را بررسی کنید. راهنمای امنیت ارتباط با ای‌پی‌آی‌های هوش مصنوعی نکات فنی مهمی دارد.

از نظر هزینه، به‌جای پرداخت‌های سنگین، پلن‌های مقرون‌به‌صرفه یا پرداخت به‌ازای درخواست را انتخاب کنید. برای برآورد دقیق بخوانید: بررسی هزینه‌های ای‌پی‌آی, قیمت API هوش مصنوعی و گزینه‌های API رایگان. GapGPT با قیمت مناسب و دسترسی بدون نیاز به تحریم شکن برای کاربران ایرانی انتخاب امن و عملی است.

OCR فارسی سریع و دقیق برای همه

متن اسکن‌هات را با هوش مصنوعی استخراج کن؛ بدون تحریم‌شکن، با API و رابط فارسی، و اتصال به ChatGPT/Claude برای تصحیح و ساخت گردش‌کار.

شروع رایگان

گفتگوی رایگان با هوش مصنوعی

پرسش و پاسخ

چطور متن فارسی PDF اسکن‌شده را دقیق استخراج کنم؟

بهترین نتیجه با اسکن 300–400 DPI و اجرای OCR فارسی با پیش‌پردازش است. برای تشخیص متن از سند اسکن شده و استخراج متن از تصویر، این مراحل را انجام دهید: 1) تبدیل صفحات PDF به PNG/TIFF باکیفیت و اعمال deskew/denoise. 2) در گپ‌جی‌پی‌تی (GapGPT) زبان را fa (و در صورت نیاز en) بگذارید، گزینه «حفظ چیدمان» را فعال کنید. 3) خروجی را TXT/DOCX/JSON بگیرید و نویسه‌ها را نرمال‌سازی کنید (ي→ی، ك→ک). 4) برای جدول‌ها و فرم‌ها، GPT‑4o را امتحان کنید. مثلاً یک قبض بانکی با 300 DPI را آپلود کنید و OCR فارسی را اجرا کنید؛ نتیجه تمیزتر می‌گیرید. برای شروع، الان گپ‌جی‌پی‌تی را تست کنید.

GPT‑4o یا Claude 3.5 یا Gemini؛ برای OCR فارسی کدوم بهتره؟

برای OCR فارسی، GPT‑4o در چیدمان، Claude در وفاداری متن، Gemini در سرعت برترند. یعنی در تشخیص متن از سند اسکن شده و استخراج متن از تصویر: - GPT‑4o: حفظ چیدمان، جداول و فرم‌ها عالی. - Claude 3.5: خروجی تمیز، پس‌تصحیح نیم‌فاصله و واژگان دقیق. - Gemini: تاب‌آوری در اسکن کم‌کیفیت و دست‌نویس سریع. بهترین ترکیب، موتور OCR (مثلاً PaddleOCR/Tesseract) + پس‌تصحیح با این مدل‌هاست تا OCR فارسی دقیق شود. در گپ‌جی‌پی‌تی هر سه را یک‌جا تست کنید و امسال بر اساس نیازتان انتخاب کنید.

OCR فارسی رایگانه یا پولی؟ قیمت سرویس‌ها در ایران 2024 چقدره؟

OCR فارسی رایگان هست، ولی امکانات حرفه‌ای معمولاً هزینه دارد. به این صورت: ابزارهای متن‌باز مثل Tesseract/PaddleOCR رایگان‌اند اما برای فارسی و حفظ چیدمان نیاز به تنظیمات و پس‌تصحیح دارند. سرویس‌های آنلاین OCR فارسی اغلب پلن آزمایشی رایگان یا محدودیت صفحه دارند. در ایران 2024، بیشتر سرویس‌ها قیمت به‌ازای درخواست یا اشتراک ماهانه می‌دهند؛ هزینه به حجم و کیفیت خروجی وابسته است. گپ‌جی‌پی‌تی پلن مقرون‌به‌صرفه و دسترسی آسان به GPT‑4o/Claude/Gemini فراهم می‌کند؛ اول با پلن آزمایشی تست کنید، بعد روی نیاز واقعی هزینه کنید.

تبدیل تصویر به متن فارسی کار نمی‌کنه؛ برای نستعلیق و دست‌نویس چه کنم؟

برای نستعلیق و دست‌نویس باید پیش‌پردازش قوی و مدل‌های اختصاصی OCR فارسی استفاده شود. راه‌حل عملی برای تشخیص متن از سند اسکن شده: - اسکن 400 DPI، اصلاح کجی و افزایش کنتراست. - Binarization تطبیقی و Super‑Resolution 1.5–2x قبل از OCR. - جداسازی چیدمان ستون/جدول؛ سپس استخراج متن از تصویر. - نرمال‌سازی نویسه‌ها و حفظ نیم‌فاصله در پس‌تصحیح. - ترکیب موتور OCR با Gemini برای دست‌نویس و GPT‑4o برای چیدمان؛ پاک‌سازی متن با Claude. مثلاً صورتجلسه دست‌نویس را در گپ‌جی‌پی‌تی آپلود کنید، fa را انتخاب کنید و خروجی JSON/DOCX بگیرید.

OCR فارسی آنلاین رایگان کجاست؟

چند سرویس OCR فارسی آنلاین آزمایشی رایگان در دسترس است. برای استخراج متن از تصویر و تشخیص متن از سند اسکن شده، ابتدا دقت اسکن را بالا ببرید (300 DPI). سپس دموهای مبتنی بر Tesseract/PaddleOCR یا پلن‌های آزمایشی گپ‌جی‌پی‌تی (GapGPT) را بررسی کنید. نکته مهم: محدودیت صفحه/حجم و حفظ چیدمان را چک کنید؛ اگر نیاز حرفه‌ای دارید، به پلن‌های مقرون‌به‌صرفه ارتقا دهید.