إزالة علامات HTML — أداة مجانية عبر الإنترنت
ما هو إزالة علامات HTML?
أداة "إزالة علامات HTML" هي أداة تحليل تقوم بإزالة جميع لغات الترميز من المستند بشكل كامل، لتترك وراءها النص العادي الخالص الذي يمكن قراءته بسهولة. عند نسخ المحتوى من كود مصدر موقع الويب أو موجزات RSS أو محررات البريد الإلكتروني ذات النص المنسق، غالبًا ما يكون النص مدفونًا تحت طبقات من العلامات الهيكلية مثل <div> و<p> و<span>.
تعمل هذه الأداة على إزالة الأقواس والرموز الموجودة بداخلها على الفور، مع فك تشفير كيانات HTML (مثل & أو ) وإعادتها إلى أحرفها القياسية. وهي أداة أساسية لتنظيف البيانات المستخرجة من الويب.
متى تستخدم إزالة علامات HTML?
استخدم هذه الأداة عند استخراج المحتوى من مجموعات بيانات استخراج الويب، أو أوصاف موجزات RSS، أو ملفات البريد الإلكتروني بتنسيق HTML الخام. يستخدمها متخصصو تحسين محركات البحث (SEO) لاستخراج النص الخالص من مصدر صفحة أحد المنافسين لتشغيله عبر أداة فحص كثافة الكلمات المفتاحية.
ويستخدمها مسؤولو أنظمة إدارة المحتوى (CMS) لإصلاح المقالات التي يتسرب فيها كود HTML معطوب إلى العرض المرئي. إذا قمت بنسخ نص بصريًا من صفحة ويب وتريد فقط إزالة عناصر التنسيق غير المرئية، فقد يكون محول النص العادي الأكثر ملاءمة.
كيفية استخدام هذه الأداة
- 1Paste your HTML code or HTML-laden text
- 2Click 'Remove HTML Tags'
- 3Copy the clean plain text output
تستهدف هذه الأداة أي شيء يقع داخل الأقواس الزاوية (<tag>). انتبه: إذا كان لديك نص رياضي مثل "x < y"، فقد تقوم أدوات إزالة HTML الأساسية بحذف كل ما يلي علامة "أصغر من" عن طريق الخطأ.
أمثلة
| Input | Output |
|---|---|
| <p>Hello <b>World</b></p> | Hello World |
| <h1>Title</h1><p>Body text</p> | TitleBody text |
| Price & Tax: <$100> | Price & Tax: <$100> |
| <ul><li>Item 1</li><li>Item 2</li></ul> | Item 1Item 2 |
| <script>alert('xss')</script>safe text | safe text |
القواعد والسلوك
- يتم التعرف على أي نص محاط بأقواس زاوية (مثل <p>، </a>، <img src='...'>) على أنه علامة HTML ويتم حذفه بالكامل.
- تقوم الأداة بتحويل كيانات HTML الشائعة إلى نص مقروء. على سبيل المثال، يتحول الرمز & إلى &، و< إلى <، و© إلى ©.
- يتم الاحتفاظ بالنص الموجود خارج الأقواس — أي المحتوى الفعلي القابل للقراءة في صفحة الويب — بتنسيقه الأصلي.
أدوات ذات صلة
الأسئلة الشائعة
لماذا أحتاج إلى إزالة علامات HTML؟
إذا قمت بنسخ شفرة المصدر الأولية من صفحة ويب أو استخدمت برنامجًا نصيًا لاستخراج البيانات، فإن النص المهم يكون محشورًا بكثرة بتعليمات التنسيق (مثل <b> للتسمية بالخط العريض أو <a href='...'> للروابط). تؤدي إزالة علامات HTML إلى التخلص من "الشفرة" وترك المقالة أو البيانات الفعلية التي تريد قراءتها أو تحليلها.
هل يقوم بفك تشفير كيانات HTML؟
نعم. تستخدم متصفحات الويب رموزًا محددة لعرض الأحرف الخاصة (على سبيل المثال، عند كتابة الرمز &، يظهر الرمز "&" على الصفحة). لا تقتصر هذه الأداة على إزالة العلامات <tags> الهيكلية فحسب، بل تعمل أيضًا على ترجمة تلك الكيانات المشفرة إلى علامات ترقيم عادية وقابلة للقراءة.
هل سيقوم بإزالة جافا سكريبت؟
يقوم أداة إزالة HTML عالية الجودة بإزالة علامات <script> ورمز البرمجة الموجود بينهما، حيث إن كود JavaScript ليس نصًا مقروءًا للإنسان في المقالة. وبالمثل، عادةً ما يتم حذف كود CSS الموجود بين علامات <style>.
كيف يختلف هذا عن إنشاء النص العادي؟
تحويل النص العادي يتعامل عادةً مع بيانات الحافظة — حيث يزيل التنسيقات مثل الخط العريض والمائل وحجم الخط من النص الذي نسخته من Word أو من صفحة ويب معروضة. أما إزالة علامات HTML فهي مخصصة تحديدًا لتنظيف سلسلة كود المصدر الأولي.
هل سيتم حذف معادلاتي الرياضية؟
قد يكون الأمر كذلك. نظرًا لأن علامات HTML تعتمد على رمزي «أصغر من» (<) و«أكبر من» (>)، فقد يرى برنامج إزالة العلامات البسيط عبارة «A < B و C > D» ويظن خطأً أن «< B و C >» هي علامة HTML غريبة، فيقوم بحذفها. لذا، يجب دائمًا مراجعة النصوص التي تحتوي على معادلات رياضية أو أكواد برمجية كثيرة بعد إزالة العلامات.