تجربه ای از تیم پارس سئو دبی

مایکروسافت توضیح می‌دهد: محتوای تکراری چطور بر دیده شدن شما در نتایج جستجوی هوش مصنوعی اثر می‌گذارد

مایکروسافت راهنمایی را منتشر کرده که نشان می‌دهد محتوای تکراری چگونه بر دیده شدن در جستجوهای هوش مصنوعی اثر می‌گذارد؛ این شرکت توضیح داده که سیستم‌های هوش مصنوعی صفحات مشابه را دسته‌بندی می‌کنند و ممکن است (به جای نسخه اصلی) نسخه‌هایی را نمایش دهند که مدنظر شما نبوده است.

راهنمای جدید مایکروسافت درباره محتوای تکراری در جستجوهای مبتنی بر هوش مصنوعی

مایکروسافت راهنمای جدیدی را درباره محتوای تکراری منتشر کرده که هدف آن بررسی وضعیت سئو در جستجوهای مجهز به هوش مصنوعی است.

این پست در «وبلاگ وب‌مستر بینگ» (Bing Webmaster Blog) به این موضوع می‌پردازد که وقتی چندین آدرس (URL) مشابه وجود دارد، کدام یک از آن‌ها به عنوان «صفحه منبع» برای پاسخ‌های هوش مصنوعی انتخاب می‌شود.

مایکروسافت توضیح می‌دهد که چگونه صفحات «تقریباً تکراری» (Near-duplicate) در سیستم‌های هوش مصنوعی در یک گروه قرار می‌گیرند و این گروه‌بندی چگونه بر انتخاب آدرسی که در نهایت در خلاصه‌های هوش مصنوعی نمایش داده می‌شود، تأثیر می‌گذارد.

نحوه برخورد سیستم‌های هوش مصنوعی با محتوای تکراری

«فابریس کانل» و «کریشنا مادهاوان»، مدیران ارشد محصول در بخش هوش مصنوعی مایکروسافت، می‌نویسند:

«مدل‌های زبانی بزرگ (LLMs)، آدرس‌های تقریباً تکراری را در یک خوشه (Cluster) واحد دسته‌بندی کرده و سپس یک صفحه را به عنوان نماینده آن مجموعه انتخاب می‌کنند. اگر تفاوت بین صفحات ناچیز باشد، مدل ممکن است نسخه‌ای را انتخاب کند که قدیمی است یا آن نسخه‌ای نیست که شما قصد برجسته کردنش را داشتید.»

اگر چندین صفحه قابلیت جایگزینی با یکدیگر را داشته باشند، صفحه‌ی نماینده ممکن است آدرسِ یک کمپین قدیمی، نسخه‌ای دارای پارامتر (Parameter version)، یا یک صفحه منطقه‌ای (Regional page) باشد که شما قصد تبلیغ یا نمایش آن را نداشتید.

مایکروسافت همچنین اشاره می‌کند که بسیاری از تجربیات کار با مدل‌های زبانی بزرگ (LLM)، بر پایه «اینْدکس‌های جستجو» (Search Indexes) بنا شده‌اند. اگر این ایندکس‌ها با محتواهای تکراری آشفته و شلوغ شوند، همین ابهام در مراحل بعدی در پاسخ‌های هوش مصنوعی نیز ظاهر خواهد شد.

محتوای تکراری چگونه باعث کاهش دیده شدن در هوش مصنوعی می‌شود؟

مایکروسافت چندین روش را بیان می‌کند که در آن‌ها محتوای تکراری می‌تواند مانع عملکرد درست شود:

وضوحِ هدف (Intent Clarity): اگر چندین صفحه یک موضوع واحد را با متن، عنوان و متادیتاهای تقریباً یکسان پوشش دهند، تشخیص اینکه کدام آدرس برای پاسخ به یک سوال مناسب‌تر است، دشوار می‌شود. حتی وقتی صفحه «درست» ایندکس شده باشد، سیگنال‌های اعتبار بین صفحاتِ مشابه تقسیم و پخش می‌شوند.
نمایندگی (Representation): وقتی صفحات در یک خوشه (Group) قرار می‌گیرند، شما عملاً در حال رقابت با خودتان هستید تا مشخص شود کدام نسخه قرار است به عنوان نماینده آن گروه نمایش داده شود.

مایکروسافت همچنین بین «تمایز واقعی صفحات» و «تغییرات ظاهری» مرز مشخصی قائل شده است. مجموعه‌ای از صفحات زمانی منطقی به نظر می‌رسند که هر کدام یک نیازِ متمایز را برطرف کنند؛ اما وقتی صفحات فقط در حد ویرایش‌های جزئی با هم فرق دارند، ممکن است سیگنال‌های منحصربه‌فرد کافی برای سیستم‌های هوش مصنوعی ارسال نکنند تا آن‌ها را به عنوان گزینه‌های مجزا در نظر بگیرد.

در نهایت، مایکروسافت محتوای تکراری را به تأخیر در به‌روزرسانی (Update Lag) مرتبط می‌داند. اگر خزنده‌ها (Crawlers) زمان خود را صرف بازبینی آدرس‌های تکراری و بیهوده کنند، نمایشِ تغییراتِ صفحه‌ای که واقعاً برای شما اهمیت دارد، در سیستم‌هایی که به سیگنال‌های تازه‌ی ایندکس وابسته‌اند، بسیار بیشتر طول خواهد کشید.

دسته‌بندی محتواهای تکراری از نظر مایکروسافت

این راهنما به چند مورد از «مقصران اصلی» تکرار محتوا اشاره می‌کند:

انتشار همزمان (Syndication): زمانی که یک مقاله مشابه در چندین سایت مختلف منتشر می‌شود، نسخه‌های کپی و یکسان، شناسایی نسخه اصلی را دشوار می‌کنند. مایکروسافت توصیه می‌کند از همکاران خود بخواهید از تگ‌های کانونیکال به سمت آدرس اصلی استفاده کنند و تا حد امکان، به جای بازنشر کامل متن، فقط بخشی از آن (گزیده) را قرار دهند.
صفحات کمپین: اگر چندین نسخه از یک صفحه را برای یک هدف واحد ساخته‌اید که تفاوت بسیار کمی با هم دارند، مایکروسافت پیشنهاد می‌دهد یک صفحه اصلی را برای جمع‌آوری لینک‌ها و تعاملات انتخاب کنید. سپس برای سایر نسخه‌ها از تگ کانونیکال استفاده کرده و صفحات قدیمی را که دیگر کاربرد مشخصی ندارند، با هم ادغام کنید.
بومی‌سازی (Localization): صفحات منطقه‌ای که تقریباً یکسان هستند، ممکن است به عنوان محتوای تکراری شناخته شوند، مگر اینکه تفاوت‌های معناداری داشته باشند. مایکروسافت پیشنهاد می‌کند بومی‌سازی را با تغییراتی انجام دهید که واقعاً اهمیت دارند؛ مثل تغییر در اصطلاحات، مثال‌ها، قوانین محلی یا جزئیات محصولات.
تکرارهای فنی: این راهنما فهرستی از دلایل فنی رایج را ذکر می‌کند، از جمله: پارامترهای آدرس (URL Parameters)، نسخه‌های HTTP و HTTPS، استفاده از حروف بزرگ و کوچک در آدرس‌ها، اسلش‌های انتهایی، نسخه‌های مخصوص چاپ و صفحات تست (Staging) که در دسترس عموم قرار دارند.

نقش پروتکل IndexNow

مایکروسافت به IndexNow به عنوان ابزاری برای کوتاه‌تر کردن چرخه پاک‌سازی (پس از ادغام آدرس‌ها) اشاره می‌کند. وقتی صفحات را با هم ادغام می‌کنید، تگ‌های کانونیکال را تغییر می‌دهید یا محتواهای تکراری را حذف می‌کنید، IndexNow به موتورهای جستجوی عضو کمک می‌کند تا این تغییرات را سریع‌تر شناسایی کنند. مایکروسافت معتقد است این شناساییِ سریع‌تر، باعث می‌شود آدرس‌های قدیمیِ کمتری در نتایج باقی بمانند و احتمال اینکه یک نسخه تکراری و قدیمی به عنوان منبعِ پاسخِ هوش مصنوعی انتخاب شود، کاهش یابد.

اصل اساسی مایکروسافت

«کانل» و «مادهاوان» عنوان کرده‌اند:

«وقتی صفحات هم‌پوشان را کاهش می‌دهید و اجازه می‌دهید یک نسخه‌ی معتبر سیگنال‌های شما را منتقل کند، موتورهای جستجو با اطمینان بیشتری هدف شما را درک کرده و آدرس درست را برای نمایش محتوای شما انتخاب می‌کنند.»

پیام اصلی این است: ابتدا ادغام محتوا، سپس سیگنال‌های فنی. تگ‌های کانونیکال، ریدایرکت‌ها، تگ‌های hreflang و IndexNow همگی کمک‌کننده‌اند، اما زمانی بهترین بازدهی را دارند که شما مجموعه‌ای طولانی از صفحاتِ «تقریباً یکسان» را نگه نداشته باشید.

چرا این موضوع اهمیت دارد؟

محتوای تکراری به خودیِ خود یک «جریمه» (Penalty) محسوب نمی‌شود؛ بلکه ضرر اصلی آن ضعیف شدن دیده شدن شما در زمانی است که سیگنال‌های اعتبار پخش شده و هدفِ صفحه نامشخص باشد.

مقالات بازنشر شده (Syndicated) اگر فاقد تگ کانونیکال باشند، می‌توانند رتبه بالاتری از نسخه اصلی کسب کنند.
نسخه‌های مختلف کمپین اگر تفاوت‌هایشان فقط ظاهری باشد، می‌توانند باعث «هم‌نوع‌خواری» (Cannibalization) و تضعیف یکدیگر شوند.
صفحات منطقه‌ای اگر نیازهای متفاوتی را برطرف نکنند، ممکن است با هم اشتباه گرفته شوند.

بازبینی‌های دوره‌ای (Audit) به شما کمک می‌کند تا این هم‌پوشانی‌ها را زودتر شناسایی کنید. مایکروسافت به Bing Webmaster Tools به عنوان ابزاری برای پیدا کردن الگوهایی مثل «عنوان‌های کاملاً یکسان» و سایر شاخص‌های تکرار اشاره کرده است.

نگاهی به آینده

هر چه پاسخ‌های تولید شده توسط هوش مصنوعی به یک نقطه ورودِ معمول‌تر برای کاربران تبدیل می‌شوند، چالشِ «کدام آدرس نماینده این موضوع است» غیرقابل‌چشم‌پوشی‌تر می‌شود. پاک‌سازیِ صفحاتِ تقریباً تکراری می‌تواند مستقیماً بر این موضوع تأثیر بگذارد که وقتی سیستم هوش مصنوعی به دنبال یک صفحه واحد برای پایه و اساسِ پاسخ خود می‌گردد، کدام نسخه از محتوای شما را نمایش دهد.

برخی از پروژه هـــای ما