مایکروسافت راهنمایی را منتشر کرده که نشان میدهد محتوای تکراری چگونه بر دیده شدن در جستجوهای هوش مصنوعی اثر میگذارد؛ این شرکت توضیح داده که سیستمهای هوش مصنوعی صفحات مشابه را دستهبندی میکنند و ممکن است (به جای نسخه اصلی) نسخههایی را نمایش دهند که مدنظر شما نبوده است.
راهنمای جدید مایکروسافت درباره محتوای تکراری در جستجوهای مبتنی بر هوش مصنوعی
مایکروسافت راهنمای جدیدی را درباره محتوای تکراری منتشر کرده که هدف آن بررسی وضعیت سئو در جستجوهای مجهز به هوش مصنوعی است.
این پست در «وبلاگ وبمستر بینگ» (Bing Webmaster Blog) به این موضوع میپردازد که وقتی چندین آدرس (URL) مشابه وجود دارد، کدام یک از آنها به عنوان «صفحه منبع» برای پاسخهای هوش مصنوعی انتخاب میشود.
مایکروسافت توضیح میدهد که چگونه صفحات «تقریباً تکراری» (Near-duplicate) در سیستمهای هوش مصنوعی در یک گروه قرار میگیرند و این گروهبندی چگونه بر انتخاب آدرسی که در نهایت در خلاصههای هوش مصنوعی نمایش داده میشود، تأثیر میگذارد.
نحوه برخورد سیستمهای هوش مصنوعی با محتوای تکراری
«فابریس کانل» و «کریشنا مادهاوان»، مدیران ارشد محصول در بخش هوش مصنوعی مایکروسافت، مینویسند:
«مدلهای زبانی بزرگ (LLMs)، آدرسهای تقریباً تکراری را در یک خوشه (Cluster) واحد دستهبندی کرده و سپس یک صفحه را به عنوان نماینده آن مجموعه انتخاب میکنند. اگر تفاوت بین صفحات ناچیز باشد، مدل ممکن است نسخهای را انتخاب کند که قدیمی است یا آن نسخهای نیست که شما قصد برجسته کردنش را داشتید.»
اگر چندین صفحه قابلیت جایگزینی با یکدیگر را داشته باشند، صفحهی نماینده ممکن است آدرسِ یک کمپین قدیمی، نسخهای دارای پارامتر (Parameter version)، یا یک صفحه منطقهای (Regional page) باشد که شما قصد تبلیغ یا نمایش آن را نداشتید.
مایکروسافت همچنین اشاره میکند که بسیاری از تجربیات کار با مدلهای زبانی بزرگ (LLM)، بر پایه «اینْدکسهای جستجو» (Search Indexes) بنا شدهاند. اگر این ایندکسها با محتواهای تکراری آشفته و شلوغ شوند، همین ابهام در مراحل بعدی در پاسخهای هوش مصنوعی نیز ظاهر خواهد شد.
محتوای تکراری چگونه باعث کاهش دیده شدن در هوش مصنوعی میشود؟
مایکروسافت چندین روش را بیان میکند که در آنها محتوای تکراری میتواند مانع عملکرد درست شود:
-
وضوحِ هدف (Intent Clarity): اگر چندین صفحه یک موضوع واحد را با متن، عنوان و متادیتاهای تقریباً یکسان پوشش دهند، تشخیص اینکه کدام آدرس برای پاسخ به یک سوال مناسبتر است، دشوار میشود. حتی وقتی صفحه «درست» ایندکس شده باشد، سیگنالهای اعتبار بین صفحاتِ مشابه تقسیم و پخش میشوند.
-
نمایندگی (Representation): وقتی صفحات در یک خوشه (Group) قرار میگیرند، شما عملاً در حال رقابت با خودتان هستید تا مشخص شود کدام نسخه قرار است به عنوان نماینده آن گروه نمایش داده شود.
مایکروسافت همچنین بین «تمایز واقعی صفحات» و «تغییرات ظاهری» مرز مشخصی قائل شده است. مجموعهای از صفحات زمانی منطقی به نظر میرسند که هر کدام یک نیازِ متمایز را برطرف کنند؛ اما وقتی صفحات فقط در حد ویرایشهای جزئی با هم فرق دارند، ممکن است سیگنالهای منحصربهفرد کافی برای سیستمهای هوش مصنوعی ارسال نکنند تا آنها را به عنوان گزینههای مجزا در نظر بگیرد.
در نهایت، مایکروسافت محتوای تکراری را به تأخیر در بهروزرسانی (Update Lag) مرتبط میداند. اگر خزندهها (Crawlers) زمان خود را صرف بازبینی آدرسهای تکراری و بیهوده کنند، نمایشِ تغییراتِ صفحهای که واقعاً برای شما اهمیت دارد، در سیستمهایی که به سیگنالهای تازهی ایندکس وابستهاند، بسیار بیشتر طول خواهد کشید.
دستهبندی محتواهای تکراری از نظر مایکروسافت
این راهنما به چند مورد از «مقصران اصلی» تکرار محتوا اشاره میکند:
-
انتشار همزمان (Syndication): زمانی که یک مقاله مشابه در چندین سایت مختلف منتشر میشود، نسخههای کپی و یکسان، شناسایی نسخه اصلی را دشوار میکنند. مایکروسافت توصیه میکند از همکاران خود بخواهید از تگهای کانونیکال به سمت آدرس اصلی استفاده کنند و تا حد امکان، به جای بازنشر کامل متن، فقط بخشی از آن (گزیده) را قرار دهند.
-
صفحات کمپین: اگر چندین نسخه از یک صفحه را برای یک هدف واحد ساختهاید که تفاوت بسیار کمی با هم دارند، مایکروسافت پیشنهاد میدهد یک صفحه اصلی را برای جمعآوری لینکها و تعاملات انتخاب کنید. سپس برای سایر نسخهها از تگ کانونیکال استفاده کرده و صفحات قدیمی را که دیگر کاربرد مشخصی ندارند، با هم ادغام کنید.
-
بومیسازی (Localization): صفحات منطقهای که تقریباً یکسان هستند، ممکن است به عنوان محتوای تکراری شناخته شوند، مگر اینکه تفاوتهای معناداری داشته باشند. مایکروسافت پیشنهاد میکند بومیسازی را با تغییراتی انجام دهید که واقعاً اهمیت دارند؛ مثل تغییر در اصطلاحات، مثالها، قوانین محلی یا جزئیات محصولات.
-
تکرارهای فنی: این راهنما فهرستی از دلایل فنی رایج را ذکر میکند، از جمله: پارامترهای آدرس (URL Parameters)، نسخههای HTTP و HTTPS، استفاده از حروف بزرگ و کوچک در آدرسها، اسلشهای انتهایی، نسخههای مخصوص چاپ و صفحات تست (Staging) که در دسترس عموم قرار دارند.
نقش پروتکل IndexNow
مایکروسافت به IndexNow به عنوان ابزاری برای کوتاهتر کردن چرخه پاکسازی (پس از ادغام آدرسها) اشاره میکند. وقتی صفحات را با هم ادغام میکنید، تگهای کانونیکال را تغییر میدهید یا محتواهای تکراری را حذف میکنید، IndexNow به موتورهای جستجوی عضو کمک میکند تا این تغییرات را سریعتر شناسایی کنند. مایکروسافت معتقد است این شناساییِ سریعتر، باعث میشود آدرسهای قدیمیِ کمتری در نتایج باقی بمانند و احتمال اینکه یک نسخه تکراری و قدیمی به عنوان منبعِ پاسخِ هوش مصنوعی انتخاب شود، کاهش یابد.
اصل اساسی مایکروسافت
«کانل» و «مادهاوان» عنوان کردهاند:
«وقتی صفحات همپوشان را کاهش میدهید و اجازه میدهید یک نسخهی معتبر سیگنالهای شما را منتقل کند، موتورهای جستجو با اطمینان بیشتری هدف شما را درک کرده و آدرس درست را برای نمایش محتوای شما انتخاب میکنند.»
پیام اصلی این است: ابتدا ادغام محتوا، سپس سیگنالهای فنی. تگهای کانونیکال، ریدایرکتها، تگهای hreflang و IndexNow همگی کمککنندهاند، اما زمانی بهترین بازدهی را دارند که شما مجموعهای طولانی از صفحاتِ «تقریباً یکسان» را نگه نداشته باشید.
چرا این موضوع اهمیت دارد؟
محتوای تکراری به خودیِ خود یک «جریمه» (Penalty) محسوب نمیشود؛ بلکه ضرر اصلی آن ضعیف شدن دیده شدن شما در زمانی است که سیگنالهای اعتبار پخش شده و هدفِ صفحه نامشخص باشد.
-
مقالات بازنشر شده (Syndicated) اگر فاقد تگ کانونیکال باشند، میتوانند رتبه بالاتری از نسخه اصلی کسب کنند.
-
نسخههای مختلف کمپین اگر تفاوتهایشان فقط ظاهری باشد، میتوانند باعث «همنوعخواری» (Cannibalization) و تضعیف یکدیگر شوند.
-
صفحات منطقهای اگر نیازهای متفاوتی را برطرف نکنند، ممکن است با هم اشتباه گرفته شوند.
بازبینیهای دورهای (Audit) به شما کمک میکند تا این همپوشانیها را زودتر شناسایی کنید. مایکروسافت به Bing Webmaster Tools به عنوان ابزاری برای پیدا کردن الگوهایی مثل «عنوانهای کاملاً یکسان» و سایر شاخصهای تکرار اشاره کرده است.
نگاهی به آینده
هر چه پاسخهای تولید شده توسط هوش مصنوعی به یک نقطه ورودِ معمولتر برای کاربران تبدیل میشوند، چالشِ «کدام آدرس نماینده این موضوع است» غیرقابلچشمپوشیتر میشود. پاکسازیِ صفحاتِ تقریباً تکراری میتواند مستقیماً بر این موضوع تأثیر بگذارد که وقتی سیستم هوش مصنوعی به دنبال یک صفحه واحد برای پایه و اساسِ پاسخ خود میگردد، کدام نسخه از محتوای شما را نمایش دهد.







