למה גוגל נכשלו עד עתה במלחמה נגד הספאם וכיצד אפשר להילחם בתופעה?

אז לתופעה של אתרי ספאם שעולים בדרכים לא דרכים לראש תוצאות החיפוש האורגניות של גוגל אני לא צריך להרחיב, נכון? בכל זאת למי שנתקל בפוסט הזה ולא מבין בדיוק על מה אני מדבר… מדובר באתרים אשר מנצלים חולשות ופרצות באלגוריתם החיפוש של גוגל על מנת לעלות לראש תוצאות החיפוש, אפילו אם האתר שלהם לא ממש איכותי ולא מספק תוכן רלוונטי, בטח לא יותר מהאתרים שנמצאים מתחת להם.

למה אני כותב את הפוסט הזה עכשיו?

1. בשבועות האחרונים עלתה מאוד המודעות, בעיקר בקרב הגולשים (בגוגל ובקהילת קידום האתרים כבר ידעו את זה מזמן) לתוצאות הספאם הלא רלוונטיות שמופיעות כפטריות לאחר הגשם בגוגל, ומאות כתבות מתרוצצות ברחבי הרשת על הנושא. אפילו גוגל עצמה כבר לא יכלה להדוף את ההאשמות ופרסמה פוסט שמודה בטעויות מטעם האחראי על מחלקת הספאם בגוגל – מאט קאטס, ומה הם מתכוונים לעשות שם בנידון. כן… בזמן האחרון באמת ניכר שזה עובר כל גבול.

2. סוף סוף לראשונה היום (29.1.2011) ראיתי את האתר yaaw.co.il עף לקיבינימט מהעמוד הראשון בגוגל. זהו אתר ספאם, שלדעתי האישית אפילו לא מכבד את המילה "ביזיון", שהצליח על ידי שיטות כאלו ואחרות לכבוש את התוצאה הראשונה בגוגל בביטוי "קידום אתרים", שזהו אחד הביטויים הכי תחרותיים בגוגל ישראל, אם לא התחרותי ביותר לאחר חודשים שהיה שם.

כן… זה היה "הדיבור החם" בקרב קהילת מקדמי האתרים וכל חסידי גוגל למיניהם בחודש-חודשיים האחרונים, ולמה?  כי זה ממש תמוה שאתר עם 8 עמודים מאונדקסים, בלי ותק ועם אלפי קישורי ספאם מצליח להתברג בין התוצאות הראשונות ואפילו נשאר שם לפחות חודש, מבלי שגוגל ישרוף ביזיון שכזה.

איך הדברים האלו קורים? איך הספאמרים מנצלים את הפירצות במנוע החיפוש?

1. תוכנות ספאם נפוצות ששידרגו את האלגוריתם שלהם ויודעות להקביל כמות לאיכות, כך שהאלגוריתם של גוגל לא ישרוף אותך כ"כ מהר…

למה אני מתכוון? מדובר על 2 תוכנות שעובדות במקביל, שמקורן ככל הנראה בהודו (אנשי התעשיה כנראה ידעו על מה אני מדבר..), האחת מריצה לך אלפי אם לא עשרות אלפי קישורי ספאם מתגובות בבלוגים ועוד שלל ירקות מאתרים שיש בהם אבטחה אשר כל רובוט בשקל תשעים יכול לעקוף אותם. ובמקביל "קניית קישורים" או החלפת קישורים אשר מחשבת את דירוג האיכות ונכנסת לקרביים של האלגוריתם של גוגל.. ובאמת… כאן אני באמת חייב להגיד שאפו על המקצועיות! אפילו שמדובר בספאמרים. מוח אנליטי כמו זה הוא באמת ראוי להערכה, וזה מה שדרוש לספאמר מספיק מתוחכם על מנת "להילחם" באלגוריתם של גוגל ואכן לנצח אותו.

זו בעצם הקבלה של ייצור עשרות אלפי קישורי ספאם , תזמון, רכישה החלפה של קישורים, בניית איכות ע"י תוכן רלווטי (אפילו ברמה המינימלית), ותדירות של עדכון ושילוב תוכן חדש. צריך להיות באמת סופר מקצוען כדי לדעת לסנכרן ולתזמן דבר כזה.

אבל בכל זאת… למה גוגל נפלה בפח הזה ואיך הם התגברו חלקית ויכולים להתגבר באופן מלא על התופעה הבזיונית הזאת?

ראשית נציין כי גוגל עושה עבודה יפה מאוד כנגד הספאם, זו מלחמת מוחות (עיינו: כותרת משנה), אין אף בן אדם שהוא מושלם וזה כמו וירוסים… תמיד יהי מי שיחקור את האלגוריתמים וידע לעקוף אותם. הן מבחינת "הטובים" והן מבחינת "הרעים", אתם יכולים לקטלג כל מי שאתם רוצים בקטגוריות האלו… תלוי באיזה צד אתם….

אתרי הספאם מתמודדים עם אלגוריתמים שגוגל עדיין לא יודעים לפענח, או יותר נכון – אלגוריתמים שגוגל עדיין לא יכולה להתמודד איתם ועדיין לשרוף אתרי ספאם בו בזמן. זה לא שאני מתיימר חלילה להיות יותר חכם מהגאונים ש המציאו את גוגל, אבל בהחלט יש לי כמה הצעות לשיפור שלדעתי יכולות מאוד לעזור.

למשל:
גוגל שורפת תוכן משוכפל – אלגוריתם שמטמיע נגני EMBED מיוטיוב ע"י שימוש בכותרות אחרנות שמתבססות על טוקבטים * כותרת הפוסט * דיקסקריפשן – האלגוריתם תמיד ידע לעשות את המיקס ואתם ההצלבה בין הפרמטרים ולשלב אותן במשחק בין תגיות MEAT שונות שנלקחות בחשבון בעיני מנוע החיפוש…וכמובן להוסיף פרמטר כזה או אחר על מנת "לעבוד" על המנוע של גוגל, מדובר על מילים מסויימות+כותרת הפוסט.

למשל:  הקשר אתר הספאם + טייטל מיוטיוב + מילת מפתח ראשונה באלגוריתם = TITLE.

תגית דיסקריפשן + מילה או שניים + עוד כמה מילים בהקשר של מילת הקידום המרכזית = DESCRIPTION.

אפשר להתלבש על ערוצי RSS של מאות עם לא אלפי אתרים ולשתות מהם את כל הפרמטרים האלו…

אפשר גם לקחת קרוולר (זחלן) פשוט, לתת לו לרוץ על מאות אלפי אתרים, לשתות מהם את תגית KEYWORDS וללת לו ליצור באופן אוטומטי תגיות בבלוג על הסריקה הזאת ובעצם ליצור אינדקס עם מאות אלפי עמודים מאונדקסים בתוך ימים אחדים.

גוגל כמובן אוהב תוכן ותוכן רלוונטי – ובצדק! אנחנו בתור גולשים רוצים את התוכן הרלוונטי ביותר, וגוגל בתור מנוע חיפוש צריך לספק לנו את זה, גם אם אינינו מבינים גדולים במידענות, שיפור הנגישות ואפשרות דליית המידע עבור כל משתמש ממוצע – זה מה שהופך את גוגל למנוע החיפוש הפופולארי ביותר בימינו.

מכיוון שגוגל מביא תוצאות רלוונטיות ובמינימום התעסקות עם מידענות מצד הגולש, או במילים אחרות: המידע הרלוונתי נגיש לכל אחד במינימום הקלקות.

וכאן לדעתי צריכה לבוא הנקודה הראשונה בשיפור האלגוריתם: בחירת הגישה במלחמה נגד הספאם – במקום להתעסק עם אילו אתרים מנוע החיפוש אמור "לשרוף", להתעסק עם אילו אתרים כן צריכים להגיע לראש תוצאות החיפוש.

ואיך עושים את זה? בכמה שלבים…. וכאן בעצם מתחיל הפוסט (סורי על הקדמה חפירה של 700 מילים 🙂 ).

1. התמקדות בתוכן איכותי ושיפור הזיהוי של תוכן איכותי

נכון, על פניו זה נשמע מובן מאליו, אך לא כך הדבר, צריך לזכור שגוגל הוא רובוט של חושב בכוחות עצמו, אולם הוטמעו שם לא מעט אלגוריתמים של בינה מלאכותית – אך עדיין ללא מגע יד אדם (אולי המקרים בודדים).

ואיך נכוון את הרובוט שיקרא ויזהה טוב יותר תוכן איכותי?

1.1 מספר עמודים מאונדקסים עם תוכן מקורי, גם אם רובוט לקח עבורי לדוגמה מספר מאמרים עם נושא X ע"י קרוולר וחיבר כמה פסקאות אחת עם השניה ויצר ממנה בעצם מאמר חדש – גוגל אמור לזהות ע"י 2-3 סריקות את הצלבת התוכן, לזהות את הטלאים שמהם בנוי המאמר – ולסמן אותו כתוכן משוכפל.

עם הזמן עשרות אם לא מאות אלפי מאמרים ודפי ספאם ישרפו, והתוצאות יהיו רלוונטיות יותר.

1.2 תוכן איכותי הוא תוכן שגם יקושר ע"י הרבה גולשים, גוגל כמובן כבר לוקחים זאת בחשבון ולכן אתרים שיש להם המון קישורים – עולים למעלה בתוצאות החיפוש, וכאן גם נקודת התורפה הראשונה!…

גם מקדמי האתרים יוצרים המון קישורים וגם תוכנות אוטומטיות יכולות ליצור מאות ואלפי קישורים בשבוע ואפילו ביום לאתר אינטרנט מסויים, האם זה מצביע על מדד הרלוונטיות שלו? לא!  זה רק אומר שעשו עליו עבודה יפה.

1.3 לדעתי  גוגל צריכים לתת יותר חשיבות לדפים פנימיים, הן מבחינת סקריקת התוכן שבהם, והן מבחינת הקישורים הנכנסים. למה אני מתכוון?

רוב עבודות קישום האתרים וגם הספאם נעשות על העמוד הראשי של האתר, למשל אם ארצה לקדם בביטוי "צימרים", אני אכניס את רובם ככולם של הקישורים לעמוד הראשי שלי תחת טקסט העוגן "צימרים", מה שנותן כאן פרצה לא לייצר הרבה עמודים פנימיים ותוכן עבור מילה זו ולבסס את תהליך הקידום או הספאם על לינקים.

עכשיו – אם גוגל תתייחם יותר ברצינות לעמודי תוכן פנימיים עם תוכן איכותי וקישורים נכנסים – היא תאלץ בעצם את העלי האתרים לייצר תכנים כאלו – שמן הסתם יקבלו גם קישורים ע"י הגולשים, וזה מה שבעצם מצהיע על רלוונטיות. גולשים שמקשרים הרבה, עושים זאת לתוכן שהם אהבו והשתמשו בו.

מה שיוצא הוא בעצם שגם אם אתר מסויים יעלה בתוצאות החיפוש האורגניות ע"י תהליך יזום מצד החברה לקידום אתרים או בעל האתר – זה עדיין יהיה חייב להיות אתר תוכן רלוונטי לגולש!

1.4 בואו ניקח את הנוסחה הבאה: גוגל לוקח את מתחם הדומיין וסורק מתוכו את כמות העמודים הפנימיים, הוא מצליב את הקשר התוכן עם כמות הקישורים מעמודים עם תוכן רלוונטי ואת הקישורים הנכנסים לדומיין עצמו, מזהה את מספר העמודים הרלוונטיים לביטוי המפתח, ומעניק דירוג איכות בהתאם.

בואו ניקח למשל את האלגוריתם הבא:

Rank = AVG {domain IN_links + NUM_pages (content * IN_links) } + frequency * Q_rank

כן… ראיתם נכון, גם תדירות של עדכון ואינדוקס מידע זהו דבר חשוב, אתר שמכבד את עצמו – ידע להתעדכן ולעדכן את הגולשים במידע רלוונטי. וכאן מגיעה עוד נקודה קטנה – גוגל צריכה להטיל יותר אחריות על בעלי האתרים – מה שהיא לא עשתה עד עכשיו!

הלך הרוחות היה שמנוע החיפוש אמור לזהות תוכן איכותי ותו לא, וזה נכון וצודק. אך שטח ההפקר הזה הפך לנקודת תורפה שעם הזמן משבשת את האלגוריתמים של החיפוש. עוד מעט נגיע לאיך עושים את זה בצורה מושכלת. אבל בגדול צריך להנחות בעלי אתרים כיצד לבנות ארכיטקטורה של מידע בתוך האתר וללת להם כלים לעשות זאת גם אם אין להם ידע טכני מזהיר במיוחד. כל אחד יכול לספק תוכן איכותי – ללא שום קשר לאיכויות הטכניות שלו.

עכשיו בואו נצליב את אלגוריתם מלמעלה עם עוד אלגוריתם, או יותר נכון תת אלגוריתם  שידע לזהות ולשרוף תוכן איכותי.

1.5 על מה זה מתבסס? שתוכן איכותי ורלוונטי אתה גם תקרא! ואיך אפשר לבדוק את זה? זמן השהייה שלך בתוך מאמר מסויים והצלבה שלו עם ההקשר, למשל כך:

PAGE_Q_RANK = (TITLE + content * AVG_time + NUM_words) * (IN_links * relevant_links) + 1

אני אפשט את זה…. למשל יש לי דף פנימי עם טייטל שמדד הרלוונטיות שלו הוא 7+מדד רלוונטיות של תוכן 7 וזמן שהייה ממוצע של 7 שניות ועוד 1000 מילים שגוגל סרק מתוך חלק התוכן.

זאת אומרת שהדירוג הפנימי של הדף שלי הוא 1057.

עכשיו נצליב אותו עם הדירוג החיצוני, למשל יש לי 100 לינקים נכנסים אבל אף אחד לא עם מתוך תוכן רלווטי – 100*0=0! כן, הוא לא יוסיף לי כלום, מה שאומר שאלגוריתמים של ספאם לא יוסיפו כלום לדירוג האיכות של אתרי ספאם.

אבל עכשיו בואו נקח מקרה אחר: 20 קישורים נכנסים -6 מתוכם עם תוכן רלוונטי – קיבלנו 120!

למה יש פלוס 1 בסוף? כדי שגוגל לא יעניק דירוג 0 למאמרים שלא קיבלו כ"כ הרבה קישורים, זה קורה לפעמים…

מה זמן השהייה באתר אומר לנו? שהגולש התעניין במידע, ולמה זמן שהייה ממוצע? כדי שלא ניתן יהיה לזייף את זה, ואם ניכנס לדקויות… אפילו להצליב אייפי כדי לוודא שאלו לא תוכנות במריצות לופ מסויים על האתר באופן אוטומטי.

1.6 עכשיו נחבר את שני האלגוריתמים ביחד וקיבלנו השוואה בין כמות ואיכות הדפים, אלו שמקושרים מתוך רלוונטי ועם השפעה מינימלית של קישורים לא רלוונטיים – כנראה שזה רלוונטי 🙂

2. הבנת הלך הרוחות בקרב הגולשים ואופן צריכת ושיתוף המידע שלהם
היום הרשת פתוחה לכולם ולתכנים של כולם, על המושג web 2.0 בוודאי כבר שמעתם… כיום הגולשים הם אלו שיוצרים את התוכן ואת האינטרנט עצמו. גוגל כמובן לוקח בחשבון תכנים אלו (ובצדק), אך כאן זוהי גם נקודת התורפה השניה…

ישנן לא מעט תוכנות אשר יודעים לעקוף מנגנוני אבטחה בסיסיים של מערכות לימינהן ולהטמיע שם פוסטים אוטומיים עם קישורים כמובן, שנכון לכתיבת שורות אלו, כנראה מסייעים בקידום בגוגל.

למשל: אפשר לשים טוקבקים מבלוגים שבהם הטוקבקים אינם מסומנים התגית NOFOLLOW, התוצאה: עשרות אלפי קישורים נכנסים מעשרות אלפי מתחמי דומיין שונים אשר מקדמים בקלות אתר ספאם מעלה מעלה בתוצאות החיפוש.

2.1 מה עושים עם זה? אפשר לזהות בקלות את מתחם התגובות של המערכות, לדעתי יש להתייחס למתחם הזה באופן מיוחד כאשר הרובוט של גוגל עובד עליו, סורק אותו וקורא אותו.

נכנסתי למשל לקרביים של הקוד ושלפתי משם את שכבת התגובות (ממש פשוט).

זיהוי שכבת התגובות בתוך הקוד של האתר

זיהוי שכבת התגובות בתוך הקוד של האתר

זה כמעט תמיד יהיה: comments, respond, talkback וכו'… לכן לדעתי גוגל צריך להתייחס ברגישות לאתרים מסוג זה.

2.2 ראשית, אפשר להריץ אפילו אלגוריתם פשוט שמזהה אם ניתן לפרוץ את מנגנוני האבטחה של אותו אתר, במידה וכן – להוריד את "הכח" שמעניקים הקישורים היוצאים מהתגובות שלו לפחות בחמישים אחוז.

2.3 מעבר לכך: כמו שגוגל מזהה תוכן משוכפל (וכבר כתבתי שלדעתי הוא אמור לרדת לרמת הפסקאות), כך הוא יכול לזהות טוקבקים מוצלבים ולשרוף את הכוח שהם מעניקים. הרי ברור שזוהי פעולה מכאנית שנועדה להספים. איזה גולש יכתוב בדיוק אותן טוקבקים מילה במילה ויוציא קישורים בדיוק מאותה מילת עוגן? נדירים….

לכן הרובוט צריך לצאת מנקודת הנחה שמדובר בתוכנה אשר מבצעת פעולה זו ולשרוף כוח של קישורים מטוקבקים כאלו. כנ"ל, אגב לגבי פורומים בהם גוגל הצליח לפרוץ את מנגנון האבטחה.

לדעתי אפילו לתת התראה לבעלי אתרים כאלו בגוגל וובמסטר טולס ("האתר שלך חשוף לתוכנות ספאם זדוניות") על מנת שבעלי האתרים יוכלו להערך ולהתגונן מפני הצפה מיותרת של ספאמרים.

ובכלל… לדעתי יש להוריד משמעותית את כוח הקישורים היוצאים מתוך תגובות ולתת יותר חשיבות ללינקים היוצאים מתוך תוכן.

2.3.1 הרי בעניין של תוכן הרבה יותר קשה לזייף, בד"כ על מנת לפרסם תוכן באתרים, גם מערכות בלוגים חינמיות… אתם תצתרכו: להרשם, לבצע אקטיבציה לחשבון דרך המייל שלכם, להזין קוד אבטחה – זה בד"כ תהליך ששום אלגוריתם של תוכנות ספאם לא יכול לעקוף, לכן מדובר ב-99% מהמקרים בתוכן שבן אדם כתב ולא רובוט או תוכנה.

למשל ניקח האלגוריתם הבא:

Comments_OUT_LINK_Rank = (content_rank / 10) + NUM_words * SEC_rank

SEC_rankif <% cracked> then SEC_rank=0.5; else: SEC_rank=1

כן, לדעתי יש לתת חשיבות גם למספר המילים של התגובה ולהצלבה שלהם עם הֶקשר התוכן. למשל: אם המאמר מדבר על בניית אתרים והתגובה ממנה יוצא הקישור היא בכלל על צימרים – אז זה אומר שגוגל צריך לתת לה פחות ערך, זהו עוד תת אלגוריתם שלא ניכנס כרגע לדקויות שלו, אבל את העיקרון הבנתם…

גם ככה התגובות סופגות את הג'וסי לינק, ולדעתי זה די והותר לקישור אשר יוצא מתוך תגובה או פוסט בפורום.

3. ניתוח האלגורתמים של הספאם והורדת דירוג האיכות לאתרים מהסוג הזה

3.1 ספאמרים אוהבים לתת מכה גדולה בזמן קצר – וכאן זו נקודת התורפה שלהם, ובגוגל יכולים לשחק על זה יפה מאוד! צריך לוודא את תדירות הקישורים הנכנסים אל מול תדירות עדכון התוכן ונפח התנועה באתר.

בואו נשווה כאן לצורך העניין מקרה של אתר "טהור" אל מול מקרה של אתר ספאם שרצים במקביל.

המקרה הראשון: אתר חדש אשר ביצע השקה נוצצת והיה דיבור היום בכל אתרי הטכנולוגיה המובילים – ומן הראוי גם זכה להמון קישורים נכנסים ובצדק.

המקרה השני: אתר ספאם שמייצר תוכן אוטומטי ובמקביל מריץ תוכנה שמייצרת עבורו קישורי ספאם.

שני האתרים באותו הקשר, "נולדו" באותו זמן ומתחרים על אותה מילת מפתח בתוצאות החיפוש האורגניות של גוגל.

כיצד הרובוט ידע להבדיל בין האתר הראשון לבין האתר השני?

ראשית ניקח את אלגוריתם הפסקאות שידע לזהות את תוכן התלאים שנוצר באופן אוטומטי ע"י התוכנה של האתר השני. לאחר מכן נוסיף לו את אלגוריתם האבטחה שיוריד את הקישורים היוצאים מתוך תגובות, נצליב את זה עם אלגוריתם שזיהה באתר הראשון הרבה יותר תנועה מאשר האתר השני בכמות הזמן שהם הושקו, נוריד מזה את מספר הקישורים שגוגל "שרף" עבור האתר השני (ע"ע: אלגוריתם התגובות מלמעלה) ונקנח באלגוריתם אשר מעניק יותר חשיבות ללינקים היוצאים משכבת התוכן מאשר לשכבת התגובות.

קיבלנו את התוצאה: האתר הראשון במקרה הזה יופיע מעל האתר השני בתוצאות החיפוש האורגנית של גוגל גם אם יהיו לו לינקים ביחס שלילי של 1:10,000 על פני האתר השני.

הכל מבוסס מבחינה מתמטית ולכן אין כאן מקום לטעויות – זה מדע מדויק שנדירות הפרצות שאפשר למצוא בו (למי שבכל זה מחפש – קראו את הספר "המשפט האחרון של פרמה").

3.2 ועכשיו נעבור לדבר הבא שמתבסס על עיקרון מאוד פשוט – אם גוגל "שרף" אחוז נכבד מכמות הקישורים של אותו אתר – כנראה שזה אתר ספאם!

הרי אם נכון להיום גוגל מתבסס בעיקר ע"י כך שהוא נותן כוח לאתר ע"י הלינקים הנכנסים שלו – מן הראוי שיבדוק את איכות הלינקים מעבר לכמות.

בואו נגיד שאיציק ומשה הולכים לראיון עבודה בבנק הפועלים. איציק קיבל המלצה מעשרה אנשים שעובדים במוסך, ומשה קיבל המלצה אחת בלבד מסטנלי פישר (נגיד בנק ישראל), מי לדעתכם יקבל את העבודה? <שאלה רטורית>.

וכאן אנחנו מגיעים לנקודה השלישית והמאוד חשובה לדעתי….

4. סמנטיקה והקבלה של שפה ומיקום

דבר שמאוד צריך לקחת בחשבון, וזה בעצם ההבדל בין בן אדם אמיתי לבין תוכנות או רובוטים שעושים עבודה אוטומטית.

למשל: רובוט בד"כ ייצר לנו קישורים של ספאם מאתרים, גם ובעיקר משפות זרות במדינות אחרות. אז למשל אם גוגל מזהה את האתר שלי כאתר ברוסית, אבל 90% מהקישורים שלו מגיעים מאתרים באתרים בערבית ועוד מתוך טוקבקים… מכאן הדרך מאוד קצרה על מנת לזהות אתרי ספאם.

מעבר לזה… ע"י האייפי של השרת ניתן גם לזהות את המיקום שלו, לא שזה לא רלוונטי לקבל קישורים מחו"ל, אך לפי דעתי (וזו גם נקודת הפתיחה), בשורה התחתונה – אם הגולשים בישראל נעניין בתשעים אחוז מהמקרים אתר בעברית אם הם חיפשו מידע במנוע החיפוש google.co.il. ולכן יש להפחית במידה מסויימת בכוח של קישורים מאתרים בשפה לא רלוונטית ובמיקום שרת לא רלוונטי. זה קורה גם כעת, אך המידה מאוד מועטה, ולכן זהו פתח לאתרי הספאם להרים את הראש.

4.1 קידום אתרים זו תורה בפני עצמה, זו בעצם תת תורה שחוקרת את האלגוריתמים של גוגל ויודעת להתנהג בהתאם ע"י התמדה וצורת עבודה נכונה. יש גם את הצד השני של המקדמים – "כובעים שחורים", שכו שכבר אמרנו – רוצים את זה מהר, כאן ועכשיו, והרבה! צריך להיכנס לראש של האנשים ולהקביל את זה עם גולש ממוצע ולדעת למצוא את ההבדלים.

4.2 לדעתי אפילו קבוצת מיקוד אינה צעד מרחיק לכת, לקחת או לגייס קבוצה של האקרים שינסו לפרוץ את האלגוריתם, ובמקביל קבוצה של ילדות קטנות שצורכות מידע על האח הגדול ורושמות טוקבקים בכל אתר הבא ליד וכן קבוצה של אנשים בעלי רקע טכנולוגי לא מזהיר המיוחד שפשוט מחפשים מידע באוקיינוס של האינטרנט אשר ממופה ומקוטלג ע"י גוגל – זו הרי המשימה שלו.

להצמיד לכולם פידלרים (תוכנה ששומרת מה שאתה מקליק ומקליד במחשב) ותוכנות שמקליטות את המסך לכל המחשבים בצורת וידאו, ולהצליב את אופן החשיבה של חיפוש המידע לבין האופן שבו ההאקרים מנסים להביא את המידע אל הגולש.

כל יום תינתן משימת מידענות אחרת אשר העומד בה יקבל כמובן "תמריץ" (נו… כסף, ברור, מה יותר ממריץ מזה? 🙂 ).

מה שזה יאפשר לגוגל זה לנתח ולהבין את ההבדלים יותר לעומק בין בן אדם אמיתי לבין תוכנה ויצירה של קישורים אוטומטית, ולדעת להיכנס ממש לדקויות של האלגוריתמים.

אם אנחנו חושבים כמה שלבים מחוץ למסגרת אז באמצעות אלגוריתמים אלו גוגל גם יכולים לנצח את פייסבוק בתחום החברתי ברשת – social media (כן, אני מאמין בזה), ולמה? התשתית הרבה יותר רחבה והשימוש והנגישות למשתמשי הקצה הרבה יותר גדול, למרות פער המידע העצום שיש לפייסבוק על פני גוגל בתחום החברתי – אפשר להדביק את זה בקלות! סליחה… לא בקלות, אבל במגמתיות ובתחכום – כן! בהחלט!

אבל זה עניין לפוסט בפני עצמו…. (שאגב, יהיה ארוך הרבה יותר מהפוסט הזה…).

לסיכומו של עניין:

ההצלבה של אלגוריתמים אשר מורידים משמעותית את ערכם של קישורי ספאם, ובמקביל "צוות חיסול" אשר שורף קישורים ואתרים אשר רוב "כוחם" מתבסס באלגוריתם צדדי ברובו על קישרי ספאם – יביא כמעט לבטח למיגור התופעה.

יש לחשב מבחינה כמותית והגיונית את מספר הקישורים הנכנסים ולהצליב אותו עם דירוגי איכות שיאלצו לעבוד כוונון מחדש ולהסתנכרן עם אלגוריתמים של מידענות אופן הצריכה של משתמש קצה, בעצם כניסה והבנה של מוח אנושי ממוצא אשר רוצה לצרוך מידע ברשת האינטרנט ושוחה כרגע בתוך אוקיינוס של מידע שנראה "האינטרנט".

למה לא הזכרתי חישובים של מדיה חברתית לעיל? (לייקים, שיתופים, שליחה במייל לחברים וכו…)

א. אלו דברים שאפשר לזייף בקלות.
ב. קשה מאוד לדלות נתונים כאלו וזה מבזבז זמן עבודה יקר על הדברים שחשובים באמת.
ג. גוגל עצמה יכולה להפוך למעצמה חברתית (היא כזאת בעצם, רק לא מזוה עם הנישה), וחבל לה להתבסס על אלגוריתמים חיצוניים שאינם תלויים בהם – ואני מאמין שגם לא תעשה זאת.
ד. מדיה חברתית לא תמיד עובדת על העיקרון של רלוונטי, היא לרוב עובדת על עיקרון של מגניב, ויראלי וכו'…, מה גם שזה נותן פתח למון אתרי טיזינג להרים את האף למעלה – מה שגוגל ממש לרוצה שיקרה, שכל שרלטן בשקל תשעים יעלה לראש תוצאות החיפוש – זה יותר קל לגרום לבן אדם לגרום להקלקה על "לייק" מאשר "לעבוד" על אלגוריתם מתוחכם, "קר" ורובוטי אשר מחשב בצורה אנליטית את אופן צריכת המידע של האדם בשנת 2011 (יכול להיות שזה יהיה רלווטי גם לעוד כמה שנים קדימה…. מי יודע?  🙂 ).

בגוגל צריכים לחשוב כמה צעדים קדימה, ולחשוב על דירוג איכות שמתבסס על אלגוריתמים שאפילו תוכנות ספאם משוכללות ככל שיהיו לא יוכלו לחקות, אלה להיצמד יותר למוח האנושי בהתבסס על הידע והרקע הטכני של משתמש קצה ממוצע ואופן צריכת המידע שלו המשתדרג מרגע לרעע בעידן "הכאן והעכשיו" שיצרה לנו המדיה החברתית, פלטפורמת ה- web 2.0 ותוכניות הריאלטי למיניהם.

גוגל צריכים להתמודד בעיקר עם חוסר הסבלנות ההולך ופוחת של המשתמשים שרוצים לקבל הכל כאן ועכשיו, ולדוגמה אם ילדה בת 12 תחפש מידע על לירן דנינו (אין לי כבר מושג מאיזו עונה זאת של "כוכב נולד") ולא תמצא בתוך מספר שניות את מבוקשה בגוגל…. היא מיד תעבור לפייסבוק ותעלה שם סטטוס עם אותה שאלה בדיוק  – בצפיה לקבל מחבריה או חברותיה מבינות העניין מידע לגבי אותו "סלאאאאאב" 😉

מה שרק יגדיל את הפער במדיה החברתית בין גוגל לפייסבוק (יש מיליוני גולשים שנמצאים בסיטואציה הזאת מידי יום.. ).

למה המלחמה הזאת תימשך לנצח? כי ספאמרים "שעשו מכה" יכולים לשבת איזה שנה-שנתיים בבית מבלי לעבוד לפרנסתם, ברוגע, ורק לנתח ולהבין את האלגוריתמים של גוגל ואופן צריכת המידע של אנשים, עד המכה הבאה…

מה יחשוף את הכל? להשהות יותר ויותר ולהקשות על הספאמרים להשתלב בתוצאות החיפוש האורגניות, הכסף לא יגיע מהר, ולאט לאט הכסף "מהמכה" הקודמת יתחיל להצתמצם ולדחוק ולגרור שיחות טלפון מהבנק על בסיס יומיומי…, מה שיגרום לרוב הספאמרים לעשות פעולות פזיזות ומהירות רק על מנת "לגרד כמה גרושים" ולכסות את המינוס בבנק – דבר אשר יגרום לאנשים בגוגל לחשוף את האלגוריתמים של הספאם הרבה יותר מהר!.

זה בדיוק כמו בשחמט – זה לא משנה כמה מהלכים חשבת קדימה, העיקר זה שתחשוב רק מהלך אחד מעבר ליריב שלך…

ולמי שלא הביןה… הפוסט הזה היה הרבה יותר בפאן הפסיכולוגי מאשר בפאן הטכני. אלגוריתמים גוגל יכולים לשדרג תמיד… אך להתחקות אחר הלך המחשבה של בן אדם… זה דבר אשר משתדרג מרגע לרגע.

זהו, עד כאן על אלגוריתמים ובינה מלאכותית להיום… אני הייתי יואב… תודה רבה לכולכם 🙂

לשירת ההמנון הקהל מתבקש לעמוד… 😉

6 תגובות
  1. קרני וג'קי
    קרני וג'קי says:

    יואב, תודה על הפוסט…ועל הפניית תשומת הלב לנושא
    נראה שגם אתה מסכים שקידום אתרים שנבנה לקידום עסק שנועד לרוץ
    לאורך זמן, יתבסס על מתן ערך למשתמשים ולא על ספאם
    מתן ערך למשתמשים יאפשר יצירת לינקים באופן טבעי, ללא מאמץ של בעל העסק
    או המקדם שלו, ואלו יהיו לינקים בעלי ערך לאורך זמן
    שיתופי פעולה הם אפשרות נוספת נהדרת ליצירת קידום
    באופן טבעי ומועיל
    נ.ב.
    נשמח להפגש מתי שהוא…

    הגב
  2. איתי ברנר
    איתי ברנר says:

    אחלה פוסט יואב, אבל אני לא יודע איך גוגל בדיוק יוכל לבדוק את זמן השהייה של גולש באתר . אפילו אנליטיקס לא מסוגל למדוד את הזמן שהייה של גולש שביקר בדף אחד בלבד.
    בנוגע לעמודים פנימיים אתה צודק : אחת הבעיות של גוגל הייתה שהוא דירג דפים חסרי כל חשיבות בגלל שהאתר הראשי עליו הם ישבו היה מדורג מאוד מאוד חזק. זה הגיע למצב שבו היה מספיק שהדף יכלול את ביטוי א + ביטוי ב עם רווח של שלוש ארבע מילים בטקסט עצמו (לא בכותרת) כדי שהוא ידורג לפני דפים הרבה יותר רלוונטים שלאתר הבית שלהם לא היה כל כך הרבה כוח…
     

    הגב
    • אבי
      אבי says:

      לא נכון לעשות הכללה כזאת. דפים פנימיים הם אלה שבונים את האינטרנט וזה שגוגל יודע לדרג אותם טוב, זה מה שעושה אותו טוב מרוב המתחרים שמעדיפים בעיקר עמודים ראשיים של אתרים.
      נקח דוגמא – אף אחד לא מקדם דפים פנימיים של ynet, נענע, וואלה ואחרים ויש להם רק קישור אחד (פנימי). ברור לכולם, שהם צריכים להיות למעלה, בדיוק בגלל שהם חלק מאתר מאוד חזק ואיכותי, והם צריכים להיות מעל דפים "כאילו" יותר רלוונטיים ומקודמים על ידי מקדמי אתרים.

      הגב
      • איתי ברנר
        איתי ברנר says:

        לא אמרתי שזה תמיד המקרה, אבל לפי מה שאתה אומר, מצד גוגל, שכל תוצאות החיפוש יהיו מורכבות מאתרי ענק ומהדפים הפנימיים שלהם. אני לא רוצה אינטרנט כזה…

        הגב
  3. ברקו
    ברקו says:

    פוסט מאוד מעניין, אבל לדעתי החגיגה מאוד מוקדמת.
    ראשית, לפי דעתי אתר yaaw הורד באופן ידני, עקב באז שהוא עשה ברשת, שכנראה הגיע גם לאנשי גוגל. כהוכחה, אתרים נוספים של אותו בחור שנשארו במקומות הראשונים.
    דבר שני למה אתה חושב שגוגל צריך להעדיף קישור מתחתית העמודים בלוגי תמיכה וכו' על פני קישורים מתגובות מפורומים אתרים איכותיים שעוברים סינון על ידי מנהלי הפורום? הגישה הזאת, מאוד פשטנית ואתה לא יכול להעדיף סוג אתרים מסויים על פני אחרים כי יווצר עיוות בלתי מוצדק.

    הגב

Trackbacks & Pingbacks

  1. […] על אלגוריתמים , ואלגוריתמים טובים שהביאו תוצאות טובות (למעט מספר מקרים של ספאם), אבל… מה שקרה בעיקר הוא שינוי בהרגלי הגלישה בקרב […]

השאירו תגובה

Want to join the discussion?
Feel free to contribute!

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *