ארכיון תגיות: גוגל

גוגל, דלישס והרשת הסמאנטית

ב-html יש סוג של תוספתן שנקרא מטא-תג. התג הנ"ל מאפשר ליוצר האתר לכתוב כמה מילות מפתח אודות האתר כדי לסייע למנועי החיפוש לפענח ולקטלג את האתר. מנועי החיפוש הראשונים שהסתייעו בתג היו Infoseek ו-AltaVista. שני מנועי חיפוש אחרים הצטרפו אליהם בסביבות 1996, אבל כבר ב-1997 גוועה הפריחה הקצרה הזו, וכיום אין לי מושג מי משתמש בו. כותב המאמר החמוד הזה טוען שמנוע החיפוש Inktomi, שלא הצלחתי למצוא אליו לינק, הוא מנוע החיפוש האחרון שמשתמש עדיין בתג, לאחר שאלטוויסטה הודיעה "לא מזמן" שגם מוותרת על שירותיו. המאמר הזה נכתב ב-2002.

לא קשה לנחש למה מנועי החיפוש מתעלמים מהתג. אנשי SEO (Search Engine Optamization), שהתפתו לשחק עם הצד האפל של הכוח, דחפו לתג המון מלים שונות מתחומים שונים, שרובן לא הופיעו באתר כלל, כדי לקדם את דירוג האתר במנועי חיפוש.

אני מנחש שהאנשים שהמציאו את התג קיוו שיהיה לו עתיד בהיר יותר. המשמעות של החלטת מנועי החיפוש להוריד את התג היא פשוטה – מנועי החיפוש לא סומכים עליכם, לא עוד. 

קליי שירקי, אינטלקטואל רשת שכותב יפה כמו אנגלי, כתב מאמר מקסים באמת על קטגוריזציה ותיוג. למרות שכדאי לקרוא, אסכם בקצרה כמה מהנקודות העיקריות שלו ואגנוב כמה דוגמאות. הכל לשם שמים:

קטגוריות הן דבר די מוכר. הקבצים במחשב, למשל, מסודרים במעין קטגוריות – קובץ בתוך תיקיה שבתוך תיקיה; הספרים בספרייה מסודרים כך גם כן. ×–×” יכול להיות מאוד יעיל. אם, למשל, אתם רוצים למצוא ספר, כל שעליכם לדעת ×–×” על מה הוא, ואז ללכת למדף שמכיל ספרים בתחום ×–×”.

ההיגיון שעומד מאחורי השיטה הוא קיומו הפיזי של הספר. ישנו ספר, והוא לא יכול להימצא בכמה מקומות בו זמנית. לכן, אנחנו נחליט מהו נושא הספר, ונשים אותו במדף המתאים. ואם הספר עוסק בכמה נושאים? נקווה שיש לנו, בין היתר, גם קטגוריה כללית מספיק כדי שהספר יתאים. ואם הוא לא מתאים? יהיה בסדר.

מי עובד ככה? וואלה. מדריך האתרים של וואלה מחולק לקטגוריות, וכל קטגוריה מחולקת לתת-קטגוריות. אם, לדוגמא, אכנס ל"פנאי ובידור" אני אראה שם רשימה של תתי-הקטגוריות שמסתעפות מקטגוריה זו. בין "תחביבים" ל"אופנה" אני אמצא גם "תיאטרון". בצד ימין למילה "תיאטרון" אפשר לראות סימן @ קטן. הסימן הזה מציין ש"תיאטרון" הוא לא חלק מ"פנאי ובידור". "תיאטרון" הוא בכלל חלק מ"אמנות".

בוואלה, שגנבו את ההיגיון מיאהו (שלא יזכו ללינק ממני – ודלישס ×–×” לא יאהו!), אומרים לגולש שתיאטרון ×–×” לא באמת פנאי ובידור. תיאטרון הוא אמנות. הם פשוט שמו את הקישור לתיאטרון למקרה שאתה, הגולש, התבלבלת והלכת לקטגוריה הלא נכונה. ×›×™ תיאטרון הוא אמנות. לא בידור.

אבל תיאטרון הוא לפעמים בידורי בהחלט, לפעמים אפילו יותר בידורי מאמנותי, והעולם לא מתחלק יפה לקטגוריות קבועות מראש. יותר מכך, לפעמים קטגוריות פשוט מאבדות את תוקפן. בספריית הקונגרס האמריקנית יש קטגוריה בשם "Former Soviet Union". לפני 1991 ה-"Former" לא היה שם.

תגיות, לעומת זאת, אינן מוציאות זו את זו. תגיות הן הדבר ×”×–×” שמשתמשים בו ב-youtube, Flickr, ודלישס (אני יודע. כולם ×©×œ יאהו, מלבד יוטיוב. ×–×” לא מצחיק). אני יכול לתייג את אותה כתובת אינטרנט גם ×›"תיאטרון" גם ×›"בידור" וגם ×›-"Fucking_Internet". הקישור הוא לא ספר, הוא יכול להיות ביותר ממקום אחד. דבר נוסף: אין היררכיה. מבחינת דלישס, אני האתר המסוים שתייגתי הוא "תיאטרון" בדיוק כפי שהוא "בידור" או "פאקינג אינטרנט".

והיו במאמר הזה עוד דברים. הרבה דברים. כדאי מאוד.

הסיבה שדלישס ממכר כל כך היא שהוא פותח בפניך את האינטרנט. אתה יכול לעשות לך מנוי RSS על תג מסוים, ולקבל עדכון בכל פעם שמישהו מעלה אתר שתויג בתג זה. את המאמר של שירקי מצאתי כשעשיתי RSS על "categorization". לחצו על הקישור הזה. סביר להניח שתראו את המאמר של שירקי חוזר שוב ושוב, בין כל שאר הקישורים.

אפשר גם לשלב בין תגים. לחפש תג יחד עם תגים אחרים. אפשר לנוע מתג לתג. אתה רק בוחר לך נושא, ומתחיל ללחוץ על לינקים. אנשים כבר עשו את החיפוש בשבילך, תייגו בשבילך, וכל שנותר לעשות זה להקליק.

אבל זה לא מושלם. היחס בין התג לבין האתר המתויג משתנה. בתיוג, למשל, של סרטון סאות'-פארק אני יכול להכניס את התגיות "סאות'פארק", "יוטיוב", "סרט" ו-"מצחיק". כל אחד מתאר משהו שונה אודות הסרטון. למעשה, מה שאני רוצה להגיד הוא משהו כמו "זה סרט מצחיק של סאות'פארק, שמופיע ביוטיוב". במקום זאת, אני בוחר סדרת תגים, והאתר שתייגתי יופיע בכל אחד מהתגים הללו ראשון, כי זה עתה תייגתי אותו.

בכל הנוגע לתיוג אוהבים לדבר על ההיגיון של ההמון. ההמון הורג סטיות תקן. הוא בוחר, בממוצע, לתאר באותם התגים את אותם האתרים, אותן התמונות, אותם הסרטונים. ובכל זאת, מי שעשה מנוי RSS על "סרט" יקבל פתאום את הקישור שלי. ואני בכלל רציתי לכתוב "סדרה". 

האמת היא שתגים ×–×” לא דבר חדש כל כך. גוגל עלו העסק, בערך, מן ההתחלה. "Google Bombing" הוא סלנג שמציין, על פי ויקיפדיה, ניסיון להטות את התוצאות של גוגל באמצעות קישורים. כלומר, אם המון אתרים שונים מקשרים את המלים "אידיוט מושלם" לאתר הבית של ×’'ורג' בוש, האתר יופיע במקום גבוה בחיפוש "אידיוט מושלם" בגוגל. העובדה הזו אומרת לנו משהו על האופן שבו פייג'רנק, אלגוריתם החיפוש של גוגל, עובד – הוא מתייחס, בין היתר, לטקסט של הקישור. גוגל מניח, במידה רבה של צדק, שאם הרבה אנשים קישרו את המלים "אידיוט מושלם" לאתר מסוים, יש לכך סיבה טובה. קצת כמו תגיות, כאמור.

ואנשים באמת נוטים לציין למה הם מקשרים. אם תביטו בפסקה הקודמת תראו שכל הקישורים, למעט האחרון, מציינים פרט כלשהו אודות האתר המקושר. הקישור האחרון, ה"סיבה טובה" שלי, גם הוא בעל מובן, אבל כדי לדעת את זה צריך ללחוץ עליו. מבחינת גוגל, "סיבה טובה" הוא סטיית תקן. ההיגיון של ההמון וכו'. היינו שם.

וחוצמזה, האלגוריתם של גוגל מתחשב בעוד לא מעט דברים: תגי title, h1, מפת האתר, הטקסט וכו'. כנ"ל דלישס. כדי לאזן את סטיות התקן, מאפשרים בדלישס לראות מה התגיות הפופולריות ביותר, שבהן השתמשו אנשים אחרים שתייגו את האתר. בנוסף, אם התחלת לכתוב תג, יציעו לך בדלישס את כל התגים האחרים, שבהם השתמשת, שמתחילים באותן אותיות של תג זה. ראו תמונה.

וזה מקום מרתק, המקום שבו הניסיון להפוך את הרשת ל"רשת סמאנטית" מתחבר עם שימושיות. אף אחד בדלישס לא יאמר לך איזה תג לכתוב, אבל הם בהחלט מוכנים לרמוז, למקרה שאולי שכחת תג הולם.

ההמון מקטלג, והקטלוג עוזר לנו למצוא דברים, שזה בעצם העניין כולו – למצוא. ברשת, היכן שמידע הוא אופן הקיום היחיד, האיש שעושה סדר הוא המלך. אז ההמון מקטלג, ובדלישס מנצלים את הקטגוריות של ההמון. כמו בגוגל. וכמו בגוגל, בדלישס (ובפליקר וביוטיוב וכו') מתחכמים. היום כבר אף אחד לא מבקש מבעלי האתרים לתאר את האתר שלהם. במקום זאת, אנחנו, הגולשים, מתארים את הרשת בשביל מנועי החיפוש. ואנחנו עושים את ×–×” בהתנדבות, בין אם בקישורים ובין אם בתגיות. ולכן בדלישס יוצאים מעורם כדי לעזור.

ושוב, מאחר שהגולשים מתייגים בחינם ומאחר שאף אחד לא מלמד אותם איך לתייג "נכון" (כמו שבוואלה "נכון" לשים את "תיאטרון" תחת "אמנות" דווקא), קשה לדרוש מהם לתייג באופן מורכב מדי.

חשבו על המצב הבא: במקום שדה אחד שבו ממלאים תגים, יהיו שני שדות. הגולש ידרש להכניס בשדה הראשון רק שמות עצם ובשני שמות תואר. אפשר להוסיף גם שדה נוסף שמתאר את סוג הדבר שמוצג -בלוג, רשימת קישורים, סרטון, מאמר – ובשדה הראשון להכניס את המושא – במה האתר עוסק.

אף אחד לא יגע בזה.

אבל יש גם דרכים אחרות. אני חשבתי, בין השאר (ואני מאוד גאה), לתת לכל תגית ערך מספרי שונה על פי הסדר שבו נכתבו התגיות. קחו, למשל, את צירוף התגיות הבא: מאמר, דלישס, תגיות, גוגל, חיפוש, קטגוריזציה, ארוך מדי, וואלה, רשת סמאנטית. עכשיו נניח ששלוש המלים הראשונות (מאמר, דלישס, תגיות) מקבלות את הערך "1", שלוש המלים הבאות מקבלות את הערך "2", והמלים הבאות מקבלות את הערכים "3", "4", "5" וכן הלאה. ונניח שבשיטה שלנו ככל שהמספר נמוך יותר כך הוא גם שווה יותר, כלומר המלים "מאמר", "דלישס" ו"תגיות" שוות יותר מ"וואלה", "רשת סמאנטית" ו"חיפוש". מה פירוש שוות יותר? ובכן, אפשר לומר שהאתר המתויג הוא יותר "דלישס" ו"תגיות" מאשר "רשת סמאנטית". זאת, כמובן, תחת ההנחה שהמלים הראשונות שהגולש יתייג בהן אתר הן פרוטוטיפיות יותר, הולמות יותר, את האתר. הגולש לא צריך לעשות שום דבר נוסף, רק לתייג. כאשר הוא ילחץ על תג מסוים, נניח "דלישס" הוא יקבל אפשרות לראות את האתרים לא רק על פי הסדר שבו תייגו אותם (כאשר האתר שמופיע למעלה הוא האתר האחרון שהתווסף) אלא גם על פי הערך של התג. כלומר, התוצאות הראשונות שיתקבלו יהיו של אתרים ש"דלישס" היתה אחת המלים הראשונות שבהן הם תויגו.

דרך אחרת, שאותה מציע שירקי, היא לתייג את המתייגים. כיום ניתן לראות את רשימת האתרים שתויגו באופן מסוים על ידי משתמש אחד או על ידי כל המשתמשים. כך, אתם יכולים לראות מה אני תייגתי כ"דלישס" ומה כל הגולשים תייגו כ"דלישס". תארו לכם שיתווסף אמצע, שתוכלו לראות מה תייגה קבוצה מסוימת של גולשים תחת תג מסוים.

השיטה שלי מגניבה יותר.

כל זה טוב, כאמור, בשביל החיפוש. מי שמצליח למצוא נעשה עשיר, מי שמצליח להימצא נעשה קיים. אבל מאחר שבשני הצדדים של המשוואה יש כסף, אי אפשר לסמוך על אף אחד. בדלישס, למשל, משתמשים במה שמכונה "link condoms". מוסיפים לתג הקישור את המלים "rel=nofollow", ורובוטי החיפוש של גוגל לא מתייחסים ללינק. לשמור את הספאמרים בחוץ.

הספאמרים ומקדמי האתרים (לא כל מקדמי האתרים, רק המרושעים שבהם) הם האנשים שהרגו את המטא-תג, והאנשים שהכריחו את גוגל, דלישס ואתרים אחרים להתחכם. כי זה, בעצם, מה שהם עושים. במקום לסמוך על האתר הם סומכים על האנשים שמקשרים, והם סומכים עליהם פחות ופחות.

הספאמרים, בעצם, יצרו את השינוי המרכזי ביותר בסמאנטיקה של הרשת, שאפשר להקביל אותו בצורה צולעת למעבר מהאונטולוגי לאפיסטמולוגי. במקום לקבל את עדות האתר על עצמו (אם על ידי מטא-תגים ואם על ידי הטקסט שבאתר), אנחנו משתמשים עתה בעדויותיהם של אחרים. כאשר אתם מגגלים מילה מסוימת בגוגל התוצאות הראשונות שתקבלו יורכבו בחלקן ממידע שנאסף מהאתרים עצמם ובחלקם, בחלק מרכזי שלהם (שקובע, בין השאר, את מיקום האתר בתוצאות החיפוש), ממידע אודות האופן שבו האתרים הללו נתפסים.

יוצא שאנחנו מגגלים קצת בתוך התודעה הקולקטיבית. חפשו ב-Google-Images אחר המילה "jew". לא ברור מה היחס בין הציורים האנטישמיים לבין הקטגוריה הקולקטיבית "יהודי", אבל ברור שהציורים הללו נמצאים שם, ונמצאים במקום גבוה (לאו דווקא בגלל אנטישמיות, אגב. יתכן שהסיבה לכך היא שקריקטורות אנטישמיות הן פשוט תמונות שמקשרים אליהן יותר מאשר לתמונות אחרות של יהודים או ש"יהודי" היא מילה שמופיעה בהן יותר).

דלישס אינו שונה בהרבה, אם כי הוא עדיין יעיל פחות. ובינתיים, עד שהחיפוש יהפוך למותאם אישית, וגוגל ודלישס יביאו לי את האתרים שמתאימים לי במיוחד, הסמאנטיקה של הרשת היא הסמאנטיקה של ההמון. וזה די מדהים, ומקדמי האתרים המרושעים הופכים את כל זה למעניין עוד יותר. כי המאבק על הרשת הסמאנטית, מימי המטא-תג ועד עכשיו, הוא מירוץ החימוש שבין המחפשים לאלו שרוצים להימצא; והמאבק הוא מאבק על הגדרות, שהולך והופך את הרשת למוח אחד מפלצתי, שמדבר בשפה שמשתנה תמיד, בקטגוריות שמחזיקות כמה ימים בלבד, עד הלינק הבא.

הדים

ב-13/08/06, סטוארט פאדלי החליט לעדכן את הבלוג שלו. סטוארט עובד במיקרוסופט כמהנדס וראש צוות פיתוח. הוא עדכן את העולם דרך הבלוג שלו שהוא נבחר ע"י ריי אוזי, מחליפו של ביל גייטס, להצטרף לצוות עבודה מיוחד לבניית שירות אינטרנט חדש שעוד לא הוכרז. הוא סיפר על שם הקוד של המוצר החדש ותוכניות לעתיד. תוך זמן קצר, מישהו בעמדה בכירה החליט להוריד את הפרסום, אבל זה כבר היה מאוחר מדי. מנוע החיפוש באתר שמר תקציר די מלא של ההודעה. למרות שההודעה הקודמת של פאדלי נכתבה שנה קודם לכן, היו מספיק אנשים רשומים ל-RSS שלו. אתרים המרכזים RSSים שמרו העתק של ההודעה בזכרון האתר. לכשזו תתפנה, כבר מספיק מתעניינים שמרו תמונת מסך של ההודעה כולה.

*** גוגל × ×”×™×” חלק מהתשתית של החיים שלנו עד שאנחנו בכלל לא חושבים עליו כאתר – הוא רק ספר הכתובות שדרכו אנחנו ממשיכים את שיטוטינו באינטרנט. אנחנו לא חושבים על כך שבשביל שגוגל ידע למצוא לנו אתר, הוא צריך להכיר את התוכן של האתר. אנחנו לא חושבים על כך שבשביל שגוגל יוכל למצוא לנו את האתר כל כך מהר, הוא צריך שאותו תוכן ישב אצלו בצורה זמינה. ליד כל תוצאת חיפוש נמצא קישור ל-Google Cache, העותק המקומי של גוגל. העותק קיים גם אם האתר כבר לא. גם אם מחקנו את הידיעה או העברנו את האתר לכתובת חדשה.

*** ב-20/02/06 העלה אתר החדשות של "× ×¢× ×¢" ידיעה על פיה נפטר ראש הממשלה אריאל שרון. הידיעה – כתבת רטרוספקטיבה שהוכנה למקרה שהוא אכן ימות, אושרה בטעות לתצוגה ×¢"×™ עורך עם אצבע קלילה על העכבר. תוך דקות בודדות הידיעה הורדה מהאתר, אבל ×–×” כבר לא משנה. גולשים ראו, גולשים צילמו והכתבה ×”×’×™×¢×” אפילו עד המתחרים. טעות קטנה שתוקנה מיד, אבל ההדים שלה המשיכו להתפשט.

*** ב-1996 התחיל לפעול ×”-Internet Archive, שמטרתו למנוע ממיליארדי פריטי המידע שמתרוצצים להם באינטרנט לשקוע ולהעלם. הם רוצים להוות ספרייה וירטואלית להיסטוריונים, חוקרים וסתם מתעניינים. בעזרת ×”-Wayback Machine שלהם אנחנו יכולים לראות איך כמעט כל אתר נראה בעבר, לפי תאריכי הדגימות שלהם – ×–×” מדהים, לפעמים, לראות את השינויים ההגדרתיים באתרים בהם אנחנו מבקרים בקביעות. מעניין גם לראות מה לא השתנה.

*** בשנות ה-90, GeoCities היה אחד הספקים הגדולים בעולם של דפי-בית אישיים בחינם. מאות אלפי אנשים בנו עמודי בית מזויעים עם כל הרעות החולות האפשריות. כן, גם אני בניתי לי עמוד בו חלקתי עם העוברים ושבים את טעמי במוזיקה, הספר אותו קראתי באותו זמן ואת כישורי ה-Javascript המתפתחים שלי. הייתי שמח למחוק כל זכר של התועבה מן העולם, אבל אני לא יכול. GeoCities אולי נבלעו ע"י Yahoo לפני שנים, אבל הם לא מוחקים כלום. האתר שלי עדיין קיים, וביותר מכתובת אחת.

*** בלוגרים כבר פוטרו מעבודתם כי ההודעות שלהם מצאו את דרכן למעבידים. חבר לעבודה קישר פתאום ביני לבין רשומת בלוג שהוא קרא שנה קודם לכן. את השם שלי אני מוצא בגוגל מדבר על טולקין בגיל 16, על דיוויד בואי בגיל 18, על XML בגיל 25. כל מילה שאנחנו אומרים מהדהדת. שכבות ארכיאולוגיות של כרזות פרסום ומודעות אישיות דבוקות לעמודים. כל דבר שאנחנו אומרים נשאב לו לתוך ביצת האינפורמציה הענקית שמקיפה אותנו ועלול לצוץ אחר כך במקום אחר או בזמן אחר. לפעמים בועת סרחון עולה מהמעמקים, לפעמים סתם חיוך נוסטלגי. אבל אי אפשר להתעלם מהעובדה שאנחנו חיים בתוך ארכיון ענקי שבונה את עצמו סביבנו, אפילו אם אנחנו לא תורמים לו אקטיבית.