I can’t, someone is wrong on The Guardian

האנשים הטובים והאמיצים (באמת) של הגרדיאן, אלה שממשיכים כבר כמה חודשים בפרוייקט העיתונאי החשוב של השנים האחרונות וחושפים בהדרגה את מאגר הסודות של ה-NSA שהודלפו על-ידי סנואודן החליטו להשיק לאחרונה עמוד מיוחד ואינטראקטיבי תחת הכותרת NSA Files: Decoded. עמוס בקטעי וידאו ובאינפוגרפיקות, מתיימר העמוד הזה לספק לקוראיו וצופיו תמצות של ההשלכות המיידיות עבורם בסודות שנחשפו עד כה.

העמוד, כצפוי, מקצועי להפליא, ונדמה לי שיש בו לא מעט חומר מאיר עיניים, אבל אני, אתם יודעים איך זה, ברגע שיש אינפוגרפיקה אני חייב להתחיל לנטפק. וכמו תמיד כמעט, זה הרבה יותר קל ומאכזב מן הצפוי.

או כמו שאומרים אצלנו, יש כאן מקרה קיצוני של 386! ועוד בגרדיאן!

כדי להסביר לקורא הישר והתמים מה הסיכוי לכך שה-NSA עוקב גם אחריו מספרים לנו בגרדיאן שהמעקב מתבצע עד שלוש “קפיצות” בגרף החברתי של פייסבוק. כלומר, מספיק שתהיה חבר של חבר של חבר של חשוד כלשהו כדי שגם המידע שלך יימצא על הכוונת של ה-NSA.

ואם “חברים של חברים” הוא מושג חמקמק למדי הרי ש”חברים של חברים של חברים” הוא כבר באמת מסתורין עמום ועמוק. אז כדי שתוכלו לקבל מושג על מה שבעצם הולך כאן יש בעמוד גם סוג של משחק אינטראקטיבי בו אתם מכניסים למערכת את מספר החברים שלכם בפייסבוק ומקבלים הערכה גם למספר ה”חברים של חברים” ולמספר ה”חברים של חברים של חברים” שלכם.

ברירת המחדש של המשחק הזה היא להתחיל עם 50 חברים ולהציג לכם את האינפוגרפיקה הבאה.

guardian 50 friends

המספרים, כפי שאפשר לראות, גדלים במהירות מסחררת, עם למעלה ממיליון אנשים במעגל החברים השלישי שלכם. זה מפחיד ומרתיע, בדיוק כמו שזה אמור להיות (גם מבחינת הגרדיאן וגם מבחינת המציאות), והמספרים, ראוי להודות, נראים סבירים למדי.

אבל בגרדיאן מסבירים גם מהיכן שאובים המספרים האלה, ומפנים לאחד המחקרים המקיפים ביותר על מבנה הגרף החברתי של פייסבוק. לפי המחקר הם מציינים, מספר החברים הממוצע שיש למשתמש פייסבוק הוא 190, ו-14% מתוכם הם חברים זה של זה. שני הנתונים האלה אכן מופיעים במחקר (גם אם השני מננוסח כאן ובגרדיאן באופן מאוד לא ברור), אבל מה שבחרו לעשות איתם בגרדיאן הוא חובבני באופן שבין מביך לבין מעצבן.

כדי להבין מה בדיוק בחרו בגרדיאן לעשות עם המספרים האלה הכי קל יהיה להתחיל מהתחלה, כלומר, לגרור את מספר החברים המדומיין שלך אל הקצה השמאלי ולבדוק מה קורה אם יש לך חבר אחד ויחיד בפייסבוק.

הנה מה שתקבלו במקרה כזה.

guardian 1 friend

163? פה חשדתי!

מאיפה בדיוק צץ המספר החדש הזה?

טוב, זה קל למדי, אחרי מעט מחשבה, ובהתחשב במה שכבר סיפרו לנו קודם. אחרי שמורידים 14% מ-190 החברים של משתמש הפייסבוק הממוצע נשארים עם 163.4, ואז מעגלים למטה.

הבעיה היא, כמובן, שאין לצעד המפוקפק הזה שום הצדקה. מהרבה מאוד סיבות. אם לחבר היחיד שלי יש 190 חברים, כולם ללא יוצא מן הכלל הם “חברים של חברים” שלי, בלי צורך לבדוק כמה מתוכם, אולי, “חברים של חברים” שלי גם מכיוון אחר.

טוב, ניחא, נעבור צעד אחד הלאה ונראה מה קורה עם שני חברים.

guardian 2 friends

התמונה מתחילה להתבהר. עכשיו קיבלנו 326 “חברים של חברים”, שזה בסך הכל אותו 163 בדיוק, פעמיים. אם נחזור עכשיו ל”נתונים” עבור מי שיש לו 50 חברים נגלה שכל מה שיש שם זה 50 פעמים 163.4.

ומה לגבי השלב הבא, זה של ה”חברים של חברים של חברים”? מסתבר שכל מה שעשו בגרדיאן כדי להגיע למספר שלהם הוא לכפול, שוב, את מספר ה”חברים של חברים” באותו קבוע מפוקפק של 163.4.

רק שהבחירה של הגרדיאן להשתמש באותם 14% כסוג של “ניכוי במקור” אותו הם מקצצים ממספר החברים הממוצע הוא לחלוטין חסר משמעות. אם רוצים לנסות ולאמוד את מספר החברים של החברים שלכם צריך לנסות ולגלות כמה אנשים מופיעים בו פעמיים (או יותר) כיוון שיש לכם יותר מחבר משותף אחד. כדי לחשב את זה אין בעצם, כמעט, שום משמעות ל-14% שהגרדיאן משתמש בהם. זה נתון שמספר לנו משהו על קשרים בתוך קבוצת החברים שלי, אבל לא על ההסתברות שמישהו יהיה חבר משותף של שני חברים שלי.

טוב, רגע, לפני שאני מסתבך כאן בנסיונות לצלול לתוך הסברים טכניים מידי, אולי כדאי לעצור ולבדוק מה בעצם אומרים ה-14% האלה.

בגרדיאן כותבים את המשפט הסתום הבא:

Calculations are based on an analysis of Facebook that reports a typical user has an average of 190 friends and 14% of those friends are friends with each other.

שעד כמה שניסיתי לא הצלחתי למצוא לו פרשנות סבירה, בטח שלא חד-משמעית.

במחקר המקורי, לעומת זאת, אפשר למצוא את התיאור הבא:

We see that the local clustering coefficient is very large regardless of the degree, compared to the
percentage of possible friendships in the network as a whole, and more importantly, compared to measurements of other online social networks. For example, for users with 100 friends, the average local clustering coefficient is 0.14, indicating that for a median user, 14% of all their friend pairs are themselves friends.

שהוא אמנם יותר מורכב, אבל לפחות הוא ברור (למעט מה שנראה, לי לפחות, כמו בלבול בין ממוצע לבין חציוני).

עבור הקבוצה של משתמשי פייסבוק עם 100 חברים, אם נסתכל על  4950 הזוגות שאפשר ליצור בין חבריהם נגלה ש-14% מהזוגות האלה הם גם חברי פייסבוק זה של זה.

אז מה בעצם קרה כאן? מישהו בגרדיאן עבר ברפרוף על המחקר, שלף ממנו מספר שתקף רק למקרה מסויים (אנשים עם 100) חברים, והחליט להשתמש בו כאילו יש לו תוקף כללי. בשלב הבא גילה אותו מישהו שהפרשנות של המספר הזה היא משהו מסובך מידי אז הוא המיר אותה בפרשנות שנשמעת פשוטה וקליטה יותר אבל בעצם אין לה שום משמעות (14% מהחברים שלך הם גם חברים זה של זה), ואז החליט לקחת את המספר הזה ולעשות איתו את הפעולה הכי פשוטה שאפשר לחשוב עליה (להפחית 14% ממספר החברים הממוצע) ולמתוח את השימוש בו בנאיביות מוחלטת גם לאומדן של מספר החברים של חברים של חברים שלך.

אה, רגע! אבל אחר כך מוסיפים אינפוגרפיקה מאירת עיניים, עם ציורים יפהפיים של מטוסים ורכבות והקולוסיאום ברומא ומפות של כל מיני מדינות, והכל נראה מקצועי ומרשים להפליא.

חשוב לומר, יש עוד הרבה מאוד בעיות במודל שהגרדיאן משתמש בו. אפילו ההנחה, הסבירה לכאורה, שבהיעדר מידע אחר נכון להניח שהחברים שלך הם “משתמש פייסבוק ממוצע” עם 190 חברים היא שגויה לחלוטין.

“נו, טוב, למה כבר אפשר לצפות?” אתם יכולים לשאול עכשיו, במידה רבה של צדק. הרי חישוב מדוייק הוא מסובך מאוד, בעצם בלתי אפשרי על סמך כל כך מעט נתונים, וכל מה שרצו בגרדיאן זה לתת לנו מושג כללי, להסביר לנו כמה מפחיד היקף המעקבים של ה-NSA.

כל זה נכון במידת מה, גם אם אפשר היה להיות זהיר קצת יותר עם השימוש במספרים, אבל זה לחלוטין לא רלוונטי. לא רלוונטי כי בעמוד 14 של אותו מחקר עצמו אפשר למצוא את הגרף הזה.

FoFs

כן. הגרף הזה כולל את תוצאות המחקר עבור מספר החברים של חברים שיש למשתמש פייסבוק כתלות במספר החברים שלו, בדיוק אותו מספר שהגרדיאן החליט בגסות להחליף במכפלת מספר החברים בקבוע של 163.4*. אין במאמר נתונים מפורשים לגבי חברים של חברים של חברים, אבל מחלקים אחרים בו ניתן להניח במידה גבוה של וודאות שהנתונים האלה קיימים אצל החוקרים, או שלכל הפחות הם יכולים לחשב אותם בלי יותר מידי מאמץ.

נכון, קשה מאוד לחלץ נתונים מספריים מהגרף הזה כפי שהוא מופיע כאן או במאמר המקורי, צריך לנסות לספור פיקסלים על המשך מאוד בזהירות או משהו דומה, אבל אני משוכנע שהחוקרים היו שמחים להעמיד לרשות הגרדיאן נתונים מלאים ומדוייקים בתמורה לחשיפה באחד העמודים הכי לוהטים באינטרנט של הרגע, ואולי גם תשלום לא מאוד גדול.

רק שאף אחד לא חשב ככל הנראה לפנות אליהם בבקשה כזו, אף אחד גם לא טרח לקרוא את המאמר ברצינות. מישהו חיפש בגוגל משהו על מבנה הגרף החברתי של פייסבוק, מצא מאמר, חיפש בזריזות שני מספרים שאפשר יהיה להלביש עליהם משהו, ואז השקיע הרבה יותר זמן ביצירת המחשה גרפית מסחררת ובחיפוש נתונים אחרים, לא רלוונטיים לכלום (מספר מקומות הישיבה בקולוסיאום, או אוכלוסיית פיונגיאנג) שייתנו לסיפור קצת צבע.

ופתאום כל העמוד הזה, המושקע והמפואר והמעוצב להפליא, זה שכל קיומו מבוסס על תחושת “תנו לנו, המקצוענים האמיתיים של הגרדיאן, לקרוא בשבילכם את כל המסמכים המסובכים האלה, לעשות בהם סדר ולהסביר לכם מה הם אומרים באמת”, כל העמוד הזה מאבד משהו מהתוקף והסמכות שהוא כל כך מתיימר להם.

* באופן מעט מפתיע, או לפחות לא אינטואיטיבי, עולה מן המחקר כי מי שיש לו 100 חברים ימצא את עצמו עם 27,500 חברים של חברים, הרבה יותר מה-16,340 של הגרדיאן. זו תוצאה ישירה של אפקט ה”איך זה שיש לי פחות חברים מאשר לחברים שלי”, שהוא אמיתי לחלוטין וגם די פשוט להבנה.

בנוגע לחברים של חברים של חברים אני חושד (אבל ממש לא בטוח) שהאומדנים של הגרדיאן מוגזמים קצת.

דממה דקה ל“I can’t, someone is wrong on The Guardian”

עדיין אין תגובות

השארת תגובה

Subscribe without commenting