הרהורי זנב ארוך – תוצאות ראשוניות
הגיע הזמן, כאמור, להסתכל, ולו במבט שטחי משהו כרגע, על תוצאות הרצה של מודל הבלוגוספירה. הנה התוצאה של הרצה אחת לאחר שהנחנו למיליון קוראים לבחור בלוג (או לחילופין, ובלי לאבד יותר מידי דיוק, לעשרים אלף קוראים לבחור חמישים בלוגים כל אחד) לפי המודל.
לאחר שהסתיימה הרצת המודל מויינו הבלוגים לפי מידת הפופולריות שלהם, כך שכעת בציר הם מסודרים לפי פופולריות יורדת ובציר
מופיע מספר ה'קוראים' שבחרו בכל בלוג.
אין שום דבר בולט לעין בגרף שקיבלנו, בבחינה שטחית קשה מאוד להחליט אם, ועד כמה, הוא מצדיק את הטענה של שירקי בדבר האי-שיוויון שיוולד מתוך המודל הזה, ודאי שלא את הטענה שהתוצאה היא התפלגות המאופיינת על-ידי חוק חזקה. אפשר, כבר עכשיו לציין שאי-שיוויון כלשהו אכן מופיע כאן, שכן השיפוע של הגרף גדול הרבה יותר באיזור הראש שלו, כלומר פערי הפופולריות הם קיצוניים יותר כאשר אנחנו בוחנים את הלהיטים, אבל מכאן ועד למסקנה המקורית של שירקי עוד יש דרך לא קצרה.
בכל מקרה, לא אלה התהיות שלנו כרגע. כזכור, אנחנו עוד לא בטוחים בכלל שיש טעם לדבר על תוצאה אופיינית של המודל. בפוסט הקודם אמנם השתכנענו שיש תוצאות אופייניות יותר מאחרות, אבל זה עוד לא מבטיח את קיומה של תוצאה אופיינית. כדי לבחון את השאלה הזו כל שעלינו לעשות הוא לחזור על הרצה של המודל מספר פעמים ולהשוות ביניהן.
הגרף הבא מציג את התוצאה שכבר ראינו, ויחד איתה (בצבעים שונים) את התוצאות של שתי הרצות נוספות.
נדמה לי שהתוצאות האלה אמורות לשכנע אותנו שהדאגה שמא אין תוצאה אופיינית היא מיותרת. באיזור הראש הפופולרי (עד לפריט ה-100) עוד אפשר להבחין בהפרשים בין תוצאות ההרצות השונות, גם הם לא משמעותיים, אבל בהמשך נדמה שהקווים מתלכדים כמעט לחלוטין.
למרות זאת, עוד מוקדם לשמוח. בהחלט ייתכן שיש תוצאה אופיינית להרצה שמדמה מיליון קוראים, אבל אף אחד לא מבטיח לנו שלא תתקבל תמונה שונה לחלוטין בהרצה שתבחן חצי מיליון קוראים או שני מיליון קוראים. בהחלט יכול להיות שהפופולריות של הלהיטים בראש תמשיך להתעצם על חשבון הבלוגים האחרים שיישארו זנוחים.
כדי לבחון את האפשרות הזו חילקתי את ההרצה של המודל למאה שלבים נפרדים, שבכל אחד מהם נוספים לבלוגוספירה עשרת אלפים קוראים. הגרף הבא מציג את ההתפלגות של ארבע קבוצות כאלה של עשרת אלפים קוראים: עשרת האלפים הראשונים (כחול), עשרת האלפים השניים (ירוק), עשרת האלפים העשיריים (אדום) ועשרת האלפים האחרונים, כלומר אלה שבין הקורא ה-990,000 לבין הקורא המיליון (תכלת).
כיוון שמספר הקוראים בכל שלב כזה הוא רק פי עשרה ממספר הבלוגים ניתן להבחין בבירור ב”מדרגות” לאורך הגרף, אבל כבר עכשיו ברור לנו שאופי הבחירה ודירוג הפופולריות נקבעים על-ידי עשרת אלפים הקוראים הראשונים, אלה אחראים על שבירת השקילות המקורית בין כל הבלוגים ועל יצירת הטעם, או דירוג הפופולריות של הבלוגוספירה. כל הקוראים שיגיעו אחריהם כבר מצייתים לדינמיקה שנקבעה על-ידי אותם מאמצים מוקדמים.
טוב, הטענה שלעיל היא מעט קיצונית, ההפרש בין מספר הקוראים שמצטרפים לכל בלוג בכל אחד מהשלבים האלה הוא קטן מאוד (גם כשמסתכלים אך ורק על הלהיטים) והדירוג הפנימי המדוייק ביניהם עוד ממשיך להתנדנד מעט בין שלב לשלב, אבל די בגרף הזה ובאלה שקדמו לו כדי לשכנע אותנו שיש טעם לדבר על בלוגוספירה טיפוסית (שוב, הכל בהנחה שאנחנו מקבלים את נקודות המוצא של המודל) בלי להניח הנחות מוקדמות על מספר הקוראים, או על היחס בין מספר הקוראים לבין מספר הבלוגים (יכולתי להציג גם גרפים דומים מאוד כדי לשכנע אתכם שאין חשש לכך שנקבל דינמיקה שונה עבור מספר שונה של בלוגים, כל עוד לא נצטמצם לבלוגוספירה של בלוגים בודדים בלבד).
בשלב זה אפשר להתחיל לבחון את התוצאות, שכבר ברור לנו שיש להן משמעות, קצת יותר בעיון.
לא עכשיו כמובן, בפוסט הבא.
Related posts:
6 בספט', 2010
6 בספטמבר, 2010 בשעה 16:55
אותי עדיין מטרידה שאלת ההתווספות המאוחרת של בלוגים מסויימים – האם מצבו של בלוג שמתווסף בזמן t 10 שונה ממצבו של בלוג שהתווסף בזמן t? האם מצבו זהה למצבו של בלוג שבזמן t 10 עדיין לא הצליח לצבור אף קורא (כמה כאלו יש?)
ישנה גם שאלה שאפשר לכנותה "שאלת השממית" – איך מחשבים פנימה את העובדה שלזנב יש נטייה "לנשור" לעיתים קרובות יותר? כלומר, בלוג שלא יצליח לצבור קוראים אחרי תקופה ארוכה עלול, בסבירות גבוהה יחסית, לוותר ולהעלם.
ומה קורה כאשר בלוג פופולרי פורש?
וכמובן שדינמיקות של "טבעות" בכלל לא זוכות להתייחסות כאן. כאשר בלוגר פופולרי (נגיד, יוסי גורביץ) נותן קישור והמלצה לבלוג חדש (שלום בוגוסלבסקי), ההצלחה המיידית של הבלוג כנראה תחרוג הרבה מעבר לסיכוייו של בלוג שנפתח בלי יחסי ציבור שכאלו.
[להגיב לתגובה זו]
שחר Reply:
ספטמבר 6th, 2010 at 22:22
אני יודע שיש לא מעט נסיונות ליצור מודלים ריאליסטיים יותר שכוללים את כל מה שאתה תיארת. אולי לקראת סוף הסדרה אתן לינקים לכמה מודלים כאלה.
בגדול אני חושש שחלק גדול ממה שאתה מתאר יהווה סתם הכבדה על המודל. נכון שיש כל מיני סיבות לכך שהבלוג של שלום בוגסלובסקי יצליח ואחרים לא, אבל אני מסתפק במודל שייתן הסתברות להצלחה של בלוג חדש בלי צורך לדמות "טבעות" ולהכביד על המודל.
אין ספק שזה משהו שהמודל הנוכחי שאני מתאר לא עושה, אבל אני מעדיף, לעת עתה, לצאת ממנו ולחפש תיקונים ולא לנסות לדמות את המציאות המורכבת.
[להגיב לתגובה זו]
25 בספטמבר, 2010 בשעה 2:08
הי. ישנה התייחסות לנושא עליו אתה מדבר בכלכלה, שם חוקרים "תופעות עדר" (Herding Behavior) ואת הרעיון של "למידה מחיקוי" (Observational Learning) – התרגומים המחורבנים שלי. המודלים הם משחקיים, ומגיעים בהם לרוב לפתרונות אנליטיים של שיווי משקל (כלכלנים שונאים פתרונות נומריים, כלומר סימולציות).
אני לא כ"כ מכיר את הספרות, אבל שמעתי את ההרצאה על המאמר הזה: http://www.stanford.edu/~asorense/papers/hendricks_sorensen_wiseman_2009.pdf. מקווה שזה עוזר.
[להגיב לתגובה זו]
שחר Reply:
ספטמבר 26th, 2010 at 9:03
יש לי, כפי שכבר ציינתי, הוכחה אנליטית (בעצם כמעט אנליטית עם אפשרות לקבל הערכה טובה על השגיאה שלה שהיא בכל מקרה קטנה מאוד) למקרה הפשטני הזה.
למרבה הצער אין סיכוי שאפרסם אותה כאן (בטח שלא בקרוב).
בכל מקרה, אשמח לעיין במאמר שהפנית אליו. אחת הבעיות המרכזיות של ההוכחה שיש לי היא שקשה מאוד להכליל אותה ברגע שמנסים להוסיף איזושהי מורכבות למודל, אולי שם אמצא משהו בכיוון הזה.
[להגיב לתגובה זו]
25 בספטמבר, 2010 בשעה 13:48
רעיון להרחבה:
אפשר לנסות למדל את זה שחלק מהבלוגים באמת טובים יותר, על ידי פקטור כפל על ההסתברות שלהם (ונרמול חזרה של כל ההסתברויות לפי היחסים החדשים) או בדרך אחרת.
[להגיב לתגובה זו]
שחר Reply:
ספטמבר 26th, 2010 at 9:06
יש לי כמה וריאציות על המודל הזה שמנסות להתקרב למשהו מציאותי יותר. דווקא את האיכות אני לא שש למדל מכל מיני סיבות. אולי אכנס לדיון הזה כשאכן אעבור למודלים מורכבים יותר. מקווה שזה יקרה בקרוב למרות השקט ששורר כאן לאחרונה.
[להגיב לתגובה זו]
7 באוקטובר, 2010 בשעה 5:50
התחברתי רק עכשיו לדיון ויש לי קצת לתרום מתוך הרקע שלי.
המודל הכי בסיסי שתיארת הוא עם הכדורים האדומים והירוקים, כשהשק מתחיל כשיש בתוכו שני כדורים (אחד מכל צבע), ובכל פעם בוחרים באקראי כדור מהשק, רושמים מה יצא ואז מחזירים את הכדור לשק עם עוד כדור מאותו הצבע. ככה רושמים n צבעים.
למודל הזה קוראים Beta Distribution, וספציפית (Beta(1,1. אבל אפשר גם להתחיל עם יותר משני כדורים בשק. למשל 1000 ירוקים ואלף אדומים או (Beta(1000,1000. במקרה הזה התוצאה שתקבל אחרי שתשלוף 100 כדורים מהשק תהיה בבדרך כלל יותר מאוזנת מאשר (Beta(1,1 כי כל ההסתברויות של כל כדור ישארו באיזור החצי-חצי.
אבל בוא נתפרע. למה לא (Beta(0.1,0.1 ? במקרה הזה לצבע של הכדור הראשון יש סיכוי שווה לכל צבע (0.1 0.1)/0.1 אבל לכדור השני יש סיכוי של 91.6 אחוז להיות כמו הראשון (1.1/1.2). אם תנסה לסמלץ מודל כזה, תגלה שהוא מעדיף להיות בקצוות של הסקלה – הסיכוי שהאדומים ינצחו בגדול את הירוקים (או להפך) גבוה בהרבה מהאפשרות של תיקו. זה מודל של להיטים.
כמובן שלא חייבים להישאר בשני צבעים. ההכללה של Beta ליותר משתי קבוצות היא Dirichlet Distribution. הסימון דומה – (1,Dirichlet(1,1,1 מסמן שק שמתחיל עם 4 כדורים בצבעים שונים. וגם לא כל צבע חייב להתחיל עם אותו מספר כדורים. למשל (Dirichlet(10,3,13,0.2.
מה שיפה בכל המודלים האלו זה שמצד אחד הצבע של כל כדור אינדיבידואלי שתוציא תלוי בצבעים של הכדורים הקודמים שהוצאת, אבל מצד שני ההסתברות של כל אחת מהאפשרויות להוציא בסוף בדיוק k כדורים אדומים ו- n-k ירוקים היא זהה.
הנה דרך אחרת להציג את אותו התהליך בדיוק (במקרה של שני צבעים), באופן שבו אין תלות בין הצבעים של הכדורים. ה-Beta וה-Dirichlet שמוזכרים למעלה הם שמות של התפלגויות. (Beta(alpha,beta זו התפלגות על מספר שיכול להיות כל דבר בין אפס לאחד. אפשר לראות בוויקיפדיה איך ההתפלגות הזו נראת לערכים שונים של אלפה וביתא. לפני שמתחילים לרשום את הצבעים, מגרילים משתנה עזר שנקרא לו y מהתפלגות הביטא הרלוונטית. עכשיו מתחילים לרשום n צבעים, כאשר לכל צבע יש הסתברות y להיות אדום ו'אחת פחות y' להיות ירוק.
אם שמת לב, יוצא ש-(Beta(1,1 זו התפלגות אחידה על האינטרבל [0,1]. ואכן, אם תגריל y בין 0 ל-1, ואז תגריל לכל כדור מספר בין 0 ל-1 ותחליט שהכדור הוא אדום אם המספר שלו קטן מ-y וירוק אם המספר גדול מ-y, תקבל התנהגות זהה לזו שסימלצת. עכשיו בעצם מה שעשינו כאן זה שהגרלנו n 1 מספרים באופן אחיד בין 0 ל-1 (אחד בשביל y ואחד לכל אחד מ-n הכדורים), וקבענו מראש שהראשון מבינהם יהיה הסף שיקבע את הצבעים של הכדורים (מתחתיו אדום, מעליו ירוק). אבל באותה מידה יכולנו לקבוע שנחליט ב*אקראי* איזה מבין n 1 המספרים יהיה הסף ועדיין הסימולציה שלנו היתה מראה את אותה התנהגות. כל אחת מבין n 1 האפשרויות הללו לבחירת הסף היתה גורמת לכך שמספר הכדורים האדומים יהיה שונה: אם הסף היה יוצא המספר הגדול ביותר אז כל n הכדורים היו אדומים. אם השני הכי גדול אז היו n-1 כדורים אדומים, וכך הלאה עד המספר הקטן ביותר (אפס כדורים אדומים) וכיסינו את כל n 1 האפשרויות למספר הכדורים האדומים.
לכן מה שקובע במקרה הזה את מספר הכדורים האדומים זו בחירתו של הסף מבין n 1 האפשרויות, וכיוון שכל אפשרות כזו מתורגמת למספר שונה של כדורים אדומים, הרי שהסיכוי לכל אחד מהם הוא 'אחד חלקי n 1 '. זה עובד במקרה של (Beta(1,1 אבל כאמור ברגע שאתה מתחיל עם שברי כדורים בשק אתה תקבל מודל שברוב המקרים יוציא להיטים.
[להגיב לתגובה זו]
יוני לזרסון Reply:
אוקטובר 7th, 2010 at 6:08
יש פה גם תמונה של הגרלות מתוך (Dirichlet(beta, beta,…, beta על 1000 בלוגים, עם ערכי ביטא שונים.
http://lh6.ggpht.com/_yBbodrC25kU/Ssex6KnS4cI/AAAAAAAASkg/vGNmpwqGTPo/s1600-h/image4.png
[להגיב לתגובה זו]
שחר Reply:
אוקטובר 7th, 2010 at 8:54
תודה.
האמת היא ששיחקתי די הרבה בזמנו עם מודלים כאלה, ויש לי תכניות להציג אותם כאן, אבל כרגע יצא שהנחתי בצד את המשך העיסוק בנושא הזה לתקופה כלשהי.
בכל מקרה, מה שבאמת הכעיס אותי, אם לחזור לפוסטים הראשונים בסדרה הוא היומרה של שירקי לתת תיאור כללי, נימוק איכותי, ואז, לכאורה, להסיק מסקנה כמותית מאוד ברורה, שפשוט לא עולה בקנה אחד עם התיאור שממנו הוא עצמו יצא.
[להגיב לתגובה זו]
7 באוקטובר, 2010 בשעה 5:56
לא יודע למה, אבל לכל ה-'n פלוס אחד' שלי נעלם הפלוס.
[להגיב לתגובה זו]