הרהורי זנב ארוך – שני כדורים, שק אחד* (עיקוף**)
בראשית הדרך של שעשועי הזנב הארוך שלי התחלתי מקבלה מלאה של התיאוריה של אנדרסון, או לפחות של דרך אחת לפרש אותה. הנחתי אז שיש התפלגות ארוכת-זנב שמתארת את טעמו של הקהל בהיעדר אילוצים חיצוניים, ובמקביל לה יש התפלגות אחרת, בעלת ראש דומיננטי שמתארת את אילוצי השוק (שטח אחסון מוגבל, מאמצי שיווק שמתמקדים בלהיטים וכן הלאה). התוצאות שקיבלתי היו טריוויאליות למדי ברמה המתמטית. למרות זאת ייתכן בהחלט שעוד אחזור אליהן כאן כי הן מזכירות משהו שנוטים לשכוח בדרך כלל בדיוני זנב ארוך – להיטים הם לא אילוץ של שוק מצומצם, הם תוצאה טבעית של הטעם האנושי. הדומיננטיות המוחלטת של להיטים, מנגד, היא אכן תוצאה ישירה של המפגש בין אותו טעם לבין אילוצי הצמצום***.
קצת אחר כך, ובלי שזכרתי את פרטי המאמר של שירקי, החלטתי לממש מודל שמזכיר מאוד את התיאור הסכמטי שהובא בפוסט הראשון.
בבסיס המודל שלי נמצא “שוק” של פריטים (נניח, אלף בלוגים). בשלב ראשון אני מקצה לכל אחד מהם פופולריות שווה, בדיוק כמו שירקי, ומניח שלאף אחד מהם אין קורא. בשל כל מיני סיבות שהעיקרית שבהן היתה פשטות המימוש בתוכנה קבעתי את הפופולריות של כל אחד מהם להיות 1.
כעת אפשר לגשת לעניין עצמו. אל הבלוגוספירה הטרייה מגיעה הקוראת הראשונה ולעיניה נפרשים אלף הבלוגים הבתוליים, כיוון שלכולם יש אותה פופולריות היא בוחרת לעצמה אחד מהם באקראי. ההסתברות לבחירה של כל אחד מהם היא , הבלוג הממוזל שנבחר זוכה לא רק בקורא אחד אלא גם בבונוס נאה – תוספת של 1 לפופולריות שלו.
הקורא הבא שמגיע כבר אינו נמצא בריק. לאחד הבלוגים יש פופולריות של 2, ולכל האחרים יש פופולריות של 1. במקרה הזה אם כך, יש סיכוי של לכך שגם הוא יבחר בבלוג הראשון, לעומת הסתברות של
שיבחר בכל אחד מהבלוגים האחרים. תהא בחירתו אשר תהא, גם היא תוסיף 1 לפופולריות של הבלוג הנבחר.
תוך כדי הרצות של המודל הזה (ושל מודלים דומים) קיבלתי תחושה מוזרה מעט לגבי התוצאות. בשלב זה עשיתי מה שכל מדען עושה והחלטתי לנסות לטפל במקרה הפשוט ביותר שעדיין יש בו עניין. בחרתי לטפל במקרה .
במקרה כזה אין טעם להמשיך ולדבר על בלוגים (או על סרטים ב-Netflix, שירים ב-iTunes, ספרים ב-amazon או כל דבר אחר שתיאוריית הזנב הארוך אוהבת לעסוק בו), במקומם נאמץ ז’רגון מקובל מתרגילים בקורסי מבוא להסתברות ונדבר על כדורים בתוך שק.
נניח אם כן שיש לנו שק ובו שני כדורים (הבטחתי בכותרת) – אדום וכחול. כעת אנחנו מבצעים סדרת שליפות של כדורים מתוך השק. בכל פעם שנשלף כדור מצבע מסויים השליפה הזו נרשמת, והכדור מוחזר לשק יחד עם כדור נוסף מאותו צבע (מספר הכדורים מצבע מסויים בתוך השק בכל רגע הוא, אם כך בדיוק אותה פופולריות עליה דיברתי קודם).
השאלה שבה נתעניין היא מה ההסתברות לכך שאחרי שליפות שכאלה שלפנו מתוך השק
כדורים כחולים ו-
כדורים אדומים. את השאלה הזו, ואת פתרונה, אגב, אפשר למצוא בלא מעט מקומות ברשת ובספרי מבוא להסתברות, היא שאלה קלאסית עם תוצאה יפה, אלגנטית, ומפתיעה, אבל אין כאן, חשוב לי להבהיר שום יומרה לטעון שאני מחדש משהו.
כיוון שכבר החלטנו לעבור למקרה הפשוט ביותר נתחיל גם את הדיון בשאלה הזו מהתבוננות ישירה במקרים הפשוטים ביותר שלו.
(כך נראה מקרה פחות פשוט בשלב מתקדם שלו)
השליפה של הכדור הראשון היא, כמובן, משעממת להפליא. בשלב זה יש לנו שק ובו שני כדורים – אחד בכל צבע. מובן מאליו אם כן, שההסתברות לשליפה של כדור מכל צבע היא פשוט חצי.
המקרה המעניין הראשון אם כן הוא זה של שליפת שני כדורים. נבחן את השאלה מה ההסתברות לשליפה של שני כדורים אדומים. ההסתברות לכך שהכדור הראשון שנשלף הוא אדום, כבר אמרנו היא חצי. מה ההסתברות לכך שגם הכדור השני הוא אדום? בשלב זה, נשים לב, יש בשק שני כדורים אדומים (כיוון שהוספנו כדור אדום אחד) ורק כדור כחול אחד. לכן ההסתברות לשליפה של כדור אדום במצב הזה היא שני שלישים. כיוון שזו הדרך היחידה בה נקבל שני כדורים אדומים ההסתברות שאותה אנחנו מחפשים היא מכפלת ההסתברויות שמצאנו.
באופן שקול לחלוטין גם ההסתברות לכך ששלפנו שני כדורים כחולים היא שליש. כיוון שהמקרה היחיד שעוד נותר לדון בו הוא זה שבו שלפנו כדור אחד מכל צבע ברור שההסתברות למקרה כזה גם היא שליש (כיוון שסכום ההסתברויות חייב להיות 1). למרות השיקול הטריוויאלי הזה, וכדי שגם ההמשך יהיה ברור לא פחות נבחן את שתי האפשרויות (הסימטריות) לשליפה של כדור אחד מכל צבע.
נניח שהכדור הראשון שנשלף היה אדום, כעת יש בשק שני כדורים אדומים ואחד כחול, כך שההסתברות לשלוף כדור כחול היא שליש. האפשרות ההפוכה היא כמובן סימטרית לחלוטין.
ובהתאם, האפשרות לשליפה של כדור אחד אדום וכדור אחד כחול (בלי תלות בסדר) היא סכום ההסתברויות האלה.
.
נעבור למקרה הבא, שליפה של שלושה כדורים ונבחן את ההסתברויות המתקבלות (הפעם ללא יותר מידי הסברים מילוליים).
.
.
.
.
.
מובן מאליו שהדיון באפשרויות ההפוכות (שלושה כדורים כחולים או שניים כחולים ואחד אדום) הוא סימטרי לחלוטין. התוצאה, אם כן, היא שלכל אחת מארבע האפשרויות יש הסתברות שווה של רבע.
חדי-העין יבחינו כמובן במגמה המסתמנת, אולי גם בטיוטה כמעט סופית להוכחה מלאה שלה. אבל כיוון שגם כך הפוסט הזה התארך יתר על המידה אמנע מתיאור ההוכחה כאן ואזנק לתוצאה הסופית שבשלב זה אינה אמורה להפתיע אף אחד.
לאחר שנשלפו מהשק כדורים, ההסתברות לכל אחת מהחלוקות האפשריות ביניהן היא
בלי תלות בשאלה מה הוא מספר הכדורים האדומים
באותה בחירה.
בהמשך הדרך: שתי הוכחות אלגנטיות לתוצאה הזו, הכללה למספר כלשהו של כדורים, ועצירה מובטחת לדיון מפתיע בדפוסי הצבעה של קולות צפים.
* טוב, לא באמת שני כדורים, אבל לפחות בהתחלה כן, ומה לא עושים בשביל כותרת פרובוקטיבית.
** ככה מתרגמים detour?
*** כפי שאמרתי, התוצאות שקיבלתי אז היו טריוויאליות להפליא, אבל בהמשך הדרך עוד יצוצו כאן מודלים שמנסים לשלב בין הגישה של שירקי לבין העימות הזה שבין טעם הקהל לבין אילוצי השוק, ושם דווקא אפשר לראות לא מעט תוצאות שיכולות להיות מעניינות.
Related posts:
25 באוג', 2010
25 באוגוסט, 2010 בשעה 18:48
AKA Polya's urn model.
[להגיב לתגובה זו]
שחר Reply:
אוגוסט 29th, 2010 at 9:13
תודה!
כאמור, נתקלתי בכמה מקומות בשאלה הזו אחרי שפתרתי אותה, אבל לא הכרתי את השם.
[להגיב לתגובה זו]
25 באוגוסט, 2010 בשעה 18:53
מסיבות טכניות סביר להניח שלא אוכל להגיב כאן בימים הקרובים. מבטיח לקרוא הכל ולהגיב כשאוכל.
[להגיב לתגובה זו]
28 באוגוסט, 2010 בשעה 23:41
וגם קרוב ל-chinese restaurant process וה-indian buffet process. וחוץ מזה, הייתי הולך על מעקף. ומלבד זאת, בלוג מעולה. לצערי נתקלתי בו רק לאחרונה, מאוחר מדי להציל את הקריירה האקדמית הקלושה שלי.
[להגיב לתגובה זו]
שחר Reply:
אוגוסט 29th, 2010 at 9:14
תודה, גם על ההפניות, ובעיקר על המחמאות.
[להגיב לתגובה זו]
אורן Reply:
אוגוסט 29th, 2010 at 12:43
גם לי קפצה לראש, לפי נתיאור שלך בפוסט הקודם, המסעדה הסינית (לא מכיר את הבופה ההודי) ואני משער שהמסעדה הסינית באמת יהווה מודל טוב. עוד הפניונת קטנה לתהליך דיריכלה (dirichlet process) שעומד בבסיסה של המסעדה הסינית ויש לו גם פיתרון יעיל.
[אני מציין את זה כי בספרות כמו שאני מכיר אותה משתמשים בד"כ במונח 'תהליך דיריכלה' ולא ב'מסעדה הסינית' כך שאני מניח שיהיה יותר קל למצוא דיונים וגם מימושים בקוד על דיריכלה. זו כמובן הזוית הצרה שלי ואולי סטטיסטיקאים משתמשים דווקא במסעדה הסינית.]
[להגיב לתגובה זו]
28 באוגוסט, 2010 בשעה 23:53
יש לי כמה בעיות עם המודל שלך, בגלל שלדעתי הוא מתעלם ממבנה הרשת ומהדרך שבה צמחו הבלוגים כתופעה. המודל שאני רואה לנגד עיני הוא כזה.
ישנם x בלוגים בתוליים (שים לב שזהו x קטן). אז מגיעים n (שוב, n קטן) קוראים במקביל, אשר בוחרים y בלוגים באקראי. כעת, בכל סיבוב:
* z מהקוראים (z << n) הופכים לכותבים, דהיינו, x' = x z (עד שהוא גודל להיות X גדול)
* n גדל (נגיד, מכפיל את עצמו בכל סיבוב, עד שגם הוא הופך להיות איזה N גדול, אבל נתעלם משאלת רווית הקוראים כרגע)
* הפופולריות של הבלוגים y שנקראו גדלה לפי התיאור המקורי שלך
דהיינו, מדובר בתהליך מקבילי (כמו חישוב המצב הבא ב"משחק החיים").
וזה לפני שהוספנו אלמנט נוסף של בלוגרולים כתורמים להעלאת פופולריות, על בסיס של אלגוריתם דמוי pagerank. אפשר לסבך את זה עוד, כי חלק ניכר מהקוראים שמצטרפים מצטרפים עקב המלצות של קוראים אחרים, מה שמעלה את ההסתברות של אותם קוראים חדשים לקרוא את הבלוגים שקרא מי שהמליץ להם עשרות מונים. אבל אפשר בינתיים לעצור כאן.
[להגיב לתגובה זו]
שחר Reply:
אוגוסט 29th, 2010 at 9:12
במהלך הקריאה, בימים הראשונים בהם התחלתי עם המשחק הזה, נתקלתי (בעקבות המלצה של כריס אנדרסון) בעבודות של מישהי מאוניברסיטת תל אביב שמשתמשת בגרפים כדי לממש את ההשפעות של מבנה הרשת (בלוגרולים, פייג'ראנק וכו') כדי לנתח "שווקים" כאלה.
הבחירה שלי, הפשטנית במכוון, נבעה בעיקר מעצלנות, אבל בשלב מסויים היא קיבלה חיים משלה. אני לא חושב שהיא ריאליסטית במיוחד, אבל אני כן חושב שיש לה תוצאות מעניינות מספיק כדי להצדיק את הפוסטים האלה.
בכל מקרה, וכפי שכבר ציינתי בתגובות. מה שהניע אותי לכתוב את הפוסטים, בחלקו לפחות, הוא העובדה ששירקי מרשה לעצמו לכתוב תיאור מעורפל ואיכות(נ)י מאוד של תופעה ולהתעלם מהעובדה שמימוש מתמטי פשוט של המודל שלו מניב תוצאות שונות מאוד מאלה שהוא מתיימר להסביר.
[להגיב לתגובה זו]