הרהורי זנב ארוך – מבוא

כמה מילות אזהרה: זה הפוסט הראשון בסדרה שמאוד יכול להיות שתתארך למדי. סדרה שאינה אופיינית למה שהתרגלתם לקרוא בבלוג הזה עד היום (בטח שלא לאחרונה). הנושא המרכזי – תיאוריית הזנב הארוך של כריס אנדרסון (נניח) כבר עלה כאן לדיון לא פעם אחת, אבל לא באופן שבו הסדרה הזו תנסה לעסוק בו.

כבר כמה שנים שאני מנסה, בשעות הפנאי, להשתעשע מעט במודלים מתמטיים הקשורים לתיאוריה של אנדרסון. קיבלתי כמה תוצאות מעניינות, שטחתי אותן בפני אנדרסון בזמנו. הוא הביע סקרנות, אבל במקביל טען שהוא כבר עבר הלאה, והפנה אותי למקומות אחרים.

בסדרת הפוסטים שנפתחת כאן אנסה לתאר כמה מהתוצאות האלה, בדרך, כמעט בלית ברירה, אבל גם בהנאה, אגלוש לדיונים טכניים יחסית. טרחתי אפילו להתקין תוסף LaTex שיאפשר לי להציג כאן משוואות.

ראו הוזהרתם.

המבוא, בכל מקרה, מתכוון להיות רגוע יחסית.

ב-2003 פרסם קליי שירקי מאמר מכונן בכל הקשור לדיון בדינמיקה של הבלוגוספירה, ושל צריכת תוכן ברשת בכלל. המאמר, Power Laws, Weblogs, and Inequality ניסה להתמודד עם האכזבה שהתעוררה (כבר אז) מכשלונה של הבלוגוספירה ליצור דמוקרטיזציה מלאה של הדיון ברשת. את החלום על דיון מבוזר שמתפרש בין אלפי בלוגים, קוננו אז המקוננים, החליפה מציאות אכזרית שבה מיעוט זניח של בלוגים זכו למעמד מיוחס, משכו אליהם עשרות ומאות אלפי קוראים, והותירו את כל שאר הבלוגים מתבוססים באלמוניות עם קהל קוראים מצומצם ויכולת השפעה אפסית.

שירקי ביקש להסביר במאמר שהולדתם של “להיטים” (אם לחבר כבר עכשיו את הדיון לתיאוריית הזנב הארוך של אנדרסון שבכל מקרה מסתתרת מעבר לפינה) היא בלתי-נמנעת, שהדינמיקה הבסיסית של הזירה, פתוחה ואנרכיסטית ככל שתהיה, סופה לייצר את אותם פערים עצומים.

image

שירקי (במרכז) אנדרסון (מימין) ועוד מישהו (משמאל)

פסקאות המפתח במאמר של שירקי, לטעמי לפחות, הן אלה

Freedom of Choice Makes Stars Inevitable #

To see how freedom of choice could create such unequal distributions, consider a hypothetical population of a thousand people, each picking their 10 favorite blogs. One way to model such a system is simply to assume that each person has an equal chance of liking each blog. This distribution would be basically flat – most blogs will have the same number of people listing it as a favorite. A few blogs will be more popular than average and a few less, of course, but that will be statistical noise. The bulk of the blogs will be of average popularity, and the highs and lows will not be too far different from this average. In this model, neither the quality of the writing nor other people's choices have any effect; there are no shared tastes, no preferred genres, no effects from marketing or recommendations from friends.

But people's choices do affect one another. If we assume that any blog chosen by one user is more likely, by even a fractional amount, to be chosen by another user, the system changes dramatically. Alice, the first user, chooses her blogs unaffected by anyone else, but Bob has a slightly higher chance of liking Alice's blogs than the others. When Bob is done, any blog that both he and Alice like has a higher chance of being picked by Carmen, and so on, with a small number of blogs becoming increasingly likely to be chosen in the future because they were chosen in the past.

Think of this positive feedback as a preference premium. The system assumes that later users come into an environment shaped by earlier users; the thousand-and-first user will not be selecting blogs at random, but will rather be affected, even if unconsciously, by the preference premiums built up in the system previously.

Note that this model is absolutely mute as to why one blog might be preferred over another. Perhaps some writing is simply better than average (a preference for quality), perhaps people want the recommendations of others (a preference for marketing), perhaps there is value in reading the same blogs as your friends (a preference for "solidarity goods", things best enjoyed by a group). It could be all three, or some other effect entirely, and it could be different for different readers and different writers. What matters is that any tendency towards agreement in diverse and free systems, however small and for whatever reason, can create power law distributions.

Because it arises naturally, changing this distribution would mean forcing hundreds of thousands of bloggers to link to certain blogs and to de-link others, which would require both global oversight and the application of force. Reversing the star system would mean destroying the village in order to save it.

יש משהו מאוד אינטואיטיבי וטבעי בגישה ששירקי מציע כאן, כמעט מובן מאליו. יש בה גם לא מעט צדק, כל עוד אנחנו מתייחסים אליה כאל תיאור איכותי בלבד של תהליך. כן, הבחירות האקראיות לחלוטין של כמה מאמצים מוקדמים יש בהן להטות את המשך תהליך הבחירה, סביב הזרע של אותן בחירות ראשוניות אכן תתפתח מציאות שתשבור את השוויון המלא ממנו יצאנו לדרך.

אבל יש בגישה הזו עוד משהו. היא מציעה, אמנם בלי יותר מידי פרטים טכניים, אפשרות למודל. כזה שקל מאוד לממש אותו באמצעות תכנות פשוט ואז לבדוק את תוצאותיו. יותר מזה, בהנחות מסויימות שבהחלט נכללות בתוך התיאור של שירקי (ואפילו מחריפות מעט את האפקט המתואר של יצירת “כוכבים”) אפשר לקבל חישוב מדוייק של התוצאה בלי צורך בסימולציות ממוחשבות.

זה בדיוק מה שעשיתי (סימולציות) ומה שאחר כך נעזרתי בחבר מתמטיקאי כדי לעשות (חישוב אנליטי כמעט מדוייק). ברמה מסויימת התוצאות שהתקבלו אכן מתאימות למה שהיה הנקודה המרכזית של שירקי. ברמה אחרת, שבה התיאור של שירקי והתיאוריה של אנדרסון נפגשות, התוצאות שקיבלתי היו מפתיעות מאוד, לפחות לטעמי, לפחות במבט ראשון.

כל אלה ועוד (כולל גיחה מפתיעה להצעה לתיאוריה של דפוסי ההצבעה של קולות צפים) בהמשך הסדרה הזו.

הערה מרתקת לסיום: בהפרש של שנים אחדות זה מזה בחרו שירקי ואנדרסון להתשמש באותו תיאור של חוקי חזקה כדי לדבר על דפוסי הצריכה בעידן הרשת. שירקי ביקש להשתמש בהם כדי להסביר את הדומיננטיות הבלתי-נמנעת של להיטים. אנדרסון בחר להסתכל דווקא על הזנב הארוך של אותן התפלגויות בדיוק כדי לבשר על מותם הבלתי-נמנע של הלהיטים. הסתירה המתמיהה הזו תצוף כאן בהמשך הדיון כמובן.

דיסקליימר קטן: אני משער שאני לא הראשון שהתייחס לדברים האלה, וסביר להניח שגם לא הראשון שמימש מודל כזה. פניתי לשירקי כדי להתעניין בנושא ואני עדיין מקווה לשמוע ממנו משהו. אם וכאשר תגיע תשובה אדווח כאן. במקרה כזה בהחלט יכול להיות שכל סדרת הפוסטים הזו תשנה לחלוטין את אופיה ואת המשכה.

20 תגובות ל“הרהורי זנב ארוך – מבוא”

  1. מכיוון שאני כבר מנוי על ה-RSS שלך, אני לא יכול להיות מנוי אליו שוב. שקלתי להפסיק להיות מנוי, רק בשביל שאני אובל, בצעד הצהרתי, לעשות עליו מנוי שוב רק בשביל הסדרה הזו. אני שוקל Double Secret Subscription.

    [להגיב לתגובה זו]

    שחר Reply:

    תודה רבה!

    [להגיב לתגובה זו]

  2. Of course you are not the first to study power laws and their arousal as a result of some natural models. Search for "preferential attachment" to get an idea. Shirky also refers to Barabasi and others in the paper you mentioned.

    [להגיב לתגובה זו]

    שחר Reply:

    קראתי בזמנו את אחד המאמרים שמצאתי בחיפוש בעקבות המאמר של שירקי, אני כבר לא זוכר איזה, ואחפש שוב.
    בכל מקרה, מה שעניין אותי במודל, או בעצם בתוצאות שקיבלתי, הוא העובדה שלהתפלגות שנוצרת מהתיאור של שירקי היא דווקא לא של חוק חזקה, למרות כמה סממנים דומים.

    [להגיב לתגובה זו]

    אורי Reply:

    Usually, "power law" means that the asymptotic power law behavior. You did not describe the model exactly, but if you have new mathematical results, I suggest you check the literature more carefully before publishing.

    Anyway, looking forward for the next post!

    [להגיב לתגובה זו]

    שחר Reply:

    אורי: אין לי ספק שאין שום חידוש מתמטי בתוצאות שלי. הן סתם הפתיעו אותי תוך כדי שעשוע, ובמקביל גרמו לי לחשוב על כל מיני עניינים קשורים פחות או יותר.
    מובן מאליו שלא הייתי שולח את סדרת הפוסטים לפרסום בשום ז'ורנל מקצועי (אפילו לא כלכלי\עסקי) בלי סקר ספרות מעמיק. אבל היי, זו רק סדרת פוסטים בבלוג, אז מה'כפת לי?

    שחר Reply:

    וסתם הערת אגב: הגורואים החדשים אוהבים מאוד לדבר על חוקי חזקה, לא תמיד עם קשר של ממש למה שהם מתארים (יש מאמר מרתק של גלדוול על הומלסים שהוא מתעקש לקשר באופן שאני פשוט לא מצליח להבין לחוקי חזקה).

  3. נהדר!

    [להגיב לתגובה זו]

    שחר Reply:

    תודה!

    [להגיב לתגובה זו]

  4. הדיון המתמטי כאן בתגובות גבוה עשרות מונים מידיעותיי והבנתי. אודה לך אם תוכל בפתיח של הפוסטים בסדרה להמשיך להזהיר מפני דיונים מתמטיים כבדים- או לחלופין להסב את תשומת הלב לדיון משמעותי שאינו מתמטי. אני מאוד הסתקרנתי מעניין דפוסי ההצבעה של קולות צפים.

    [להגיב לתגובה זו]

    שחר Reply:

    לא מתכוון להסתבך עם המתמטיקה יותר מידי, אבל זה בהחלט יכול לקרות.
    בכל מקרה, עניין הקולות הצפים הוא ממש מעבר לפינה.

    [להגיב לתגובה זו]

  5. ניבוי: בעולם האמיתי, התפלגות מספר הקוראים של הבלוגים תעבוד לפי חוק זיף.

    [להגיב לתגובה זו]

    שחר Reply:

    חוק זיף הוא חוק חזקה מהסוג ששירקי (ואנדרסון) מדברים עליו.
    אני יודע שיש לא מעט מידע אמפירי התומך בטענות מהסוג שהעלית, ואני נוטה להאמין לו. אני יודע גם שיש לא מעט ויכוחים בנושא, ואני נוטה להאמין שגם למתווכחים יש טענות רציניות.
    בכל מקרה, הטענה שלי, אם יש כזו, היא שלא זו התוצאה של מנגנון כמו זה ששירקי מתאר. מעבר לטענה הזו, אני רוצה להשתמש בסדרת הפוסטים הזו כדי להעלות עוד כמה נקודות מעניינות, לשעשע ולהשתעשע, וגם, בתקווה, לעורר דיון.

    [להגיב לתגובה זו]

    אסף Reply:

    אני יודע שמודלים זה כיף. שלחתי ידי בכמה כאלו. הבעיה היא שכל מודל מפשט כמעט בהכרח את המציאות. למשל זה המתואר כאן בציטוט נראה כמניח שאנשים לא משנים את דעתם, מרגע וזאת נקבעה. ואיך תמדל את זה? ואיך תמדל הבדלי איכות בין כותבים?
    החיים קשים. מודלים יכולים לעזור לך אולי להבין תופעה נקודתית. אין לי מושג מה עשית אתה, אבל במקרה הזה מה שאני הייתי מנסה הוא מודל אבולוציוני, בו כל אחד בקבוצה בוחר בסיבוב הראשון בלוגים לקרוא, ואז בכל תור יש סיכוי מסויים שיבחר לשנות את העדפותיו – כאשר הבחירות החדשות מושפעות מהפופולריות הנוכחית.
    בעצם, אולי אנסה לעשות את זה ממש עכשיו.

    אה, וחוק זיף, נו, הוא פשוט נוטה להופיע.
    בחנתי פעם את מספר תושבי הערים בישראל. מצייתים לו באופן מרשים ביותר.

    [להגיב לתגובה זו]

    שחר Reply:

    אני לא חושב שהמודל "שלי" נותן תוצאה שיש סיבה לחשוב שהיא אמינה. אני כן חושב שגיליתי כמה דברים מעניינים בדרך, ולאו דווקא על הנושא עצמו.
    הנקודה המרכזית שלי בפוסט הזה היא בעצם, ככל הנראה, להגיד משהו על האופן שלא ממש אחראי שבו נביאי-רשת משתמשים בכל מיני מונחים מדעיים.
    בכל מקרה, יש לי בהמשך הדרך גם כמה וריאציות על המודל הבסיסי שמנסות לטפל בסיטואציות אמינות\מורכבות יותר.

    אסף Reply:

    אני לא יודע אם "אחריות" היא המונח המתאים. חירות מחשבה והתנתקות מכבלים, אולי? אני מניח שהם בסך הכל תלמידים נאמנים של מדעי הרוח. מי מאיתנו לא נתקל באנאלוגיות מופרכות בין עקרונות במדעי הרוח (וקצת במדעי החברה), לבין עקרונות מתמטיים או ממדעי הטבע? אם דרווין היה יודע… בעצם, אני לא חושב שהיה מאוד אכפת לו.

  6. אני חושב על עצמי כשנכנסתי לעולם הבלוגים – התחלתי מכמה בלוגים מאוד מפורסמים, פלוס עוד כמה שנתקלתי בהם במקרה בבלוגלי בזמנו. הרבה מהבלוגים בבלוגלי לא שרדו לאורך זמן, וכך הם נפלו. בלוגים אחרים שהגעתי אליהם, זה בעיקר דרך קישורים. וכאן, כמובן, יש תוצר נוסף של היותם של חלק מהבלוגים מאוד מוכרים – הם מקבלים יותר קישורים נכנסים מיותר מקומות, וכך גדל הסיכוי שלי להבחין בהם.
    השאלה המעניינת כמובן, היא התפתחות לאורך זמן כולל כניסה של בלוגים חדשים. המודל שאתה מתאר כאן (בינתיים, לפחות) הוא סטאטי – מתחילים עם מספר בלוגים מסויים, וכל מה שמוסיפים זה עוד ועוד קוראים. אבל כמובן שזה לא מתאר את המציאות – בלוגים חדשים נולדים כל הזמן. האם אין שום סיכוי לבלוג חדש להפוך ללהיט? האם כל הלהיטים הם בלוגים ותיקים? הבלוג של ולווט הוא דוגמא חריגה לבלוג מאוד פופולארי למרות שהוא יחסית חדש – אבל הסיבה לכך היא בעיקר מעורבות של כלי תקשורת חיצוניים (נקרא לזה "שיווק", למרות שזה לא באמת). איזה עוד דוגמאות יש?

    לגבי הזנב הארוך, דבר שהטריד אותי בזמנו הוא מה קורה להעדפות של אלו שבזנב אם הוא מקוצר בגלל אילוצים חיצוניים – האם הם מתקבצים אל תוך הראש, או שהם מתקבצים אל תוך החלקים היחסית קדמיים של הזנב ככה שהם הופכים ל"להיטי שוליים"?

    [להגיב לתגובה זו]

    נדב פרץ Reply:

    ולווט אנדרגראונד הוא חדש יחסית? הוא בן 5. יש מעט בלוגים ישראליים ותיקים יותר.

    [להגיב לתגובה זו]

    דובי Reply:

    מוזר. זכרתי את כל מהומת וולווט יוצאת מהארון כמשהו שקרה אחרי שפתחתי את הבלוג שלי… טוב, אז אפילו זו לא דוגמא טובה.

    [להגיב לתגובה זו]

  7. […] המפתיעה היתה שלפי האופן שבו מימשתי את התיאור של שירקי לצמיחתה של הבלוגוספירה (או של כל דבר אחר שנהוג להתייחס […]

השארת תגובה

Subscribe without commenting