ארכיון הודעות השייכות לנושא 'אלגוריתמים'

אפקט המותג: על חוזקו של מותג ברשת והשפעתו על המיקומים

יום רביעי, 23 ביוני 2010

לפני קצת יותר משנה, עדכון קטן שביצעו גוגל (רבים מתייחסים לעדכון בשם "עדכון וינס") גרם למותגים מסוימים ברשת לקבל דחיפה נוספת בתוצאות החיפוש. כשמאט קאטס, ראש מחלקת הספאם של גוגל, נשאל קצת לאחר מכן, האם גוגל נותנים משקל רב יותר למותגים בקביעת המיקומים? התשובה הייתה שאינם מייחסים חשיבות רבה במיוחד למותגים עצמם, אלא כדבריו, הם מתייחסים יותר לסממנים כמו אמון, סמכות, מוניטין וכדומה. כלומר, החשיבות שהם נותנים למותגים ברשת, מבוססת ברובה על סממני איכות מוכרים כמו TrustRank, PageRank ו-Authority.
(המשך…)

מודל הגולש הסביר של גוגל

יום שני, 24 במאי 2010

גוגל קיבלו לפני מספר ימים אישור לפטנט בשם Ranking documents based on user behavior and/or feature data. פטנט זה עוסק בשאלה כיצד להעריך את איכות קישור מסויים בהתאם למאפייני הקישור ולהתנהגות הגולש בהקשר אליו.

ההנחה העומדת בבסיס הפטנט היא שלא כל הקישורים נוצרו שווים, ולכן יש צורך לשייך ערך שונה לכל אחד מן הקישורים המופיעים בדף בהתאם לסיכוי שגולש סביר ילחץ על אחד מהם, ובהתאם יתחלק גם הכוח שהקישורים יעבירו אל הדפים המקושרים. כלומר, קישור שגולש סביר לא ילחץ עליו יעביר פחות כוח מקישור שגולש סביר כן יבחר בו.

(המשך…)

השפעת מהירות האתר על דירוג תוצאות החיפוש

יום ראשון, 18 באפריל 2010

עכשיו זה רשמי! לפני קצת יותר משבוע, גוגל הכריזו על כניסתו של מדד מהירות האתר לאלגוריתמים הדירוג. זה לא מפתיע אותנו. למעשה, מדד "מהירות האתר" כבר פעיל בקביעת ציון האיכות של מערכת ה-AdWords ובמהלך השנה האחרונה, שמענו שוב ושוב על האפשרות לכניסתו של מדד זה לזירה האורגנית, כחלק מעדכוני ה"קפאין".

(המשך…)

חיפוש סמנטי וניתוח מילים נרדפות

יום חמישי, 21 בינואר 2010

סטיב בייקר, מהנדס בגוגל, פרסם לפני כמה ימים שגוגל השקיעו יותר מחמש שנות מחקר בחקר החיפוש הסמנטי והשימוש במילים נרדפות. תחום מחקר זה נובע מהנחת היסוד שהבנת מורכבות השפה, על גווניה השונים, עשויה לעזור לגוגל ליצור תוצאות חיפוש רלוונטיות יותר לשאילתות המשתמשים.

(המשך…)

סביבת הפיתוח של "קפאין" עולה לאוויר

יום שלישי, 10 בנובמבר 2009

סביבת הפיתוח של "קפאין", הגרסה החדשה של ארכיטקטורת מנוע החיפוש של גוגל, אשר הושקה לקהל הרחב כתצוגה מקדימה לפני כשלושה חודשים, עולה לאוויר!

(המשך…)

קישורי nofollow – לא טלאי אלא ספוג

יום שלישי, 16 ביוני 2009

טוב, קשה לי לומר שאני מופתע, אבל עכשיו זה רשמי. מאט קאטס מודיע באופן רישמי שגוגל לא מתייחס אל קישורי Nofollow כאילו היו טלאי אלא כאילו היו ספוג. המשמעות היא שאם יש בדף מסויים 12 יחידות link juice, ושלושה קישורים יוצאים, אז במידה ונשים nofollow על אחד הקישורים היוצאים, אז ה-Link juice לא יתחלק בין שני הקישורים הנותרים, אלא יתחלק בין שלושת הקישורים היוצאים. ההבדל הוא שהחלק שהלך אל הקישור עם ה-nofollow פשוט יתפוגג וילך לאיבוד (או בעצם ייספג אל תוך הספוג וישאר שם לעד…).

(המשך…)

הערך הזמני של קישור מול הערך האמיתי שלו

יום שני, 11 בפברואר 2008

בפוסט מעניין כותב ברנקו אודות נוסוי אותו הוא ערך, שנועד לבחון את האיכות של קישורים שונים אל אתרים אותם הוא מקדם. על פי הבדיקה אותה הוא ערך, כל קישור חדש שנוצר נותן דחיפה ראשונית לאתר אליו הוא מצביע, אך לאחר זמן מה חלק מן הדחיפה הזו נעלם, ונותר רק הערך האמיתי של הקישור.

בפוסט יש גרף שמדגים את הדחיפה אותה יצרו קישורים שונים עבור אתר מסויים, ואת התנהגות האתר בתוצאות החיפוש לאורך זמן.

ברנקו ניסה לעסוק בנושא הזה במהלך הפרזנטציה שלו בכנס ספינקון, אך מפאת קוצר הזמן נדמה לי שהנושא לא זכה לתשומת הלב הראויה לו, והפוסט יכול לתקן זאת.

שווה קריאה!

האם ה-pagerank באמת מת?

יום ראשון, 20 בינואר 2008

 

פעמים רבות שמעתי אנשים אומרים כי ה-pagerank מת, וכי אין לו יותר משמעות. גם אני לעיתים קרובות משתמש באמירה זו, אך חשוב לסייג אותה. ה-pagerank לא מת, ויש לו עדיין חשיבות עבור מקדמי אתרים.

כיום ל-pagerank של דף יש חשיבות בארבע רמות עיקריות:

  • בקביעת אילו דפים ייסרקו על ידי רובוט החיפוש של גוגל ואילו דפים לא ייסרקו.
  • בקביעת תדירות הסריקה של הדפים השונים על ידי הרובוט.
  • קביעת האזור בתוך מסד הנתונים של גוגל בו יאוחסנו הדפים (מה שהיה ידוע בעבר בתור ה-Supplemental Index).
  • בקביעת הסבירות שאתר מסויים יקבל TrustRank גבוה (זהו לא גורם בשיקולים של גוגל אלא בשיקולים של בעלי האתרים בעת ביצוע החלפות קישורים).

בקיצור – זה נכון שמדד ה-pagerank כבר אינו משפיע כמו בעבר על המיקומים של דף מסויים בתוצאות החיפוש, אך יכולה להיות לו השפעה על הופעתו של דף מסויים באינדקס בכלל, על רמת הרעננות של הסריקה של הדף, ועל אפשרות הכנסתו של הדף לאינדקס המשני (שגם אם גוגל אומרים כי הוא כיום כמעט זהה לאינדקס הראשי, אני עדיין איני משוכנע בכך).

נחשפו רמזים על האלגוריתם של גוגל

יום שבת, 15 ביולי 2006

גולש עירני הבחין לפני מספר ימים בתוספת מוזרה בעת שבדק את גירסת המטמון של האתר שלו בגוגל.מאז הגילוי גואות הספקולציות בנוגע למשמעות של הטקסט המוזר, ועל חשיבותו למי שמנסה לנתח את אלגוריתם החיפוש של גוגל.

מאט קאטס, מהנדס מגוגל, אישר כי מדובר במשהו אמיתי ולא במתיחה, אך אמר כי הוא לא יגיב על תוכן הטקסט, וכי גוגל נקטו בצעדים בכדי להבטיח כי הטקסט לא יופיע שנית.

התוספת עליה דיווח הגולש נראתה כך:

pacemaker-alarm-delay-in-ms-overall-sum 2341989
pacemaker-alarm-delay-in-ms-total-count 7776761
cpu-utilization 1.28
cpu-speed 2800000000
timedout-queries_total 14227
num-docinfo_total 10680907
avg-latency-ms_total 3545152552
num-docinfo_total 10680907
num-docinfo-disk_total 2200918
queries_total 1229799558
e_supplemental=150000 –pagerank_cutoff_decrease_per_round=100 –pagerank_cutoff_increase_per_round=500 –parents=12,13,14,15,16,17,18,19,20,21,22,23 –pass_country_to_leaves –phil_max_doc_activation=0.5 –port_base=32311 –production –rewrite_noncompositional_compounds –rpc_resolve_unreachable_servers –scale_prvec4_to_prvec –sections_to_retrieve=body+url+compactanchors –servlets=ascorer –supplemental_tier_section=body+url+compactanchors –threaded_logging –nouse_compressed_urls –use_domain_match –nouse_experimental_indyrank –use_experimental_spamscore –use_gwd –use_query_classifier –use_spamscore –using_borg

הנתונים המופיעים אינם מסבירים את עצמם, והניחושים לגבי המשתנים והחלקים השונים בטקסט רבים ושונים. כמה מן הנתונים המופיעים בטקסט מעניינים אותי באופן מיוחד:

  • pass_country_to_leaves - יתכן כי מדובר בכך שלכל דף מסויים מוגדרת מדינה מסויימת, והוא יכול להעביר את המדינה הזו אל הדפים אליהם הוא מקשר. האם מדובר כאן במעין אלגוריתם pagerank, המעביר "מדינה" מדף אל דף?
  • rewrite_noncompositional_compounds - מרמז על כך שגוגל מזהה צירופי מילים היוצרים ביטויים בעלי משמעות שונה מהמשמעות המקורית.
  • sections_to_retrieve=body+url+compactanchors - כנראה שמדובר באלגוריתם לחלוקת הדף בעת קריאתו. המשמעותיות של קיום אלגוריתם כזה הן עצומות!
  • nouse_experimental_indyrank – שם של אלגוריתם חדש – מעניין מאד מהו…
  • use_experimental_spamscore - כנראה שזהו השם אותו גוגל נותנים למדד הסיכוי לכך שעמוד מסויים או אתר מסויים מכילים ספאם.

אלגוריתם חיפוש של ישראלי נקנה על-ידי גוגל?

יום שני, 10 באפריל 2006

אוריון הוא אלגוריתם חיפוש אותו פיתח ישראלי בשם אורי אלון בזמן לימודי הדוקטורט שלו באוניברסיטת ניו סאות' ווילס באוסטרליה. עתה חברת גוגל מאשרת כי אורי עובד כעת במרכז הפיתוח שלהם בארצות-הברית, וסביר כי הוא ממשיך בפיתוח אוריון שם. גוגל אינם מתייחסים לשאלה האם הטכנולוגיה אותה פיתח אורי נקנתה על-ידם מידי האוניברסיטה בה למד אורי או לא.

אלגוריתם אוריון מתמקד פחות בצד החיפוש ויותר בצד התצוגה של המידע הנאסף על ידי מנועי החיפוש. במקום להציג קטע קצרצר (snippet) מתוך כל תוצאת חיפוש כפי שעושים מנועי החיפוש כיום, אוריון מציג קטע נרחב יותר מתוך הדף הרלוונטי, ובנוסף מציג רשימת נושאים הקשורים אל הנושא עליו בוצע החיפוש. המחפש יכול עתה לבחור את המידע הרלוונטי בשבילו ביותר.

בתור דוגמא לצורת העבודה של האלגוריתם ניתן להשתמש בחיפוש פיג'ו 407. אוריון יציג קטעים מתוך דפים בהם מופיעות מילות המפתח פיג'ו 407, אך בנוסף יציג גם תוצאות בנושאים כמו קניית רכב חדש, קניית רכב יד שניה, ביקורות על רכבים, מוסכים, חלפים ועוד תכנים בנושאים הקשורים נושאית אל פיג'ו 407. על ידי בחירה של אחד מן הנושאים הקשורים, יכול המחפש לבחור את "הכיוון" של התוצאות אותו הוא מחפש, ובכך לשפר את איכות התוצאות. בחירת הכיוון הרצוי של התוצאות יאפשר להיפטר מתוצאות לא רלוונטיות במהירות, ולהתמקד בתוצאות המתאימות לגולש.

מרכיב חשוב באלגוריתם החיפוש אוריון הוא הבאה של המידע אל המשתמש, מבלי שהמשתמש יאלץ להיכנס אל האתרים השונים בכדי לקבל את המידע. הגלישה מבוצעת למעשה כמעט כולה בתוך מנוע החיפוש, והגולש יכנס רק לאתר הסופי.