ארכיון הודעות השייכות לנושא 'אלגוריתמים'

חיפוש סמנטי וניתוח מילים נרדפות

יום חמישי, 21 בינואר 2010

סטיב בייקר, מהנדס בגוגל, פרסם לפני כמה ימים שגוגל השקיעו יותר מחמש שנות מחקר בחקר החיפוש הסמנטי והשימוש במילים נרדפות. תחום מחקר זה נובע מהנחת היסוד שהבנת מורכבות השפה, על גווניה השונים, עשויה לעזור לגוגל ליצור תוצאות חיפוש רלוונטיות יותר לשאילתות המשתמשים.

(המשך…)

סביבת הפיתוח של "קפאין" עולה לאוויר

יום שלישי, 10 בנובמבר 2009

סביבת הפיתוח של "קפאין", הגרסה החדשה של ארכיטקטורת מנוע החיפוש של גוגל, אשר הושקה לקהל הרחב כתצוגה מקדימה לפני כשלושה חודשים, עולה לאוויר!

(המשך…)

קישורי nofollow – לא טלאי אלא ספוג

יום שלישי, 16 ביוני 2009

טוב, קשה לי לומר שאני מופתע, אבל עכשיו זה רשמי. מאט קאטס מודיע באופן רישמי שגוגל לא מתייחס אל קישורי Nofollow כאילו היו טלאי אלא כאילו היו ספוג. המשמעות היא שאם יש בדף מסויים 12 יחידות link juice, ושלושה קישורים יוצאים, אז במידה ונשים nofollow על אחד הקישורים היוצאים, אז ה-Link juice לא יתחלק בין שני הקישורים הנותרים, אלא יתחלק בין שלושת הקישורים היוצאים. ההבדל הוא שהחלק שהלך אל הקישור עם ה-nofollow פשוט יתפוגג וילך לאיבוד (או בעצם ייספג אל תוך הספוג וישאר שם לעד…).

(המשך…)

הערך הזמני של קישור מול הערך האמיתי שלו

יום שני, 11 בפברואר 2008

בפוסט מעניין כותב ברנקו אודות נוסוי אותו הוא ערך, שנועד לבחון את האיכות של קישורים שונים אל אתרים אותם הוא מקדם. על פי הבדיקה אותה הוא ערך, כל קישור חדש שנוצר נותן דחיפה ראשונית לאתר אליו הוא מצביע, אך לאחר זמן מה חלק מן הדחיפה הזו נעלם, ונותר רק הערך האמיתי של הקישור.

בפוסט יש גרף שמדגים את הדחיפה אותה יצרו קישורים שונים עבור אתר מסויים, ואת התנהגות האתר בתוצאות החיפוש לאורך זמן.

ברנקו ניסה לעסוק בנושא הזה במהלך הפרזנטציה שלו בכנס ספינקון, אך מפאת קוצר הזמן נדמה לי שהנושא לא זכה לתשומת הלב הראויה לו, והפוסט יכול לתקן זאת.

שווה קריאה!

האם ה-pagerank באמת מת?

יום ראשון, 20 בינואר 2008

 

פעמים רבות שמעתי אנשים אומרים כי ה-pagerank מת, וכי אין לו יותר משמעות. גם אני לעיתים קרובות משתמש באמירה זו, אך חשוב לסייג אותה. ה-pagerank לא מת, ויש לו עדיין חשיבות עבור מקדמי אתרים.

כיום ל-pagerank של דף יש חשיבות בארבע רמות עיקריות:

  • בקביעת אילו דפים ייסרקו על ידי רובוט החיפוש של גוגל ואילו דפים לא ייסרקו.
  • בקביעת תדירות הסריקה של הדפים השונים על ידי הרובוט.
  • קביעת האזור בתוך מסד הנתונים של גוגל בו יאוחסנו הדפים (מה שהיה ידוע בעבר בתור ה-Supplemental Index).
  • בקביעת הסבירות שאתר מסויים יקבל TrustRank גבוה (זהו לא גורם בשיקולים של גוגל אלא בשיקולים של בעלי האתרים בעת ביצוע החלפות קישורים).

בקיצור – זה נכון שמדד ה-pagerank כבר אינו משפיע כמו בעבר על המיקומים של דף מסויים בתוצאות החיפוש, אך יכולה להיות לו השפעה על הופעתו של דף מסויים באינדקס בכלל, על רמת הרעננות של הסריקה של הדף, ועל אפשרות הכנסתו של הדף לאינדקס המשני (שגם אם גוגל אומרים כי הוא כיום כמעט זהה לאינדקס הראשי, אני עדיין איני משוכנע בכך).

נחשפו רמזים על האלגוריתם של גוגל

יום שבת, 15 ביולי 2006

גולש עירני הבחין לפני מספר ימים בתוספת מוזרה בעת שבדק את גירסת המטמון של האתר שלו בגוגל.מאז הגילוי גואות הספקולציות בנוגע למשמעות של הטקסט המוזר, ועל חשיבותו למי שמנסה לנתח את אלגוריתם החיפוש של גוגל.

מאט קאטס, מהנדס מגוגל, אישר כי מדובר במשהו אמיתי ולא במתיחה, אך אמר כי הוא לא יגיב על תוכן הטקסט, וכי גוגל נקטו בצעדים בכדי להבטיח כי הטקסט לא יופיע שנית.

התוספת עליה דיווח הגולש נראתה כך:

pacemaker-alarm-delay-in-ms-overall-sum 2341989
pacemaker-alarm-delay-in-ms-total-count 7776761
cpu-utilization 1.28
cpu-speed 2800000000
timedout-queries_total 14227
num-docinfo_total 10680907
avg-latency-ms_total 3545152552
num-docinfo_total 10680907
num-docinfo-disk_total 2200918
queries_total 1229799558
e_supplemental=150000 –pagerank_cutoff_decrease_per_round=100 –pagerank_cutoff_increase_per_round=500 –parents=12,13,14,15,16,17,18,19,20,21,22,23 –pass_country_to_leaves –phil_max_doc_activation=0.5 –port_base=32311 –production –rewrite_noncompositional_compounds –rpc_resolve_unreachable_servers –scale_prvec4_to_prvec –sections_to_retrieve=body+url+compactanchors –servlets=ascorer –supplemental_tier_section=body+url+compactanchors –threaded_logging –nouse_compressed_urls –use_domain_match –nouse_experimental_indyrank –use_experimental_spamscore –use_gwd –use_query_classifier –use_spamscore –using_borg

הנתונים המופיעים אינם מסבירים את עצמם, והניחושים לגבי המשתנים והחלקים השונים בטקסט רבים ושונים. כמה מן הנתונים המופיעים בטקסט מעניינים אותי באופן מיוחד:

  • pass_country_to_leaves - יתכן כי מדובר בכך שלכל דף מסויים מוגדרת מדינה מסויימת, והוא יכול להעביר את המדינה הזו אל הדפים אליהם הוא מקשר. האם מדובר כאן במעין אלגוריתם pagerank, המעביר "מדינה" מדף אל דף?
  • rewrite_noncompositional_compounds - מרמז על כך שגוגל מזהה צירופי מילים היוצרים ביטויים בעלי משמעות שונה מהמשמעות המקורית.
  • sections_to_retrieve=body+url+compactanchors - כנראה שמדובר באלגוריתם לחלוקת הדף בעת קריאתו. המשמעותיות של קיום אלגוריתם כזה הן עצומות!
  • nouse_experimental_indyrank – שם של אלגוריתם חדש – מעניין מאד מהו…
  • use_experimental_spamscore - כנראה שזהו השם אותו גוגל נותנים למדד הסיכוי לכך שעמוד מסויים או אתר מסויים מכילים ספאם.

אלגוריתם חיפוש של ישראלי נקנה על-ידי גוגל?

יום שני, 10 באפריל 2006

אוריון הוא אלגוריתם חיפוש אותו פיתח ישראלי בשם אורי אלון בזמן לימודי הדוקטורט שלו באוניברסיטת ניו סאות' ווילס באוסטרליה. עתה חברת גוגל מאשרת כי אורי עובד כעת במרכז הפיתוח שלהם בארצות-הברית, וסביר כי הוא ממשיך בפיתוח אוריון שם. גוגל אינם מתייחסים לשאלה האם הטכנולוגיה אותה פיתח אורי נקנתה על-ידם מידי האוניברסיטה בה למד אורי או לא.

אלגוריתם אוריון מתמקד פחות בצד החיפוש ויותר בצד התצוגה של המידע הנאסף על ידי מנועי החיפוש. במקום להציג קטע קצרצר (snippet) מתוך כל תוצאת חיפוש כפי שעושים מנועי החיפוש כיום, אוריון מציג קטע נרחב יותר מתוך הדף הרלוונטי, ובנוסף מציג רשימת נושאים הקשורים אל הנושא עליו בוצע החיפוש. המחפש יכול עתה לבחור את המידע הרלוונטי בשבילו ביותר.

בתור דוגמא לצורת העבודה של האלגוריתם ניתן להשתמש בחיפוש פיג'ו 407. אוריון יציג קטעים מתוך דפים בהם מופיעות מילות המפתח פיג'ו 407, אך בנוסף יציג גם תוצאות בנושאים כמו קניית רכב חדש, קניית רכב יד שניה, ביקורות על רכבים, מוסכים, חלפים ועוד תכנים בנושאים הקשורים נושאית אל פיג'ו 407. על ידי בחירה של אחד מן הנושאים הקשורים, יכול המחפש לבחור את "הכיוון" של התוצאות אותו הוא מחפש, ובכך לשפר את איכות התוצאות. בחירת הכיוון הרצוי של התוצאות יאפשר להיפטר מתוצאות לא רלוונטיות במהירות, ולהתמקד בתוצאות המתאימות לגולש.

מרכיב חשוב באלגוריתם החיפוש אוריון הוא הבאה של המידע אל המשתמש, מבלי שהמשתמש יאלץ להיכנס אל האתרים השונים בכדי לקבל את המידע. הגלישה מבוצעת למעשה כמעט כולה בתוך מנוע החיפוש, והגולש יכנס רק לאתר הסופי.

מהו ציטוט משותף (Co-Citation)?

יום שבת, 18 במרץ 2006

במאמר מעניין בבלוג שלו מספר Jim Boykin על מושג אותו כדאי להכיר – Co-Citation (בתרגום שלי – ציטוט משותף). ציטוט משותף הוא מדד לבדיקת מידת הדמיון בין שני אובייקטים (A ו-B). אם שני האובייקטים מצוטטים על ידי אובייקט שלישי (C), אז יתכן כי הם קשורים בינהם מבחינה נושאית, למרות שאובייקט A כלל אינו מקושר אל אובייקט B ישירות. ככל שיש יותר אובייקטים המצביעים אל שני האובייקטים (A ו-B), כך ההסתברות ש-A ו-B קשורים בינהם עולה.

לנושא זה יש השלכות קידום אתרים: נניח כי קיימים שני אתרים (A ו-B). אם אתרים רבים המקשרים אל אתר A מקשרים גם אל אתר B, אז ההסתברות היא גבוהה כי אתרים A ו-B קשורים נושאית בינהם, למרות שיתכן כי כלל לא יהיה קישור ישיר בין אתר A ל-B ולהיפך. במצב זה ניתן לומר כי אתרים A ו-B קשורים בינהם באמצעות ציטוט משותף.

הבעיה עם הנושא היא במיוחד במצבים של החלפת קישורים. לדוגמא: נניך כי אתר A החליף קישורים דרך רשת החלפת קישורים עם עוד 20 אתרים אחרים. אותם 20 אתרים החליפו קישורים עם אתר קזינו, פורנוגרפיה ואלכוהול (אתר B). לפי כללי הציטוט המשותף, משמעות הדבר היא כי אתר A (האתר שלך) ואתר B (אתר קזינו, פורנוגרפיה ואלכוהול) הם בעלי נושאים קרובים. אתר A נכנס למעשה אל אותה שכונה של אתר B, למרות שאין בינהם קישור ישיר – מצב העלול לגרור עמו בעיות רבות.

מן הצד השני, החלפת קישור עם אתר בו יש קישורים אל אתרים רבים אחרים באותו התחום בהחלט יכולה לחזק את הבטחון של מנועי החיפוש בתחום בו עוסק האתר. דוגמא לקישור מצויין כזה היא קישור מאינדקס כמו אינדקס דמוז.

רוצה לדעת מיהם האתרים אותם מגדיר גוגל בתור ציטוט משותף עם האתר שלך? פשוט מאד – כל מה שצריך לעשות הוא למצוא את האתר שלך בגוגל, וללחוץ על "דפים דומים". אפשר גם לבצע חיפוש רגיל בגוגל עם פקודת related:

related:www.seoisrael.co.il

Latent Semantic Indexing

יום ראשון, 06 בנובמבר 2005

אם אתם שואלים את עצמכם מה זה בדיוק Latent Semantic Indexing, אז הגיע הזמן שתכירו את המונח המעניין הזה.

Latent Semantic Indexing או כפי שהיא נקראת בקיצור LSI היא שיטה המאפשרת למנוע החיפוש לזהות את הנושא של דף אינטרנט מבלי להתייחס אל חיפוש זה או אחר אותו ביצע משתמש. אם ניקח דוגמא מעשית יותר, אתר העוסק בנושא הריון יכלול בתוכו באופן טבעי מילים כמו תינוק, לידה, בית חולים וכדומה.

שיטת LSI רואה בדף משהו מעבר לאוסף מילות מפתח סתמי. היא רואה בדף מכלול של מילים, שאם נאתר דפים אחרים ברשת בהם מופיעות מילים דומות, אז נמצא אתרים הדומים לדף הנבדק מבחינה נושאית. ככל ששני דפים מכילים יותר מילים משותפות, כך הדפים יהיו קרובים יותר מבחינה נושאית – ומכאן שדפים בהם אין מילים משותפות הם רחוקים מבחינה נושאית.

בשיטה החדשה, המערכת לא צריכה להבין את המילים עצמן, אלא רק את חוקיות הופעתן בשני טקסטים אותם היא משווה.

בצורה זו יכול מנוע החיפוש להוריד את ערכם של דפים בהם מופיעות מילות חיפוש מסויימות, שאינם כוללים תמיכה של מילים נוספות קשורות. או בדוגמא פרקטית יותר, דף הכולל את המילה לידה, מבלי לכלול מילים כמו הריון, צירים, תינוק, בית חולים, חדר לידה, וכדומה, כנראה שאינו עוסק באמת בנושא לידה של תינוק – אולי הוא עוסק בלידה של שיר או רעיון…

שיטה זו גם מאפשרת ניתוח של קישורים אל אתר. אם כל הקישורים אל אתר מסויים כוללים רק מונח חיפוש אחד, ולא כוללים מונחים קשורים, אז האתר יופיע נמוך יותר בתוצאות החיפוש. לכן, שימוש בקישורים מגוונים יכול להועיל מאד לאתר – לדוגמא: קידום אתרים, קידום אתר, שיווק באינטרנט, קידום בגוגל, וכדומה.

למעשה יש כאן שינוי משמעותי בדרך בה אנו מקדמים אתרים. אם עד היום היה נהוג להשתמש במונחי חיפוש נוקשים החוזרים על עצמם, הרי שכאן דווקא לשימוש במונחים קרובים (מילים נרדפות ונושאים קרובים) ישנה חשיבות רבה.

השאלה האחרונה שצריכה ליהשאל בנושא זה היא – האם השיטה כבר עובדת בעברית? הערכתי היא שעדיין לא כל-כך, אך אין זה אומר שהמצב ישאר כך. אולי עדכון ג'אגר יביא להגדלת המשקל אותו נותן גוגל לנושא זה גם בעברית.