מגרדת ידע בלי רשות: OpenAI השיקה GPTBot שסורק אתרי אינטרנט
לדברי החברה - שהביאה אל העולם את כלי ה-GenAI המופרסם ביותר, ChatGPT - הבוט פועל למען GPT ומשפר מודלים של בינה מלאכותית ● למה המהלך מטריד רבים והאם ניתן לחסום את הסורק?
על פי דיווחים אחרונים, OpenAI השיקה כעת GPTBot, אשר סורק אתרי אינטרנט (Web crawler) ולומד את תוכנם. המהלך זוכה לכותרות רבות עקב דאגות לזכויות היוצרים על התוכן שלהם, וכן משום חשש כללי מפני הידע האינסופי שצוברת הבינה המלאכותית בניצוחה של OpenAI עלינו ומאיתנו, וכל מה שנלווה למצב זה.
"דפי אינטרנט שנסרקו באמצעות ה-GPTBot עשויים לשמש לשיפור מודלים עתידיים והם מסוננים כדי להסיר מקורות הדורשים גישה לחומת תשלום, או הידועים כאוספים מידע המאפשר זיהוי אישי (PII), או מכילים טקסט שמפר את המדיניות שלנו", הרגיעה OpenAI את המוטרדים מהמהלך, בפוסט שהעלתה לאתר האינטרנט שלה.
מאידך פנתה החברה – שהביאה אל העולם את כלי הבינה היוצרת (GenAI) המופרסם ביותר, ChatGPT – למתעניינים ולחוששים והסבירה כי "מתן אפשרות ל-GPTBot לגשת לאתר שלכם יכול לעזור למודלים של AI להיות מדויקים יותר ולשפר את היכולות הכלליות והבטיחות שלהם".
סורקי אינטרנט אינם עניין חדש בעולמנו. הסורק הפעיל ביותר שאיש לא מתכחש לקיומו הוא כנראה ה-Googlebot של גוגל, אשר אוסף באופן אוטומטי מידע באינטרנט כך שמאוחר יותר הענקית ממאונטיין וויו תוכל לדרג ולהציג את הממצאים שלו בתוצאות החיפוש במנוע המפורסם שלה. בדיוק כמו הסורקים האחרים, GPTbot משמש כדי "לגרד" ולאסוף תוכן מקוון. במקה שלו הוא עושה זאת לשם אימון מודל הבינה המלאכותית המתקדמת של OpenAI, כשמודל השפה הגדול הבא, GPT-5, ככל הנראה יאומן על הנתונים שייאספו על ידי הבוט הזה.
GPT-4 ו-ChatGPT ומודלי שפה גדולים (LLMs) חזקים אחרים כבר מפגינים כיום יכולות לענות על שאילתות (וכן לקודד, לכתוב תוכן באינספור אופנים ועוד), ומיתרים את הצורך של משתמשים לחפש מענה בעצמם באתרים שבהם עלה המידע במקור. אלא שההישענות הנרחבת על החברה שמאחוריהם על מידע חינמי באיכות גבוהה באינטרנט – מעוררת ברבים תהיות וחוסר מנוחה.
נזכיר כי OpenAI נוסדה ב-2015 על ידי דמויות בולטות מעמק הסיליקון, ביניהן אילון מאסק, ריד הופמן ופיטר ת'יל כשבראשם המנכ"ל הנוכחי שלה, סם אלטמן. יחד, הם התחייבו להשקיע כל אחד מיליארד דולר בפרויקט, כשהחברה הוקמה כארגון ללא מטרות רווח בכדי לתת לכל אדם גישה ליכולות הבינה המלאכותית מתקדמת לכשיפותחו כאלו, אך לבסוף בשנת 2019 היא הפכה לחברה רגילה, ומאסק כידוע בכלל פרש ממנה מזמן וכבר עסוק עד צוואר בניסיונות להתחרות בה, ולהביא לעולם כלי AI שלטענתו יהיה אחראי ומוצלח בהרבה.
המודלים של OpenAI ישוכללו על חשבון בעלי האתרים והתוכן?
עקב הודאתה של OpenAI בהשקתו של הבוט הסורק, תהה אליסטר בר, בטור דעה שהתפרסם בביזנס אינסיידר: "מדוע שיצרן כלשהו של תוכן מקוון חינמי יאפשר ל- OpenAI לגרד את החומר שלו, כאשר נתונים אלה ישמשו להכשרת LLMs עתידיים, שמאוחר יותר יתחרו ביוצר זה על ידי משיכת משתמשים מהאתר שלו?". הוא המשיך וכתב ש-"אתם כבר יכולים לראות את זה בפעולה, מכיוון שפחות אנשים מבקרים ב-Stack Overflow (אתר שו"ת למפתחים – ג"פ) כדי לקבל עזרה בקידוד תוכנה".
You can now block ChatGPT from crawling your website.
Most people don’t block Google from crawling. Appearing in search results boosts traffic to your website.
Unfortunately, ChatGPT does not (often even if it’s asked to cite sources).
I expect a lot of people to block GPTBot. pic.twitter.com/35bhz5SKFS
— Mark Tenenholtz (@marktenenholtz) August 8, 2023
ונראה ש-בר הצליח לסכם את הבעיה הראשית של בעלי אתרים ויוצרי תוכן עם המהלך.
הסוגיה הגיעה בהרחבה לרשתות החברתיות, כשרבים ממליצים ליוצרי תוכן ובעלי אתרים לחסום את הסורק.
כך למשל, מארק טננהולץ, מהנדס מכונות שהפך למדען נתונים, מתריע בציוץ ב-X: "עכשיו אתם יכולים לחסום את ChatGPT מלסרוק את האתר שלכם. רוב האנשים לא חוסמים את גוגל מפני סריקה, כי הופעה בתוצאות החיפוש מגבירה את התנועה לאתר שלכם. למרבה הצער, ChatGPT לא עושה זאת (לעיתים קרובות גם אם הוא מתבקש לצטט מקורות). אני מצפה שהרבה אנשים יחסמו את GPTBot".
לציוץ הזה הוסיף טננהולץ צילום מסך מהפוסט המקורי של OpenAI ובו הסבר כיצד לחסום את הסורק.
משתמש בשם אנורג אגראוול צייץ וכתב: "הרבה הבטחות הובטחו על ידי OpenAI בנוגע לשקיפות, כאשר אלטמן היה סופר קולני לגבי נורמות ומדיניות עבור AI. עם זאת, המהלך הזה של OpenAI מספר סיפור אחר. הם יכלו בקלות לבקש מכל אתר לאפשר את התנועה של GPTBot, אבל הם לא עשו זאת, ועם GPT-5 ממש מעבר לפינה, אנחנו יודעים לאן הנתונים האלה יגיעו".
However, this move by OpenAI tells a different story. They could have easily asked each website to allow GPTBot’s movement, but they didn’t
And with GPT-5 just around the corner, we know where this data will go. pic.twitter.com/m4LxnVPXLR
— Anurag Agarwal (@Anurag_Creates) August 8, 2023
צייצנים רבים אחרים הפיצו את אותה קריאה ופרטים על אופן חסימת הבוט גם הם, בתוך הדגשה של כעסם על כך ש-OpenAI לא טרחה או טורחת לבקש מאתרים רשות ואישור למעשיה.
תגובות
(0)