לעגאַל דאָאָמסדייַ פֿאַר גענעראַטיווע אַי טשאַטגפּט אויב געכאפט פּלאַגיאַריזינג אָדער ינפרינדזשינג, וואָרנז אַי עטיקס און אַי געזעץ

איז גענעראַטיוו אַי אַזאַ ווי ChatGPT ריפּינג אונדזער וועבסיטעס און מענטשלעך דיווייזד אינהאַלט? זיין אַווער, זיין … [+] יבערקערן, זיין גרייט.

getty

געבן קרעדיט ווו קרעדיט איז רעכט.

דאס איז א שטיקל חכמת חכמים, וואס דו ביסט אפשר אויפגעוואקסן צו גלייבן פעסט אין. טאקע, מען מיינט אדער פארשטעלט זיך אז מיר זאלן אלע עטוואס ריזיגע שטימען אז דאס איז א יושרדיקער און פארשטענדלעכער כלל אין לעבן. ווען עמעצער טוט עפּעס וואָס דאַרף דערקענטעניש, מאַכן זיכער אַז זיי באַקומען זייער דיזערווד דערקענונג.

די קאָנטראָריאַן מיינונג וואָלט ויסקומען פיל ווייניקער קאַמפּעלינג.

אויב עמעצער געגאנגען אַרום ינסיסטינג אַז קרעדיט זאָל טאָן זיין אנערקענט ווען קרעדיט איז רעכט, נו, איר קען באַשטעטיקן אַז אַזאַ אַ גלויבן איז אַנלייקלי און עפשער אַנדערכאַנדיד. מיר אָפט געפֿינען זיך וואָקיפעראַסלי אויפגערודערט ווען קרעדיט איז טשיטיד פון עמעצער וואָס האט דערגרייכט עפּעס נאָוטאַבאַל. איך אַרויספאָדערן צו זאָגן אַז מיר ספּעציעל דיספייווער ווען אנדערע פאַלש קרעדיט פֿאַר די אַרבעט פון אנדערע. דאָס איז אַ ומזעיק טאָפּל-וואַמי. דער מענטש וואָס זאָל האָבן באַקומען די קרעדיט איז געלייקנט זייער מאָמענט אין דער זון. אין אַדישאַן, דער טריקסטער איז רילישינג די פּרויעקטאָר כאָטש זיי ראָנגלי נאַרן אונדז צו מיסאַפּראָופּריייטינג אונדזער גינציק ליבשאַפט.

פארוואס אַלע די דיסקאָרס וועגן גאַרנערינג קרעדיט אין די רעכט מערסט פון וועגן און אַוווידינג די אומרעכט און ביטול וועגן?

ווייַל מיר ויסקומען צו זיין פייסינג אַ ענלעך פּראָבלעם ווען עס קומט צו די לעצטע אין אַרטיפיסיאַל ינטעלליגענסע (AI).

יאָ, קליימז זענען אַז דאָס איז געשעעניש דעמאַנסטרייטיד דורך אַ טיפּ פון אַי באקאנט ווי גענעראַטיווע אַי. עס איז אַ פּלאַץ פון כאַנדרינג אַז Generative AI, די האָטטעסט אַי אין די נייַעס די טעג, האט שוין גענומען קרעדיט פֿאַר וואָס עס טוט נישט פאַרדינען צו נעמען קרעדיט פֿאַר. און דאָס איז מסתּמא צו פאַרערגערן ווי דזשענעראַטיוו אַי ווערט ינקריסינגלי יקספּאַנדיד און יוטאַלייזד. מער און מער קרעדיט ימפּרוווז די דזשענעראַטיוו אַי, בשעת ליידער די וואָס רייך פאַרדינען דעם אמת קרעדיט זענען לינקס אין די שטויב.

מייַן פּראָפערעד וועג צו קריספּי דינאָוט דעם פּערפּאָרטיד דערשיינונג איז דורך צוויי סנאַזי קאַטשפראַסעס:

1) פּלאַגיאַט אין וואָג
2) קאַפּירייט ינפרינדזשמאַנט אין וואָג

איך יבערנעמען אַז איר קען זיין אַווער פון דזשענעראַטיוו אַי רעכט צו אַ וויידלי פאָלקס אַי אַפּ באקאנט ווי ChatGPT וואָס איז באפרייט אין נאוועמבער דורך OpenAI. איך וועל זאָגן מער וועגן גענעראַטיוו אַי און טשאַטגפּט מאָומאַנטערי. הענגען אין דאָרט.

לאמי ר גלײ ך גײ ן צ ו דע ר גרויםע ר פו ן װא ס מע ן באקומע ן מענש ס ציגן , כביכול .

עטלעכע האָבן בראַנדאַנטלי קאַמפּליינד אַז דזשענעראַטיוו אַי איז פּאַטענטשאַלי ריפּינג פון יומאַנז וואָס האָבן באשאפן אינהאַלט. איר זען, רובֿ דזשענעראַטיוו אַי אַפּפּס זענען דאַטן טריינד דורך ונטערזוכן דאַטן געפֿונען אויף דער אינטערנעץ. באַזירט אויף די דאַטן, די אַלגערידאַמז קענען האָנע אַ וואַסט ינערלעך מוסטער-מאַטרייטינג נעץ אין די אַי אַפּ וואָס קענען דערנאָך פּראָדוצירן אַ פּאָנעם נייַ אינהאַלט וואָס אַמייזינגלי קוקט ווי אויב עס איז געווען דיווייזד דורך מענטש האַנט אלא ווי אַ שטיק פון אָטאַמיישאַן

דעם מערקווירדיק פיט איז צו אַ גרויס מאָס רעכט צו נוצן פון אינטערנעט-סקאַנד אינהאַלט. אָן דעם באַנד און ריטשנאַס פון אינטערנעץ אינהאַלט ווי אַ מקור פֿאַר דאַטן טריינינג, די גענעראַטיווע אַי וואָלט זיין גאַנץ ליידיק און איז פון קליין אָדער קיין אינטערעס צו זיין געוויינט. מיט די אַי ונטערזוכן מיליאַנז אויף מיליאַנז פון אָנליין דאָקומענטן און טעקסט, צוזאַמען מיט אַלע די פֿאַרבונדן אינהאַלט, די מוסטער-מאַטטשינג איז ביסלעכווייַז דערייווד צו פּרובירן און נאָכקרימען מענטש-געשאפן אינהאַלט.

די מער אינהאַלט יגזאַמאַנד, די שאַנסן זענען אַז די מוסטער וואָס ריכטן זיך וועט זיין מער כייערד און באַקומען אפילו בעסער אין די מימיקרי, אַלע אַנדערש איז גלייַך.

דאָ איז די ביליאָן-דאָללאַר קשיא:

גרויס קשיא: אויב איר אָדער אנדערע האָבן אינהאַלט אויף דער אינטערנעץ אַז עטלעכע דזשענעראַטיוו אַי אַפּ איז געווען טריינד אויף, טאָן דאָס מאַשמאָעס אָן דיין דירעקט דערלויבעניש און טאָמער גאָר אָן דיין וויסיקייַט, זאָל איר זיין ענטייטאַלד צו אַ שטיק פון די פּיראָג וועגן וועלכער ווערט ערייזאַז פון אַז גענעראַטיווע אַי דאַטן טריינינג?

עטלעכע טענהן שטארק אַז דער בלויז געהעריק ענטפער איז יאָ, נאָוטאַבלי אַז די מענטשלעך אינהאַלט קריייטערז טאַקע פאַרדינען זייער שנייַדן פון די אַקציע. די זאַך איז, איר וואָלט זיין שווער-געדריקט צו געפֿינען ווער עס יז וואָס האט באַקומען זייער שיין טיילן, און ערגער נאָך, כּמעט קיין איינער האט באַקומען קיין טיילן. די אינטערנעץ אינהאַלט קריייטערז וואָס ינוואַלאַנטעראַלי און אומבאַקאַנט קאַנטריביוטיד זענען יסענשאַלי געלייקנט זייער רייטפאַל קרעדיט.

דאָס קען זיין קעראַקטערייזד ווי שרעקלעך און אַוטריידזשאַס. מיר האבן נאר דורכגעמאכט די פריק פון חכמת החכמים אז מען זאל געבן קרעדיט וואו מען דארף קרעדיט. אין דעם פאַל פון דזשענעראַטיוו אַי, משמעות ניט אַזוי. די לאַנג-שטייענדיק און ערלעך גראָבער פינגער הערשן וועגן קרעדיט מיינט צו זיין קאַלאַסלי ווייאַלייטיד.

וויי, דער ענטפער איז, איר זענט גאָר אָוווערסטייטינג און מיססטייטינג די סיטואַציע. זיכער, די גענעראַטיווע אַי האט דורכגעקאָכט אינהאַלט אויף דער אינטערנעץ. זיכער, דאָס איז געווען נוציק ווי אַ טייל פון די דאַטן טריינינג פון די דזשענעראַטיוו אַי. אַדמיטאַד, די ימפּרעסיוו דזשענעראַטיוו אַי אַפּפּס הייַנט וואָלט נישט זיין ווי ימפּרעסיוו אָן דעם באַטראַכט צוגאַנג. אָבער איר זענט צו ווייַט אַ בריק ווען איר האָט געזאָגט אַז די אינהאַלט קריייטערז זאָל זיין אַלאַטיד קיין באַזונדער סימבאַלאַנס פון קרעדיט.

די לאָגיק איז ווי גייט. מענטשן גיין אויס צו די אינטערנעט און לערנען זאכן פון די אינטערנעט, טאן אַזוי רוטין און אָן קיין טאַרעראַם פּער סיי. א מענטש וואָס לייענט בלאָגס וועגן גערער און דאַן וואַטשיז פריי בנימצא גערער-פיקסיר ווידיאס קען דער ווייַטער טאָג גיין אויס און באַקומען אַרבעט ווי אַ פּלאַמער. צי זיי דאַרפֿן צו געבן אַ טייל פון זייער גערער-פֿאַרבונדענע רימיטאַנס צו די בלאָגגער וואָס האָט געשריבן וועגן ווי צו פּלאַמינג אַ זינקען? צי זיי דאַרפֿן צו געבן אַ אָפּצאָל צו די וולאָגגער וואָס געמאכט די ווידעא שאָוקייסינג די סטעפּס צו פאַרריכטן אַ ליקי וואַנע?

כּמעט זיכער נישט.

די דאַטן טריינינג פון די גענעראַטיווע אַי איז בלויז אַ מיטל צו אַנטוויקלען פּאַטערנז. ווי לאַנג ווי די אַוטפּוץ פון גענעראַטיוו אַי זענען נישט בלויז רעגורגיטאַטיאָן פון פּונקט וואָס איז געווען יגזאַמאַנד, איר קען פּערסווייסיוו טענהן אַז זיי האָבן "געלערנט" און דעריבער זענען נישט אונטערטעניק צו געבן קיין ספּעציפיש קרעדיט צו קיין ספּעציפיש מקור. סיידן איר קענען כאַפּן די גענעראַטיוו אַי אין פּערפאָרמינג אַ פּינטלעך רעגורגיטאַטיאָן, די ינדיקאַטיאָנס זענען אַז די אַי האט דזשענעראַלייזד ווייַטער פון קיין באַזונדער מקור.

קיין קרעדיט איז נישט רעכט צו ווער עס יז. אָדער, איינער רעכן, איר קען זאָגן אַז קרעדיט גייט צו אַלעמען. דער קאָלעקטיוו טעקסט און אנדערע אינהאַלט פון מענטשהייַט וואָס איז געפֿונען אויף די אינטערנעט באַקומען די קרעדיט. מיר אַלע באַקומען די קרעדיט. פּרוּווט צו געפֿינען קרעדיט צו אַ באַזונדער מקור איז ומזיניק. זייט פריידיק אַז אַי איז אַוואַנסירטע און אַז מענטשהייַט אַלע געזאָגט וועט נוץ. די פּאָוסטינגז אויף דער אינטערנעץ זאָל פילן אַנערד אַז זיי קאַנטריביוטיד צו אַ צוקונפֿט פון אַדוואַנסיז אין אַי און ווי דאָס וועט העלפֿן מענטשהייַט פֿאַר אייביקייט.

איך וועל האָבן מער צו זאָגן וועגן ביידע פון די קאַנטראַסטינג מיינונגען.

דערווייַל, צי איר זיך צו די לאַגער וואָס זאגט אַז קרעדיט איז רעכט און שפּעט פֿאַר די וואָס האָבן וועבסיטעס אויף דער אינטערנעץ, אָדער טאָן איר געפֿינען אַז די אַפּאָוזינג זייַט וואָס זאגט אַז די קריייטערז פון אינטערנעט אינהאַלט זענען באשלאסן טאָן געטינג ריפּט אַוועק איז אַ מער קאַנסאַנטרייטאַד האַלטנ זיך?

אַן עניגמאַ און אַ רעטעניש אַלע צוזאַמען צוזאַמען.

לאמיר דאס אפנעמען.

אין הייַנט ס זייַל, איך וועל אַדרעס די אויסגעדריקט וועריז אַז דזשענעראַטיוו אַי איז יסענשאַלי פּלאַגיאַריזינג אָדער עפשער ינפרינדזשינג אויף די קאַפּירייץ פון אינהאַלט וואָס איז געווען אַרייַנגעשיקט אויף דער אינטערנעץ (גערעכנט ווי אַן אינטעלעקטואַל פאַרמאָג רעכט אָדער IP אַרויסגעבן). מיר וועלן קוקן אין די יקער פֿאַר די קראָומז. איך וועל טייל מאָל ריפערד צו ChatGPT בעשאַס דעם דיסקוסיע זינט עס איז די 600 פונט גערילאַ פון דזשענעראַטיוו אַי, כאָטש האַלטן אין זינען אַז עס זענען פילע אנדערע דזשענעראַטיוו אַי אַפּפּס און זיי בכלל זענען באזירט אויף די זעלבע קוילעלדיק פּרינסאַפּאַלז.

דערווייַל, איר קען זיין וואַנדערינג וואָס אין פאַקט דזשענעראַטיוו אַי איז.

זאל ס ערשטער דעקן די פאַנדאַמענטאַלז פון דזשענעראַטיוו אַי און דערנאָך מיר קענען נעמען אַ נאָענט קוק אין די דרינגלעך ענין אין האַנט.

אין אַלע דעם קומט אַ פּלאַץ פון אַי עטיקס און אַי געזעץ קאַנסידעריישאַנז.

ביטע זיין אַווער אַז עס זענען אָנגאָינג השתדלות צו אַרייַנציען עטישע אַי פּרינסאַפּאַלז אין דער אַנטוויקלונג און פיעלדינג פון אַי אַפּפּס. א גראָוינג קאַנטינדזשאַנט פון זארגן און אַמאָל אַי עטיקס זענען טריינג צו ענשור אַז השתדלות צו פּלאַן און אַדאַפּט אַי נעמט אין חשבון אַ מיינונג פון טאן אַי פֿאַר גוט און פאַרהיטן אַי פֿאַר שלעכט. פּונקט אַזוי, עס זענען פארגעלייגט נייַע אַי געזעצן וואָס זענען באַנדיד אַרום ווי פּאָטענציעל סאַלושאַנז צו האַלטן אַי השתדלות פון אַמאָק אויף מענטשנרעכט און די ווי. פֿאַר מיין אָנגאָינג און ברייט קאַווערידזש פון אַי עטיקס און אַי געזעץ, זען די לינק דאָ און די לינק דאָ, נאָר צו נאָמען אַ ביסל.

די אַנטוויקלונג און פּראָמולגיישאַן פון עטישע אַי פּראַפּאָוזאַלז זענען פּערסוד צו אַלעווייַ פאַרמיידן געזעלשאַפט צו פאַלן אין אַ מיריאַד פון אַי-ינדוסינג טראַפּס. פֿאַר מיין קאַווערידזש פון די יו.ען. יי עטיקס פּרינסאַפּאַלז ווי דיווייזד און געשטיצט דורך קימאַט 200 לענדער דורך די השתדלות פון יונעסקאָו, זען די לינק דאָ. אין אַ ענלעך וועג, נייַע אַי געזעצן זענען יקספּלאָרד צו פּרובירן צו האַלטן אַי אויף אַ גלייַך קיל. איינער פון די לעצטע נעמען באשטייט פון אַ סכום פון פארגעלייגט AI ביל פון רעכט וואָס די יו. עס. ווייסע הויז לעצטנס באפרייט צו ידענטיפיצירן מענטשנרעכט אין אַן עלטער פון אַי, זען די לינק דאָ. עס נעמט אַ דאָרף צו האַלטן AI און AI דעוועלאָפּערס אויף אַ רייטפאַל וועג און אָפאַלטן די צילגעווענדט אָדער אַקסאַדענטאַל אַנדערכאַנד השתדלות וואָס קען אַנדערקאַט געזעלשאַפט.

איך וועט ינטערוועאַווינג אַי עטיקס און אַי געזעץ פֿאַרבונדענע קאַנסידעריישאַנז אין דעם דיסקוסיע.

די יסודות פון גענעראַטיווע אַי

די מערסט באַוווסט בייַשפּיל פון דזשענעראַטיוו אַי איז רעפּריזענטיד דורך אַן אַי אַפּ גערופֿן ChatGPT. ChatGPT ספּרינג אין דעם ציבור באוווסטזיין צוריק אין נאוועמבער ווען עס איז באפרייט דורך די אַי פאָרשונג פירמע OpenAI. זינט ChatGPT האט גאַרנערד אַוצייזד כעדליינז און אַסטאַנישינגלי יקסיד די אַלאַטיד פופצן מינוט פון רום.

איך בין געסינג איר מיסטאָמע געהערט פון ChatGPT אָדער אפֿשר אפילו וויסן עמעצער וואָס האט געוויינט עס.

ChatGPT איז גערעכנט ווי אַ גענעראַטיוו אַי אַפּלאַקיישאַן ווייַל עס נעמט ווי אַרייַנשרייַב עטלעכע טעקסט פון אַ באַניצער און דעמאָלט generates אָדער טראגט אַ רעזולטאַט וואָס באשטייט פון אַן עסיי. די אַי איז אַ טעקסט-צו-טעקסט גענעראַטאָר, כאָטש איך באַשרייַבן די אַי ווי אַ טעקסט-צו-עסיי גענעראַטאָר זינט אַז מער קלעראַפייז וואָס עס איז קאַמאַנלי געניצט פֿאַר. איר קענען נוצן גענעראַטיוו אַי צו קאַמפּאָוז לאַנג חיבורים, אָדער איר קענען געבן עס גאַנץ קורץ פּיטי באַמערקונגען. דאָס אַלץ איז לויט דיין באַפעלן.

כל איר דאַרפֿן צו טאָן איז אַרייַן אַ פּינטלעך און די אַי אַפּ וועט דזשענערייט פֿאַר איר אַן עסיי וואָס פרווון צו ריספּאַנד צו דיין פּינטלעך. דער פארפאסט טעקסט וועט ויסקומען ווי די עסיי איז געווען געשריבן דורך די מענטש האַנט און מיינונג. אויב איר וואָלט אַרייַן אַ פּינטלעך וואָס האט געזאגט "דערציילט מיר וועגן אברהם לינקאָלן", די גענעראַטיווע אַי וועט צושטעלן איר אַן עסיי וועגן לינקאָלן. עס זענען אנדערע מאָדעס פון גענעראַטיוו אַי, אַזאַ ווי טעקסט-צו-קונסט און טעקסט-צו-ווידעא. איך וועט פאָקוס דאָ אויף די טעקסט-צו-טעקסט ווערייישאַן.

דיין ערשטער געדאַנק קען זיין אַז די דזשענעראַטיוו פיייקייט קען נישט ויסקומען ווי אַזאַ אַ גרויס האַנדלען אין טערמינען פון פּראָדוצירן מאמרים. איר קענען לייכט טאָן אַן אָנליין זוכן אויף דער אינטערנעץ און לייכט געפֿינען טאָנס און טאָנס פון מאמרים וועגן פרעזידענט לינקאָלן. די קיקער אין דעם פאַל פון גענעראַטיוו אַי איז אַז די דזשענערייטאַד עסיי איז לעפיערעך יינציק און גיט אַן אָריגינעל זאַץ אלא ווי אַ קאָפּיע. אויב איר וואָלט פּרובירן צו געפֿינען די אַי-געשאפן עסיי ערגעץ אָנליין, איר וואָלט זיין אַנלייקלי צו אַנטדעקן עס.

גענעראַטיווע אַי איז פאַר-טריינד און ניצט אַ קאָמפּלעקס מאַטאַמאַטיקאַל און קאַמפּיוטיישאַנאַל פאָרמיוליישאַן וואָס איז געגרינדעט דורך ונטערזוכן פּאַטערנז אין געשריבן ווערטער און מעשיות אויף די וועב. ווי אַ רעזולטאַט פון דורכקוקן טויזנטער און מיליאַנז פון געשריבן פּאַסידזשיז, די אַי קענען ספּייי אויס נייַע עסיי און מעשיות וואָס זענען אַ מישמאַש פון וואָס איז געפונען. דורך אַדינג אין פאַרשידן פּראָבאַביליסטיק פאַנגקשאַנאַליטי, די ריזאַלטינג טעקסט איז שיין יינציק אין פאַרגלייַך צו וואָס איז געניצט אין די טריינינג שטעלן.

עס זענען פילע קאַנסערנז וועגן גענעראַטיוו אַי.

איין קריטיש דאַונסייד איז אַז די מאמרים געשאפן דורך אַ דזשענעראַטיוו-באזירט אַי אַפּ קענען האָבן פאַרשידן פאָלסכודז עמבעדיד, אַרייַנגערעכנט מאַניפעסט אַנטרו פאקטן, פאקטן וואָס זענען מיסלידינגלי געשילדערט, און קלאָר פאקטן וואָס זענען לעגאַמרע פאַבריקייטיד. די פאַבריקייטיד אַספּעקץ זענען אָפט ריפערד צו ווי אַ פאָרעם פון אַי כאַלוסאַניישאַנז, אַ קאַטשפראַסע וואָס איך דיספייווער, אָבער לייענטלי סימז צו זיין גיינינג פאָלקס טראַקשאַן סייַ ווי סייַ (פֿאַר מיין דיטיילד דערקלערונג וועגן וואָס דאָס איז געמיין און ומפּאַסיק טערמינאָלאָגיע, זען מיין קאַווערידזש אין די לינק דאָ).

אן אנדער דייַגע איז אַז יומאַנז קענען לייכט נעמען קרעדיט פֿאַר אַ דזשענעראַטיוו אַי-געשאפן עסיי, כאָטש זיי האָבן נישט פארפאסט דעם עסיי זיך. איר קען האָבן געהערט אַז לערערס און שולן זענען גאַנץ זארגן וועגן די ימערדזשאַנס פון דזשענעראַטיוו אַי אַפּפּס. סטודענטן קענען פּאַטענטשאַלי נוצן גענעראַטיוו אַי צו שרייַבן זייער אַסיינד מאמרים. אויב אַ תּלמיד קליימז אַז אַן עסיי איז געווען געשריבן דורך זייער אייגן האַנט, עס איז קליין געלעגנהייַט אַז דער לערער קענען דערקענען צי עס איז געווען פאָרדזשד דורך דזשענעראַטיוו אַי. פֿאַר מיין אַנאַליסיס פון דעם קאַנפאַונדינג פאַסעט פון תּלמיד און לערער, זען מיין קאַווערידזש אין די לינק דאָ און די לינק דאָ.

עס זענען געווען עטלעכע אַוטסיזעד קליימז אויף געזעלשאַפטלעך מידיאַ וועגן גענעראַטיווע אַי באַשטעטיקן אַז די לעצטע ווערסיע פון AI איז אין פאַקט סענטיענט אַי (ניין, זיי זענען פאַלש!). יענע אין אַי עטיקס און אַי געזעץ זענען נאָוטאַבלי באַזאָרגט וועגן דעם בערדזשאַנינג גאַנג פון אַוצטרעטשט קליימז. איר קען בענימעס זאָגן אַז עטלעכע מענטשן אָוווערסטייטינג וואָס הייַנט ס אַי קענען אַקשלי טאָן. זיי יבערנעמען אַז אַי האט קייפּאַבילאַטיז וואָס מיר האָבן נישט נאָך קענען צו דערגרייכן. דאָס איז נעבעך. ערגער נאָך, זיי קענען לאָזן זיך און אנדערע צו באַקומען אין שווער סיטואַטיאָנס ווייַל פון אַ האַשאָרע אַז די אַי וועט זיין סענטיענט אָדער מענטש-ווי אין קענען צו נעמען קאַמף.

דו זאלסט נישט אַנטראַפּאָמאָרפיזע אַי.

טאן אַזוי וועט באַקומען איר געכאפט אין אַ קלעפּיק און טויגעוודיק צוטרוי טראַפּ פון דערוואַרטן די אַי צו טאָן טינגז וואָס עס איז ניט ביכולת צו דורכפירן. מיט דעם געזאָגט, די לעצטע אין דזשענעראַטיוו אַי איז לעפיערעך ימפּרעסיוו פֿאַר וואָס עס קענען טאָן. זיין אַווער אַז עס זענען באַטייטיק לימיטיישאַנז אַז איר זאָל קעסיידער האַלטן אין זינען ווען איר נוצן קיין דזשענעראַטיוו אַי אַפּ.

איין לעצט פאָרווארענונג פֿאַר איצט.

וואָס איר זען אָדער לייענען אין אַ דזשענעראַטיוו אַי ענטפער אַז מיינט צו זיין קאַנווייד ווי ריין פאַקטשואַל (דאַטעס, ערטער, מענטשן, אאז"ו ו), מאַכן זיכער צו בלייַבן סקעפּטיקאַל און זיין גרייט צו טאָפּל טשעק וואָס איר זען.

יאָ, דאַטעס קענען זיין קאַנקאַקטיד, ערטער קענען זיין געמאכט, און עלעמענטן וואָס מיר יוזשאַוואַלי דערוואַרטן צו זיין העכער טייַנע זענען אַלע אונטערטעניק צו חשד. דו זאלסט נישט גלויבן וואָס איר לייענען און האַלטן אַ סקעפּטיקאַל אויג ווען איר ונטערזוכן קיין גענעראַטיווע אַי מאמרים אָדער אַוטפּוץ. אויב אַ דזשענעראַטיוו אַי אַפּ דערציילט איר אַז אברהם לינקאָלן פלו אַרום די מדינה אין זיין פּריוואַט דזשעט, איר וואָלט בלי וויסן אַז דאָס איז מאַלאַרקי. צום באַדויערן, עטלעכע מענטשן קען נישט פאַרשטיין אַז דזשעץ זענען נישט אַרום אין זיין טאָג, אָדער זיי קען וויסן אָבער ניט צו באַמערקן אַז דער עסיי מאכט דעם כוצפּעדיק און אַוטריידזשאַסלי פאַלש פאָדערן.

א שטאַרק דאָזע פון געזונט סקעפּטיסיזאַם און אַ פּערסיסטענט מיינדסעט פון דיסבאַליוו וועט זיין דיין בעסטער אַסעט ווען ניצן דזשענעראַטיוו אַי.

מיר זענען גרייט צו גיין צו דער ווייַטער בינע פון דעם ילוסידיישאַן.

דער אינטערנעץ און גענעראַטיווע אַי זענען אין דעם צוזאַמען

איצט אַז איר האָבן אַ סימבאַלאַנס פון וואָס דזשענעראַטיוו אַי איז, מיר קענען ויספאָרשן די ומבאַקוועם קשיא צי דזשענעראַטיוו אַי איז פערלי אָדער ומיוישערדיק "לעווערידזשינג", אָדער עטלעכע וואָלט זאָגן בלייטאַנטלי exploiting אינטערנעט אינהאַלט.

דאָ זענען מיין פיר וויטאַל טעמעס פּערטינאַנט צו דעם ענין:

1) טאָפּל טראָובלע: פּלאַגיאַט און קאַפּירייט ינפרינדזשמאַנט
2) טריינג צו באַווייַזן פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט וועט זיין טריינג
3) מאַכן די פאַל פֿאַר פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט
4) לעגאַל לאַנדמינעס דערוואַרטן

איך וועל דעקן יעדער פון די וויכטיק טעמעס און פאָרשלאָגן ינסייטפאַל קאַנסידעריישאַנז וואָס מיר אַלע זאָל זיין מיינדפאַלי מילינג איבער. יעדער פון די טעמעס איז אַ ינטאַגראַל טייל פון אַ גרעסערע רעטעניש. איר קענט נישט קוקן אויף בלויז איין שטיק. איר קענט אויך נישט קוקן אויף קיין שטיק אפגעזונדערט פון די אנדערע שטיקלעך.

דאָס איז אַ ינטראַקאַט מאָסאַיק און די גאנצע רעטעניש מוזן זיין געגעבן געהעריק כאַרמאָוניאַס באַטראַכטונג.

טאָפּל טראָובלע: פּלאַגיאַט און קאַפּירייט ינפרינדזשמאַנט

די צווייפל קאָנפליקט מיט די וואָס מאַכן און פעלד דזשענעראַטיוו אַי איז אַז זייער סכוירע קען טאָן צוויי שלעכט טינגז:

1) פּלאַגיאַט. די גענעראַטיווע אַי קען זיין קאַנסטרוד ווי פּלאַגיאַט אינהאַלט וואָס איז עקסיסטירט אויף דער אינטערנעץ לויט דער אינטערנעץ סקאַנינג וואָס איז געווען בעשאַס דאַטן טריינינג פון די אַי.
2) קאַפּירייט ינפרינדזשמאַנט. די גענעראַטיווע אַי קען זיין קליימד ווי אונטערנעמונג קאַפּירייט ינפרינדזשמאַנט פֿאַרבונדן מיט די אינטערנעט אינהאַלט וואָס איז סקאַנד בעשאַס דאַטן טריינינג.

צו דערקלערן, עס איז פיל מער אינהאַלט אויף דער אינטערנעץ ווי איז אַקשלי סקאַנד פֿאַר די דאַטן טריינינג פון דזשענעראַטיוו אַי. בלויז אַ קליינטשיק בראָכצאָל פון די אינטערנעט איז יוזשאַוואַלי געוויינט. אזוי, מיר קענען מאַשמאָעס יבערנעמען אַז קיין אינהאַלט וואָס איז נישט סקאַנד בעשאַס דאַטן טריינינג האט קיין באַזונדער רינדערנס מיט דזשענעראַטיוו אַי.

דאָס איז אַ ביסל דאַבייטאַבאַל ווייַל איר קען פּאַטענטשאַלי ציען אַ שורה וואָס קאַנעקץ אנדערע אינהאַלט וואָס איז סקאַנד מיט די אינהאַלט וואָס איז נישט סקאַנד. אויך, אן אנדער וויכטיק פאַרהיטונג איז אַז אפילו אויב עס איז אינהאַלט וואָס איז נישט סקאַנד, עס קען נאָך זיין אַרגיוד ווי פּלאַגיעריז און / אָדער קאַפּירייט ינפרינדזשד אויב די אַוטפּוץ פון די גענעראַטיווע אַי קען לאַנד אויף דער זעלביקער ווערביידזש. מייַן פונט איז אַז עס איז אַ פּלאַץ פון סקווישינעסס אין אַלע דעם.

דנאָ שורה: גענעראַטיווע אַי איז רייף מיט פּאָטענציעל אַי עטישע און אַי געזעץ לעגאַל קאַנאַנדראַמז ווען עס קומט צו פּלאַגיאַט און קאַפּירייט ינפרינדזשמאַנט אַנדערפּינינג די פּריוויילינג דאַטן טריינינג פּראַקטיסיז.

ביז איצט, אַי מאַניאַפאַקטשערערז און אַי ריסערטשערז האָבן סקייטיד דורך דעם שיין פיל סקאָט-פריי, טראָץ די לומינג און פּריקעראַסלי דאַנגגינג שווערד וואָס כאַנגז אויבן זיי. בלויז אַ ביסל לאָסוץ האָבן שוין לאָנטשט קעגן די פּראַקטיסיז. איר קען האָבן געהערט אָדער געזען נייַעס אַרטיקלען וועגן אַזאַ לעגאַל אַקשאַנז. איינער, פֿאַר בייַשפּיל, ינוואַלווז די טעקסט-צו-בילד פירמס פון מידדזשאָורניי און סטאַביליטי אַי פֿאַר ינפרינדזשינג אויף קינסט אינהאַלט אַרייַנגעשיקט אויף דער אינטערנעץ. אן אנדער איינער ינקלודז טעקסט-צו-קאָד ינפרינדזשמאַנט קעגן GitHub, Microsoft און OpenAI רעכט צו דער Copilot ווייכווארג וואָס פּראָדוצירן אַי אַפּפּס. Getty Images האָט אויך געצילט צו גיין נאָך סטאַביליטי אַי פֿאַר טעקסט-צו-בילד ינפרינדזשמאַנט.

איר קענט דערוואַרטן אַז מער אַזאַ לאָסוץ וועט זיין פיילד.

רעכט איצט, עס איז אַ ביסל טשאַנסי צו קאַטער די לאָסוץ זינט די אַוטקאַם איז לעפיערעך אומבאַקאַנט. וועט דער פּלאַץ זייַט מיט די אַי מייקערז אָדער וועלן די וואָס גלויבן אַז זייער אינהאַלט איז ומיוישערדיק עקספּלויטאַד זיין די וויקטאָרס? א טייַער לעגאַל שלאַכט איז שטענדיק אַ ערנסט ענין. הוצאות פון די גרויס-וואָג לעגאַל קאָס מוזן זיין ווייד קעגן די גיכער פון ווינינג אָדער לוזינג.

די אַי מייקערז וואָלט ויסקומען צו האָבן כּמעט קיין ברירה אָבער צו שטעלן זיך אַ קאַמף. אויב זיי זענען צו הייל אין, אפילו אַ ביסל, די שאַנסן זענען אַז אַ מאַבל פון נאָך לאָסוץ וואָלט רעזולטאַט (יסענשאַלי, עפן די טיר צו כייטאַנד גיכער פון אנדערע פּריוויילינג אויך). אַמאָל עס איז לעגאַל בלוט אין די וואַסער, די רוען לעגאַל שאַרקס וועלן שווימען צו די געהאלטן "ליכט כעזשבן" און אַ טראַשינג און באַטערינג געלטיק בלאַדבאַד וואָלט שורלי פּאַסירן.

עטלעכע גלויבן אַז מיר זאָל פאָרן נייַע אַי געזעצן וואָס וואָלט באַשיצן די אַי מייקערז. דער שוץ קען אפילו זיין רעטראָאַקטיוו. דער יסוד פֿאַר דעם איז אַז אויב מיר ווילן צו זען גענעראַטיווע אַי אַדוואַנטידזשיז, מיר האָבן צו געבן די אַי מייקערז עטלעכע זיכער זאָנע סטאַרטפּאַס. אַמאָל לאָסוץ אָנהייבן צו כעזשבן וויקטאָריעס קעגן די אַי מאַניאַפאַקטשערערז, אויב דאָס אַקערז (מיר טאָן ניט וויסן נאָך), די זאָרג איז אַז דזשענעראַטיוו אַי וועט יוואַפּערייט ווייַל קיין איינער וועט זיין גרייט צו שטעלן קיין שטיצן צו די אַי פירמס.

ווי באַמערקט אין אַ פריש בלומבערג געזעץ שטיק ענטייטאַלד "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" דורך ד"ר Ilia Kolochenko און Gordon Platt, בלומבערג געזעץ, פעברואר 2023, דאָ זענען צוויי וויטאַל עקסערפּץ עקאָוינג די וויופּוינט:

"א העאַטעד דעבאַטע רייזאַז איצט צווישן יו. עס. לעגאַל געלערנטע און IP געזעץ פּראָפעססאָרס וועגן צי די אַנאָטערייזד סקרייפּינג און סאַבסאַקוואַנט נוצן פון קאַפּירייטיד דאַטן איז אַ קאַפּירייט ינפרינדזשמאַנט. אויב די מיינונג פון לעגאַל פּראַקטישנערז וואָס זען קאַפּירייט ווייאַליישאַנז אין אַזאַ פּראַקטיסיז פּריוויילז, ניצערס פון אַזאַ אַי סיסטעמען קען אויך זיין פאַראַנטוואָרטלעך פֿאַר צווייטיק ינפרינדזשמאַנט און פּאַטענטשאַלי פּנים לעגאַל ראַמאַפאַקיישאַנז.
"צו פאַרענדיקן דעם אַרויסרופן, לאָמייקערז זאָל באַטראַכטן ניט בלויז מאַדערנייזינג די יגזיסטינג קאַפּירייט געסעצ - געבונג, אָבער אויך ימפּלאַמענינג אַ סכום פון אַי-ספּעציפיש געזעצן און רעגיאַליישאַנז."

צוריקרופן אַז ווי אַ געזעלשאַפט מיר האָבן שטעלן אין פּלאַץ לעגאַל פּראַטעקשאַנז פֿאַר די יקספּאַנשאַן פון דער אינטערנעץ, ווי וויטנאַסט איצט דורך די העכסטע קאָורט ריוויוינג די באַרימט אָדער פאַרנאַנט סעקשאַן 230. אזוי, עס סימז אין סיבה און פּרעסידענט אַז מיר זאלן זיין גרייט צו טאָן עטלעכע ענלעך פּראַטעקשאַנז פֿאַר די העכערונג פון דזשענעראַטיוו אַי. טאָמער די פּראַטעקשאַנז קען זיין באַשטימט טעמפּערעראַלי, יקספּייערינג נאָך דזשענעראַטיוו אַי האט ריטשט עטלעכע פאַר-באשלאסן מדרגה פון באַהאַוונטקייַט. אנדערע שוץ פּראַוויזשאַנז קענען זיין דיזיינד.

איך וועט באַלד פּאָסטן מיין אַנאַליסיס פון ווי די העכסטע קאָורט אַסעסמאַנט און לעצט פּסאַק אויף סעקשאַן 230 קען ווירקן די אַדווענט פון דזשענעראַטיוו אַי. קוק פֿאַר דעם אַפּקאַמינג פּאָסטינג!

צוריק צו די שטרענג וואָיסט מיינונג אַז מיר זאָל געבן פּלאַץ פֿאַר די געזעלשאַפטלעך יירעס - האַקאָוועד-ינספּייערינג טעקנאַלאַדזשיקאַל כידעש באקאנט ווי גענעראַטיווע אַי. עטלעכע וואָלט זאָגן אַז אפילו אויב די קליימד קאַפּירייט ינפרינדזשמאַנט איז אָדער איז געשעעניש, די געזעלשאַפט ווי אַ גאַנץ זאָל זיין גרייט צו לאָזן דעם פֿאַר די ספּעציפיש צוועקן פון אַדוואַנסינג גענעראַטיוו אַי.

די האָפענונג איז אַז נייַע אַי געזעצן וואָלט זיין קערפאַלי קראַפטעד און טונד צו די דעטאַילס פֿאַרבונדן מיט דאַטן טריינינג פֿאַר דזשענעראַטיוו אַי.

עס זענען פילע קאַונטעראַרגומענץ צו דעם געדאַנק פון דיווייזינג נייַע אַי געזעצן פֿאַר דעם צוועק. איין דייַגע איז אַז אַזאַ נייַ אַי געזעץ וועט עפענען די פלאַדגאַטעס פֿאַר אַלע שטייגער פון קאַפּירייט ינפרינדזשמאַנט. מיר וועלן צעריסן דעם טאָג וואָס מיר האָבן דערלויבט אַזעלכע נייע אַי געזעצן צו לאַנד אויף די ביכער. ניט קיין ענין ווי שווער איר פּרובירן צו באַגרענעצן דעם צו בלויז אַי דאַטן טריינינג, אנדערע וועלן סנעאַקלי אָדער קלעווערלי געפֿינען לופּכאָולז וואָס וועט זיין אַ אַנפעטערד און ומגעצוימט קאַפּירייט ינפרינדזשמאַנט.

ארום און ארום גייען די טענות.

איין אַרגומענט וואָס טוט נישט דער הויפּט האַלטן וואַסער האט צו טאָן מיט טריינג צו סו די אַי זיך. נאָטיץ אַז איך האָבן ריפערד צו די אַי פאַבריקאַנט אָדער די אַי ריסערטשערז ווי די קלאַלאַבאַל סטייקכאָולדערז. דאס זענען מענטשן און קאָמפּאַניעס. עטלעכע פֿאָרשלאָגן אַז מיר זאָל ציל אַי ווי די פּאַרטיי צו זיין סוד. איך האָבן דיסקאַסט אין לענג אין מיין זייַל אַז מיר טאָן ניט נאָך אַטריביוט לעגאַל פּערזענלעכקייט צו אַי, זען די לינק דאָ פֿאַר בייַשפּיל, און אַזוי אַזאַ לאָסוץ אַימעד צו אַי פּער סיי וואָלט זיין געהאלטן ומזיניק רעכט איצט.

אלס א תוספתא צו דער פראגע פון וועמען אדער וואס מען דארף קלאגן, ברענגט דאס נאך א זאפטיגע טעמע.

יבערנעמען אַז אַ באַזונדער דזשענעראַטיוו אַי אַפּ איז דיזיינד דורך עטלעכע אַי פאַבריקאַנט וואָס מיר וועלן רופן די ווידגעט פֿירמע. ווידגעט פֿירמע איז לעפיערעך קליין אין גרייס און טוט נישט האָבן פיל רעוועך, אדער פיל אין די וועג פון אַסעץ. אויב זיי טענהן, וועט מיסטאָמע נישט באַקומען די גרויס עשירות אַז איינער קען זוכן. אין רובֿ, איר וואָלט נאָר האָבן די צופֿרידנקייט פון רעכט וואָס איר זע ווי פאַלש.

איר ווילן צו גיין נאָך די גרויס פיש.

דאָ ס ווי דאָס וועט פּאַסירן. אַן אַי-פאַבריקאַנט אַפּט צו מאַכן זייער גענעראַטיוו אַי בנימצא פֿאַר ביג צייט פֿירמע, אַ הויפּט קאַנגלאַמעראַט מיט טאָנס פון טייג און טאָנס פון אַסעץ. א פּראָצעס נאָמען די ווידזשיט פֿירמע וואָלט איצט האָבן אַ בעסער ציל אין מיינונג, ניימלי אויך דורך נאָמען ביג צייט פֿירמע. דאָס איז אַ דוד און גאָליאַט קאַמף וואָס אַדוואָקאַטז וואָלט דערפרייען. פון קורס, די ביג צייט פֿירמע וועט בלי פּרובירן צו וויגאַל אַוועק פון די פישערייַ קרוק. צי זיי קענען טאָן דאָס איז ווידער אַ לעגאַל קשיא וואָס איז ומזיכער, און זיי קען באַקומען כאָופּלאַסלי פאַרמישט אין די מאָק.

איידער מיר באַקומען פיל ווייַטער אויף דעם, איך וואָלט ווי צו באַקומען עפּעס קריטיש אויף דעם טיש וועגן די קאַנטיינד ינקראָוטשמאַנץ פון דזשענעראַטיוו אַי רעכט צו דאַטן טריינינג. איך בין זיכער אַז איר ינטויטיוולי פאַרשטיין אַז פּלאַגיאַט און קאַפּירייט ינפרינדזשמאַנט זענען צוויי עפּעס פאַרשידענע חיות. זיי האָבן פיל אין פּראָסט, כאָטש זיי אויך באטייטיק אַנדערש.

דאָ ס אַ האַנטיק סאַקסינקט באַשרייַבונג פון דוק אוניווערסיטעט וואָס דערקלערט די צוויי:

"פּלאַגיאַט איז בעסטער דיפיינד ווי די אַנאַקנאַלידזשד נוצן פון אן אנדער מענטש 'ס אַרבעט. עס איז אַן עטישע אַרויסגעבן מיט אַ פאָדערן פון קרעדיט פֿאַר אַרבעט וואָס די קלייאַנט האט נישט באשאפן. מען קען פּלאַגיירן עמעצער אַנדערש ס ווערק ראַגאַרדלאַס פון די קאַפּירייט סטאַטוס פון דעם ווערק. צום ביישפּיל, עס איז פונדעסטוועגן פּלאַגיאַט צו נאָכמאַכן פון אַ בוך אָדער אַרטיקל וואָס איז צו אַלט צו זיין אונטער קאַפּירייט. עס איז אויך פּלאַגיאַט צו נוצן דאַטן גענומען פון אַן אַנאַקנאַלידזשד מקור, אפילו כאָטש פאַקטיש מאַטעריאַל ווי דאַטן קען נישט זיין פּראָטעקטעד דורך קאַפּירייט. פּלאַגיאַט, אָבער, איז לייכט געהיילט - געהעריק ציטירן צו דער אָריגינעל מקור פון דעם מאַטעריאַל.
אויף די אנדערע האַנט, קאַפּירייט ינפרינדזשמאַנט איז די אַנאָטערייזד נוצן פון אן אנדער אַרבעט. דאָס איז אַ לעגאַל אַרויסגעבן וואָס דעפּענדס אויף צי די ווערק איז פּראָטעקטעד דורך קאַפּירייט אין דער ערשטער אָרט אָדער נישט, ווי געזונט ווי אויף ספּעסיפיקס ווי ווי פיל איז געניצט און דער ציל פון די נוצן. אויב מען קאפירט צו פיל פון א באשיצטע ווערק, אדער קאפיעס פאר אן אומאויטאריזירטן צוועק, וועט מען פשוט אנערקענען די אריגינעלע מקור וועט נישט לייזן דעם פראבלעם. בלויז דורך זוכן פריערדיק דערלויבעניש פון די קאַפּירייט האָלדער, מען ויסמיידן די ריזיקירן פון אַ ינפרינדזשמאַנט אָפּצאָל.

איך פונט אויס די וויכטיקייט פון די צוויי קאַנסערנז אַזוי אַז איר וועט פאַרשטיין אַז רעמאַדיז קענען זיין אַנדערש. אויך, זיי זענען ביידע ינקלודעד אין קאַנסידעריישאַנז פּערמיטינג אַי עטיקס און אַי געזעץ, וואָס מאכט זיי גלייַך ווערטיק צו ונטערזוכן.

זאל ס ויספאָרשן אַ קליימד סגולע אָדער לייזונג. איר וועט זען אַז עס קען העלפן איינער פון די טאָפּל קאָנפליקט ישוז, אָבער נישט די אנדערע.

עטלעכע האָבן ינסיסטאַד אַז אַלע די אַי מייקערז האָבן צו טאָן איז ציטירן זייער קוואלן. ווען גענעראַטיוו אַי טראגט אַן עסיי, נאָר אַרייַננעמען ספּעציפיש סייטיישאַנז פֿאַר וועלכער איז סטייטיד אין דעם עסיי. געבן פאַרשידן URL ס און אנדערע ינדיקאַטיאָנס פון וואָס אינטערנעט אינהאַלט איז געניצט. דאָס וואָלט ויסקומען צו באַקומען זיי פריי פון קלאַמז וועגן פּלאַגיאַט. דער רעזולטאַט עסיי וואָלט מאַשמאָעס קלאר ידענטיפיצירן וואָס קוואלן זענען געניצט פֿאַר די ווערדינג זייַענדיק געשאפן.

עס זענען עטלעכע קוואַבאַלז אין אַז קליימד לייזונג, אָבער אויף אַ 30,000-פֿיס מדרגה, לאָזן ס זאָגן אַז דאָס דינען ווי אַ האַלב-באַפרידיקנדיק היילן פֿאַר די פּלאַגיאַט דילעמאַ. ווי סטייטיד אויבן אין דער דערקלערונג פון קאַפּירייט ינפרינדזשמאַנט, די ציטירן פון מקור מאַטעריאַל טוט נישט דאַווקע באַקומען איר אויס פון די דאָגהאָוסע. אַסומינג אַז דער אינהאַלט איז קאַפּירייטיד, און דיפּענדינג אויף אנדערע סיבות אַזאַ ווי ווי פיל פון די מאַטעריאַל איז געניצט, די אַווייטינג שווערד פון קאַפּירייט ינפרינדזשמאַנט קענען מאַך אַראָפּ שארף און מיט פינאַליטי.

טאָפּל צרה איז דער וואָרצל דאָ.

טריינג צו באַווייַזן פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט וועט זיין טריינג

בּאווייז עס!

דאָס איז דער גוט-וואָרן רעפרען וואָס מיר אַלע האָבן געהערט אין פאַרשידענע צייט אין אונדזער לעבן.

איר וויסן ווי עס גייט. איר קען פאָדערן אַז עפּעס איז געשעעניש אָדער האט געטראפן. איר קען וויסן אין דיין האַרץ פון הערצער אַז דאָס איז פארגעקומען. אבער ווען עס קומט צו שטופּן קעגן שטופּן, איר מוזן האָבן די דערווייַז.

אין הייַנט ס שפּראַך, איר דאַרפֿן צו ווייַזן די ריסיץ, ווי זיי זאָגן.

מיין שאלה צו דיר איז דאס: ווי וועט מיר דעמאַנסטרייטיד באַווייַזן אַז דזשענעראַטיוו אַי האט ינאַפּראָופּרייטלי עקספּלויטאַד אינטערנעט אינהאַלט?

איינער רעכן אַז דער ענטפער זאָל זיין גרינג. איר פרעגן אָדער זאָגן די דזשענעראַטיוו אַי צו פּראָדוצירן אַ אָוטפּוטיד עסיי. דערנאָך איר נעמען דעם עסיי און פאַרגלייַכן עס צו וואָס קענען זיין געפֿונען אויף די אינטערנעט. אויב איר געפֿינען דעם עסיי, באַם, איר האָט די גענעראַטיוו אַי ניילד צו די פּראַווערביאַל וואַנט.

לעבן מיינט קיינמאָל צו זיין גאַנץ אַזוי גרינג.

ווייזן אַז מיר באַקומען דזשענעראַטיוו אַי צו פּראָדוצירן אַן עסיי וואָס כּולל וועגן 100 ווערטער. מיר גייען ארום און פרובירן צו דערגרייכן אלע עקן און עקן פונעם אינטערנעט, זוכן די 100 ווערטער. אויב מיר געפינען די 100 ווערטער, געוויזן אין דער זעלביקער פּינטלעך סדר און אַן יידעניקאַל מאָדע, מיר ויסקומען צו האָבן געכאפט זיך אַ הייס איינער.

רעכן כאָטש אַז מיר געפֿינען אויף די אינטערנעט אַ פּאָנעם "פאַרגלייַכלעך" עסיי כאָטש עס שוועבעלעך בלויז 80 פון די 100 ווערטער. דאָס מיינט נאָך גענוג, טאָמער. אבער ימאַדזשאַן אַז מיר געפֿינען בלויז אַ בייַשפּיל פון 10 ווערטער פון די 100 וואָס גלייַכן. איז דאָס גענוג צו קלערן אַז אָדער פּלאַגיאַט איז פארגעקומען אָדער אַז קאַפּירייט ינפרינדזשמאַנט איז פארגעקומען?

גרייקייט יגזיסץ.

טעקסט איז מאָדנע אַזוי.

פאַרגלייַכן דעם צו די טעקסט-צו-בילד אָדער טעקסט-צו-קונסט צושטאנדן. ווען גענעראַטיוו אַי גיט אַ טעקסט-צו-בילד אָדער טעקסט-צו-קונסט פיייקייט, איר אַרייַן אַ טעקסט פּינטלעך און די אַי אַפּ טראגט אַ בילד באזירט עפּעס אויף די פּינטלעך איר צוגעשטעלט. די בילד קען זיין ניט ענלעך קיין בילד וואָס איז געווען געזען אויף דעם אָדער קיין אנדערע פּלאַנעט.

אויף די אנדערע האַנט, די בילד קען זיין רעמאַניסאַנט פון אנדערע בילדער וואָס עקסיסטירן. מיר קענען קוקן אין די גענעראַטיוו אַי-פּראָדוצירט בילד און עפּעס דורך קישקע אינסטינקט זאָגן אַז עס זיכער קוקט ווי עטלעכע אנדערע בילד וואָס מיר האָבן געזען פריער. אין אַלגעמיין, די וויזשאַוואַל אַספּעקץ פון פאַרגלייַכן און קאַנטראַסט זענען אַ ביסל מער גרינג דורכגעקאָכט. ווי געזאָגט, ביטע וויסן אַז ריזיק לעגאַל דעבאַטעס ינשור וועגן וואָס קאַנסטאַטוץ די אָוווערלאַפּ אָדער רעפּלאַקיישאַן פון איין בילד פון אנדערן.

אן אנדער ענלעך סיטואַציע יגזיסץ מיט מוזיק. עס זענען דזשענעראַטיוו אַי אַפּפּס וואָס לאָזן איר אַרייַן אַ טעקסט פּינטלעך און דער רעזולטאַט געשאפן דורך די אַי איז אַודיאָ מוזיק. די טעקסט-צו-אַודיאָ אָדער טעקסט-צו-מוזיק אַי קייפּאַבילאַטיז זענען פּונקט איצט סטאַרטינג צו אַרויסקומען. איין זאַך איר קענען געוועט אויף דיין העכסטן דאָלאַר איז אַז די מוזיק געשאפן דורך דזשענעראַטיוו אַי וועט באַקומען זייער סקרוטאַנייזד פֿאַר ינפרינדזשמאַנט. מיר ויסקומען צו וויסן ווען מיר הערן מוזיקאַליש ינפרינדזשמאַנט, כאָטש דאָס איז ווידער אַ קאָמפּלעקס לעגאַל אַרויסגעבן וואָס איז ניט נאָר באזירט אויף ווי מיר פילן וועגן די באמערקט רעפּלאַקיישאַן.

לאָזן מיר נאָך אַ בייַשפּיל.

טעקסט-צו-קאָד גענעראַטיווע אַי גיט איר די פיייקייט צו אַרייַן אַ טעקסט פּינטלעך און די אַי וועט פּראָדוצירן פּראָגראַממינג קאָד פֿאַר איר. דערנאָך איר קענען נוצן דעם קאָד פֿאַר פּריפּערינג אַ קאָמפּיוטער פּראָגראַם. איר קען נוצן די קאָד פּונקט ווי דזשענערייטאַד, אָדער איר קען אַפּט צו רעדאַגירן און סטרויערן די קאָד צו דיין באדערפענישן. עס איז אויך אַ נויט צו מאַכן זיכער אַז די קאָד איז פיייק און ווערקאַבאַל, ווייַל עס איז מעגלעך אַז ערראָרס און פאָלסהאָאָדס קענען אויפשטיין אין די דזשענערייטאַד קאָד.

דיין ערשטער האַשאָרע קען זיין אַז פּראָגראַממינג קאָד איז ניט אַנדערש ווי טעקסט. עס איז נאָר טעקסט. זיכער, עס איז אַ טעקסט וואָס גיט אַ באַזונדער ציל, אָבער עס איז נאָך טעקסט.

נו, ניט פּונקט. רובֿ פּראָגראַממינג שפּראַכן האָבן אַ שטרענג פֿאָרמאַט און סטרוקטור צו די נאַטור פון די קאָדירונג סטייטמאַנץ פון דער שפּראַך. דאָס איז אין אַ זינען פיל שמאָלער ווי פריי-פלאָוינג נאַטירלעך שפּראַך. איר זענט אַ ביסל באַקסט אין ווי די קאָדירונג סטייטמאַנץ זענען פארמולירט. פּונקט אַזוי, די סיקוואַנס און וועג אין וואָס די סטייטמאַנץ זענען יוטאַלייזד און עריינדזשד זענען אַ ביסל באַקסט אין.

אַלע אין אַלע, די מעגלעכקייט צו ווייַזן אַז פּראָגראַממינג קאָד איז פּלאַגיערייזד אָדער ינפרינדזשד איז כּמעט גרינגער ווי נאַטירלעך שפּראַך אַלע געזאָגט. אזוי, ווען אַ גענעראַטיוו אַי גייט צו יבערקוקן פּראָגראַממינג קאָד אויף דער אינטערנעץ און שפּעטער דזשענערייץ פּראָגראַממינג קאָד, די גיכער פון אַרגיוינג אַז די קאָד איז בלייטאַנטלי רעפּליקייטיד וועט זיין לעפיערעך מער קאַנווינסינג. ניט אַ שלאַנג דונק, אַזוי דערוואַרטן ביטער שלאַכט אויף דעם.

מייַן אָווועראַרטשינג פונט איז אַז מיר וועלן האָבן די זעלבע אַי עטיקס און אַי געזעץ ישוז מיט אַלע מאָדעס פון דזשענעראַטיוו אַי.

פּלאַגיאַט און קאַפּירייט ינפרינדזשמאַנט וועט זיין פּראָבלעמאַטיק פֿאַר:

טעקסט-צו-טעקסט אָדער טעקסט-צו-עסיי
טעקסט-צו-בילד אָדער טעקסט-צו-קונסט
טעקסט צו אַודיאָ אָדער טעקסט צו מוזיק
טעקסט-צו-ווידעא
טעקסט-צו-קאָד
אאז"ו ו

זיי זענען אַלע אונטערטעניק צו די זעלבע קאַנסערנז. עטלעכע קען זיין אַ ביסל גרינגער צו "באַווייַזן" ווי אנדערע. אַלע פון זיי וועלן האָבן זייער אייגן פאַרשיידנקייַט פון נייטמערז פון אַ אַי עטיקס און אַי געזעץ גראַונדינג.

מאַכן די פאַל פֿאַר פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט

פֿאַר דיסקוסיע צוועקן, לאָזן אונדז פאָקוס אויף טעקסט-צו-טעקסט אָדער טעקסט-צו-עסיי גענעראַטיווע אַי. איך טאָן דאָס טייל ווייַל פון די ריזיק פּאָפּולאַריטעט פון ChatGPT, וואָס איז די טעקסט-צו-טעקסט טיפּ פון דזשענעראַטיוו אַי. עס זענען פילע מענטשן וואָס נוצן ChatGPT, צוזאַמען מיט פילע אנדערע וואָס נוצן פאַרשידן ענלעך טעקסט-צו-טעקסט דזשענעראַטיוו אַי אַפּפּס.

צי די מענטשן וואָס נוצן גענעראַטיווע אַי אַפּפּס וויסן אַז זיי זענען פּאַטענטשאַלי פאַרלאָזנ אויף פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט?

עס מיינט סאָפעקדיק אַז זיי טאָן.

איך וואָלט אַרויספאָדערן צו זאָגן אַז די פּריוויילינג האַשאָרע איז אַז אויב די דזשענעראַטיוו אַי אַפּ איז בארעכטיגט פֿאַר נוצן, דער אַי פאַבריקאַנט אָדער די פירמע וואָס האט פיילד די אַי מוזן וויסן אָדער זיין זיכער אַז עס איז גאָרנישט אומרעכט וועגן די סכוירע זיי פאָרשלאָגן פֿאַר נוצן. אויב איר קענען נוצן עס, עס מוזן זיין אויבן ברעט.

לאָמיר איבערחזרן מיין פריער באַמערקונג וועגן ווי מיר וועלן פּרובירן צו באַווייַזן אַז אַ באַזונדער דזשענעראַטיוו אַי איז ארבעטן אויף אַ פאַלש יקער וועגן די דאַטן טריינינג.

איך קען אויך לייגן אַז אויב מיר קענען כאַפּן איין דזשענעראַטיוו אַי טאן אַזוי, די גיכער פון נאַבינג די אנדערע זענען מסתּמא צו זיין ענכאַנסט. איך טאָן ניט זאָגן אַז אַלע דזשענעראַטיוו אַי אַפּפּס וואָלט זיין אין דער זעלביקער שיפל. אָבער זיי וועלן געפֿינען זיך אין גאַנץ האַרב ים אַמאָל איינער פון זיי איז פּינד צו די וואַנט.

דערפאר וועט אויך זיין אסאך ווערט צו האלטן אן אויג אויף די עקזיסטירנדע קלאגעס. דער ערשטער איינער וואָס ווינס וועגן די קליימד ינפרינדזשמאַנט, אויב דאָס אַקערז, וועט עפשער רעגע דום און ומעט פֿאַר די אנדערע דזשענעראַטיוו אַי אַפּפּס, סייַדן עטלעכע שמאָלקייט יסקייפּס די ברייטערער ישוז אין האַנט. די אָנעס וואָס פאַרלירן וועגן די קליימד ינפרינדזשמאַנט טאָן ניט דאַווקע מיינען אַז די גענעראַטיווע אַי אַפּפּס קענען קלינגען בעלז און פייַערן. עס קען זיין אַז די אָנווער איז אַטריביאַטאַד צו אנדערע סיבות וואָס זענען נישט ווי באַטייַטיק פֿאַר די אנדערע דזשענעראַטיוו אַי אַפּפּס, און אַזוי אויף.

איך האָב דערמאנט אַז אויב מיר נעמען אַ 100-וואָרט עסיי און פּרובירן צו געפֿינען די פּינטלעך ווערטער אין דער זעלביקער סיקוואַנס אויף דער אינטערנעץ, מיר קען האָבן אַ לעפיערעך האַרט פאַל פֿאַר פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט, אַלע אַנדערש איז גלייַך. אבער אויב די נומער פון ווערטער וואָס גלייַכן איז נידעריק, מיר וואָלט ויסקומען צו זיין אויף דין אייז.

איך וואָלט ווי צו גראָבן דיפּער אין דעם.

אַ קלאָר ווי דער טאָג אַספּעקט פון מאַכן אַ פאַרגלייַך באשטייט פון די פּינטלעך זעלביקער ווערטער אין די פּינטלעך זעלביקער סיקוואַנס. דאָס קען פּאַסירן פֿאַר גאַנץ פּאַסידזשיז. דאָס וואָלט זיין באַקוועם צו געפֿינען, כּמעט ווי צו זיין איבערגעגעבן צו אונדז אויף אַ זילבער טאַץ.

מיר קען אויך זיין סאַספּישאַס אויב בלויז אַ שטיק פון ווערטער מאַטשט. דער געדאַנק וואָלט זיין צו זען אויב זיי זענען קריטיש ווערטער אָדער פיללער ווערטער וואָס מיר קענען לייכט באַזייַטיקן אָדער איגנאָרירן. מיר אויך ווילן נישט זיין טריקט דורך די נוצן פון ווערטער אין זייער פאַרגאַנגענהייט אָדער צוקונפֿט געשפּאַנט, אָדער אן אנדער טאָמפאָאָלערי. די ווערייישאַנז אין ווערטער זאָל אויך זיין קאַנסידערד.

אן אנדער מדרגה פון פאַרגלייַך וואָלט זיין ווען די ווערטער זענען נישט דער הויפּט די זעלבע ווערטער אין אַ גרויס מאָס, אָבער די ווערטער אפילו אין אַ וועריד שטאַט נאָך ויסקומען צו מאַכן די זעלבע פונקטן. צום ביישפּיל, אַ קיצער וועט אָפט נוצן גאַנץ ענלעך ווערטער ווי אַן אָריגינעל מקור, אָבער מיר קענען דערקענען אַז דער קיצער איז באזירט אויף דער אָריגינעל מקור.

די שווערסטע מדרגה פון פאַרגלייַך וואָלט זיין באזירט אויף קאַנסעפּס אָדער געדאנקען. רעכן אַז מיר זען אַ עסיי וואָס טוט נישט האָבן די זעלבע אָדער ענלעך ווערטער ווי אַ פאַרגלייַך באַזע, אָבער די עסאַנס אָדער געדאנקען זענען די זעלבע. מיר זענען אַדמיטאַד צו עדזשאַז אין פּראָסט טעריטאָריע. אויב מיר זענען גרינג צו זאָגן אַז געדאנקען זענען ענג פּראָטעקטעד, מיר וואָלט שטעלן אַ דעקל אויף כּמעט אַלע פארמען פון וויסן און וויסן ינלאַרדזשמאַנט.

מיר קענען ווידער אָפּשיקן צו אַ האַנטיק דערקלערונג פון דוק אוניווערסיטעט:

קאַפּירייט באַשיצן נישט די געדאנקען, נאָר דער ספּעציפיש אויסדרוק פון אַ געדאַנק. צום ביישפיל, א געריכט האט באשלאסן אז דן בראון האט נישט אינפרענדירט דעם דרוקרעכט פון אן פריער בוך ווען ער האט געשריבן די דאַ ווינטשי קאָוד ווייַל אַלע ער באַראָוד פון די פריער אַרבעט זענען די גרונט געדאנקען, נישט די ספּעסיפיקס פון פּלאַנעווען אָדער דיאַלאָג. זינט קאַפּירייט איז בדעה צו מוטיקן שעפעריש פּראָדוקציע, ניצן עמעצער אַנדערש ס געדאנקען צו מאַכן אַ נייַע און אָריגינעל ווערק אַפּכאָולדז די ציל פון קאַפּירייט, עס טוט נישט אָנרירן עס. נאָר אויב איינער קאַפּיייץ דעם אנדערן ס אויסדרוק אָן דערלויבעניש איז פּאַטענטשאַלי ינפרינדזשד קאַפּירייט.
"צו ויסמיידן פּלאַגיאַט, אויף די אנדערע האַנט, מען מוזן אָנערקענען די מקור אפילו פון געדאנקען וואָס זענען באַראָוד פון עמעצער אַנדערש, ראַגאַרדלאַס פון צי דער אויסדרוק פון יענע געדאנקען איז באַראָוד מיט זיי. אזוי, אַ פּאַראַפראַז ריקווייערז ציטירן, כאָטש עס זעלטן רייזאַז קיין קאַפּירייט פּראָבלעם.

ביטע טאָן ווי פריער יידענאַפייד די דיפעראַנסיז צווישן די טאָפּל קאָנפליקט פאַסאַץ.

איצט, די פּראַקטיסיז פון די פאַרגלייַך אַפּראָוטשיז איז עפּעס וואָס איז פארגעקומען פֿאַר פילע יאָרן. טראַכטן פון עס דעם וועג. סטודענטן וואָס שרייַבן עסיי פֿאַר זייער שולע אַרבעט קען זיין געפרואווט צו כאַפּן אינהאַלט פון די אינטערנעט און פאַרהיטן אַז זיי מחבר די A-מיינונג פּוליטזער פרייז-ווינינג ווערטער.

לערערס האָבן שוין געניצט פּלאַגיאַט-קאָנטראָלירונג מגילה פֿאַר אַ לאַנג צייַט צו האַנדלען מיט דעם. א לערער נעמט אַ תּלמיד ס עסיי און פידז עס אין די פּלאַגיאַט טשעקער. אין עטלעכע פאלן, אַ גאַנץ שולע וועט דערלויבעניש די נוצן פון אַ פּלאַגיאַט קאָנטראָל פּראָגראַם. ווען סטודענטן ווענדן אַן עסיי, זיי מוזן ערשטער שיקן דעם עסיי צו די פּלאַגיאַט קאָנטראָל פּראָגראַם. דער לערער איז ינפאָרמד וועגן וואָס די פּראָגראַם ריפּאָרץ.

צום באַדויערן, איר מוזן זיין גאָר אָפּגעהיט וועגן וואָס די פּלאַגיאַט קאָנטראָל מגילה האָבן צו זאָגן. עס איז וויכטיק צו מיינדפאַלי אַססעסס צי די רעפּאָרטעד ינדיקאַטיאָנס זענען גילטיק. ווי שוין דערמאנט, די פיייקייט פון באַשטעטיקן צי אַ ווערק איז קאַפּיד קענען זיין כייז. אויב איר אָננעמען די אַוטקאַם פון די טשעק פּראָגראַם, איר קענען פאַלש באַשולדיקן אַ תּלמיד פון קאַפּיינג ווען זיי טאָן ניט טאָן דאָס. דאָס קען זיין אַ נשמה-קראַשינג.

ווייַטער, מיר קענען פּרובירן צו נוצן פּלאַגיאַט-קאָנטראָלירונג מגילה אין די מעלוכע פון טעסטינג גענעראַטיווע אַי אַוטפּוץ. באַהאַנדלען די פּראָדוקציע מאמרים פון אַ דזשענעראַטיוו אַי אַפּ ווי אויב עס איז געווען געשריבן דורך אַ תּלמיד. דערנאָך מיר מאָס וואָס די פּלאַגיאַט טשעקער זאגט. דאָס איז געטאן מיט אַ קערל פון זאַלץ.

עס איז אַ פריש פאָרשונג לערנען וואָס געפרוווט צו אַפּעריישאַנאַלייז די טייפּס פון קאַמפּעראַסאַנז אין דעם קאָנטעקסט פון דזשענעראַטיוו אַי אין דעם זייער מאָדע. איך וואָלט ווי צו גיין איבער עטלעכע טשיקאַווע פיינדינגז מיט איר.

ערשטער, עטלעכע צוגעלייגט הינטערגרונט איז פארלאנגט. גענעראַטיווע אַי איז מאל ריפערד צו ווי LLMs (גרויס שפּראַך מאָדעלס) אָדער פשוט LMs (שפּראַך מאָדעלס). צווייטנס, ChatGPT איז באזירט אויף אַ ווערסיע פון אנדערן OpenAI גענעראַטיווע אַי פּעקל גערופן GPT-3.5. איידער GPT-3.5, עס איז געווען GPT-3, און פריער איז געווען GPT-2. נאָוואַדייַס, GPT-2 איז גערעכנט ווי גאַנץ פּרימיטיוו אין פאַרגלייַך מיט די שפּעטער סעריע, און מיר אַלע ווארטן פֿאַר די אַפּקאַמינג אַנוויילד פון GPT-4, זען מיין דיסקוסיע ביי די לינק דאָ.

די פאָרשונג לערנען וואָס איך ווילן צו ויספאָרשן בעקיצער קאָנסיסטעד פון יגזאַמינינג GPT-2. דאָס איז וויכטיק צו פאַרשטיין זינט מיר זענען איצט ווייַטער פון די קייפּאַבילאַטיז פון GPT-2. דו זאלסט נישט מאַכן קיין ויסשיט קאַנקלוזשאַנז וועגן די רעזולטאַטן פון דעם אַנאַליסיס פון GPT-2. פונדעסטוועגן, מיר קענען לערנען אַ פּלאַץ פון די אַסעסמאַנט פון GPT-2. די לערנען איז ענטייטאַלד "צי שפּראַך מאָדעלס פּלאַגיאַריזע?" דורך Jooyoung Lee, Thai Le, Jinghui Chen און Dongwon Lee, אנטפלעקט אין די ACM WWW '23, מאי 1-5, 2023, Austin, TX, USA.

דאָס איז זייער הויפּט פאָרשונג קשיא:

"אין וואָס מאָס (ניט לימיטעד צו מעמאָריזאַטיאָן) נוצן LMs פראַסעס אָדער זאצן פון זייער טריינינג סאַמפּאַלז?"

זיי געוויינט די דריי לעוועלס אָדער קאַטעגאָריעס פון פּאָטענציעל פּלאַגיאַט:

"ווערבאַטים פּלאַגיאַט: פּינטלעך קאפיעס פון ווערטער אָדער פראַסעס אָן טראַנספאָרמאַציע."
"פּאַראַפראַז פּלאַגיאַט: סאַנאַנאַמאַס סאַבסטיטושאַן, וואָרט ריאָרדערינג און / אָדער צוריק איבערזעצונג."
"אידעע פּלאַגיאַט: פאַרטרעטונג פון האַרץ אינהאַלט אין אַן ילאָנגגייטאַד פאָרעם."

GPT-2 איז טאַקע טריינד אויף אינטערנעט דאַטן און אַזוי אַ פּאַסיק קאַנדידאַט פֿאַר דעם טיפּ פון אַנאַליסיס:

"GPT-2 איז פאַר-טריינד אויף וועבטעקסט, מיט איבער 8 מיליאָן דאָקומענטן ריטריווד פֿון 45 מיליאָן Reddit פֿאַרבינדונגען. זינט OpenAI האט נישט עפנטלעך באפרייט וועבטעקסט, מיר נוצן OpenWebText וואָס איז אַן אָפֿן-מקור פאַרווייַלונג פון די וועבטעקסט קאָרפּוס. עס איז פאַרלאָזלעך געוויינט דורך פריערדיק ליטעראַטור. ”

סעלעקטיוו שליסל פיינדינגז ווי עקסערפּט פון די לערנען צונויפשטעלנ זיך פון:

"מיר דיסקאַווערד אַז פאַר-טריינד GPT-2 פאַמיליעס טאָן פּלאַגיאַז פון די OpenWebText."
"אונדזער פיינדינגז ווייַזן אַז פיין-טונינג באטייטיק ראַדוסאַז ווערבאַטים פּלאַגיאַט קאַסעס פֿון OpenWebText."
"קאָנסיסטענט מיט Carlini et al. און Carlini עט על., מיר געפֿינען אַז גרעסערע GPT-2 מאָדעלס (גרויס און קסל) בכלל דזשענערייט פּלאַגיעריזעד סיקוואַנסיז מער אָפט ווי קלענערער אָנעס.
"אָבער, פאַרשידענע LMs קען באַווייַזן פאַרשידענע פּאַטערנז פון פּלאַגיאַט, און אַזוי אונדזער רעזולטאַטן קען נישט גלייך גענעראַליזירן צו אנדערע LMs, אַרייַנגערעכנט מער פריש LMs אַזאַ ווי GPT-3 אָדער BLOOM."
"אין דערצו, אָטאַמאַטיק פּלאַגיאַט דעטעקטאָרס זענען באקאנט צו האָבן פילע דורכפאַל מאָדעס (ביידע אין פאַלש נעגאַטיוועס און פאַלש פּאַזאַטיווז).
"געגעבן אַז אַ מערהייט פון LMs 'טריינינג דאַטן זענען סקריפּט פון די וועב אָן ינפאָרמינג אינהאַלט אָונערז, זייער ריטעריישאַן פון ווערטער, פראַסעס און אפילו האַרץ געדאנקען פון טריינינג שטעלט אין דזשענערייטאַד טעקסץ האט עטישע ימפּלאַקיישאַנז."

מיר באשטימט דאַרפֿן אַ פּלאַץ מער שטודיום פון דעם מין.

אויב איר זענט טשיקאַווע וועגן ווי GPT-2 קאַמפּערז צו GPT-3 וועגן דאַטן טריינינג, עס איז אַ גאַנץ קאַנטראַסט.

לויט רעפּאָרטעד ינדיקאַטיאָנס, די דאַטן טריינינג פֿאַר GPT-3 איז געווען פיל מער ברייט:

"דער מאָדעל איז טריינד מיט טעקסט דאַטאַבייסיז פון די אינטערנעט. דאָס ינקלודעד אַ וואַפּינג 570 גיגאבייט פון דאַטן באקומען פון ביכער, וועב טעקסטן, וויקיפּעדיע, אַרטיקלען און אנדערע שרייבן אויף דער אינטערנעץ. צו זיין אפילו מער פּינטלעך, 300 ביליאָן ווערטער זענען פאסטעכער אין די סיסטעם "(BBC Science Focus זשורנאַל, "ChatGPT: אַלץ איר דאַרפֿן צו וויסן וועגן OpenAI ס GPT-3 געצייַג" דורך Alex Hughes, פעברואר 2023).

פֿאַר יענע פון איר וואָס זענען אינטערעסירט אין מער טיף דיסקריפּשאַנז פון די דאַטן טריינינג פֿאַר GPT-3, דאָ איז אַן עקסערפּט פון דער באַאַמטער GPT-3 מאָדעל קאַרד אַרייַנגעשיקט אויף GitHub (לעצטע דערהייַנטיקט טאָג ליסטעד ווי סעפטעמבער 2020):

"די GPT-3 טריינינג דאַטאַסעט איז קאַמפּאָוזד פון טעקסט אַרייַנגעשיקט צו די אינטערנעט, אָדער פון טעקסט ופּלאָאַדעד צו די אינטערנעט (למשל, ביכער). די אינטערנעץ דאַטן וואָס עס איז געווען טריינד אויף און עוואַלואַטעד ביז אַהער, כולל: (1) אַ ווערסיע פון די CommonCrawl דאַטאַסעט, פילטערד באזירט אויף ענלעכקייט צו הויך-קוואַליטעט רעפֿערענץ קאָרפּאָראַ, (2) אַן יקספּאַנדיד ווערסיע פון די וועבטעקסט דאַטאַסעט, (3 ) צוויי אינטערנעץ-באזירט בוך קאָרפּאָראַז, און (4) ענגליש-שפּראַך וויקיפּעדיע.
"געגעבן זיין טריינינג דאַטן, די אַוטפּוץ און פאָרשטעלונג פון GPT-3 זענען מער רעפּריזענאַטיוו פון אינטערנעט-פארבונדן פּאַפּיאַליישאַנז ווי יענע מיט מינדלעך, ניט-דיגיטאַל קולטור. די אינטערנעט-פארבונדן באַפעלקערונג איז מער רעפּריזענאַטיוו פון דעוועלאָפּעד לענדער, רייַך, יינגער און זכר מיינונגען, און איז מערסטנס יו-סענטריק. רייַך פעלקער און פּאַפּיאַליישאַנז אין דעוועלאָפּעד לענדער ווייַזן העכער אינטערנעט דורכדרונג. די דיגיטאַל דזשענדער טיילן אויך ווייַזן ווייניקערע וואָמען רעפּריזענטיד אָנליין ווערלדווייד. אַדדיטיאָנאַללי, ווייַל פאַרשידענע טיילן פון דער וועלט האָבן פאַרשידענע לעוועלס פון אינטערנעט דורכדרונג און אַקסעס, די דאַטאַסעט אַנדעררעפּראַזענץ ווייניקער קאָננעקטעד קהילות.

איינער פון די אויבן אָנווייַז וועגן GPT-3 איז אַז אַ גראָבער פינגער צווישן די וואָס מאַכן דזשענעראַטיוו אַי איז אַז די מער אינטערנעט דאַטן איר קענען יבערקוקן, די שאַנסן צו פֿאַרבעסערן אָדער העכערן די דזשענעראַטיוו אַי.

איר קענען קוקן אין דעם אין איינער פון צוויי וועגן.

1) ימפּראָוועד אַי. מיר וועלן האָבן אַ גענעראַטיוו אַי וואָס קריכן איבער ווי פיל פון די אינטערנעט ווי מעגלעך. די יקסייטינג רעזולטאַט איז אַז די דזשענעראַטיוו אַי וועט זיין בעסער ווי עס איז שוין. דאָס איז עפּעס צו קוקן פאָרויס צו.
2) קאַפּיינג פּאָטענציעל גאַלאָר. די פארגרעסערונג פון סקאַנינג די אינטערנעט מאכט די פּלאַגיאַט און קאַפּירייט ינפרינדזשמאַנט פּאַטענטשאַלי ביגער און ביגער. כאָטש פריער עס זענען נישט ימפּאַקטיד ווי פילע אינהאַלט קריייטערז, די גרייס וועט בליען. אויב איר זענט אַן אַדוואָקאַט אויף די זייַט פון די אינהאַלט קריייטערז, דאָס ברענגט טרערן צו דיין אויגן (אפֿשר טרערן פון דיסמיי, אָדער טרערן פון פרייד אין וואָס פּראַספּעקס דאָס ברענגט אין טערמינען פון לאָסוץ).

איז דאָס גלאז האַלב-פול אָדער האַלב-ליידיק?

דו באשלוס.

לעגאַל לאַנדמינעס דערוואַרטן

א קשיא וואָס איר קען זיין מילינג איבער איז צי דיין פּאָסטעד אינטערנעט אינהאַלט איז גערעכנט ווי שיין שפּיל פֿאַר סקאַנד. אויב דיין אינהאַלט איז הינטער אַ פּייַוואַלל, מאַשמאָעס עס איז נישט אַ ציל פֿאַר סקאַנד ווייַל עס קענען ניט זיין גרינג ריטשט, דיפּענדינג אויף די שטאַרקייט פון די פּייוואַלל.

איך וואָלט טרעפן אַז רובֿ וואָכעדיק מענטשן טאָן ניט האָבן זייער אינהאַלט טאַקט אַוועק הינטער אַ פּייוואַלל. זיי ווילן זייער אינהאַלט צו זיין עפנטלעך בנימצא. זיי יבערנעמען אַז מענטשן וועלן נעמען אַ קוק בייַ אים.

צי דיין אינהאַלט איז עפנטלעך בארעכטיגט אויך אַקסיאָמאַטיקאַללי מיינען אַז איר אַפּרווו עס צו זיין סקאַנד פֿאַר נוצן דורך דזשענעראַטיוו אַי וואָס איז דאַטן טריינד?

אפֿשר יאָ, אפֿשר ניט.

דאָס איז איינער פון די לעגאַל ענינים.

אומקערן צו די פריער סייטאַד בלומבערג געזעץ אין דעם אַרטיקל, די מחברים דערמאָנען די וויכטיקייט פון די תּנאָים און קאָנדיטיאָנס (T&C) פֿאַרבונדן מיט פילע וועבסיטעס:

"די לעגאַל לאַנדמין - וואַסטלי איגנאָרירט דורך אַנוויטינג אַי קאָמפּאַניעס וואָס אַרבעטן אָנליין באָץ פֿאַר דאַטן סקרייפּינג - איז פאַרבאָרגן אין טערמינען און קאָנדיטיאָנס אָפט בנימצא אויף עפנטלעך וועבסיטעס פון אַלע טייפּס. אין קאַנטראַסט צו די איצט ומזעיק IP געזעץ און די קאַפּירייט ינפרינדזשמאַנט דילעמאַ, אַ וועבזייטל ס תּנאָים און קאָנדיטיאָנס זענען געשטיצט דורך געזונט-געגרינדעט קאָנטראַקט געזעץ און יוזשאַוואַלי קענען זיין ענפאָרסט אין הויף רילייינג אויף גענוג נומער פון פּרעסאַדענץ.

זיי אָנווייַזן אַז אויב דיין וועבזייטל האט אַ לייסאַנסינג-פֿאַרבונדענע בלאַט, די גיכער זענען אַז אויב איר געוויינט אַ סטאַנדערדייזד מאָדערן טעמפּלאַטע, עס קען אַנטהאַלטן אַ קריטיש פּונקט:

"דעריבער, רובֿ קעסל תּנאָים און קאָנדיטיאָנס פֿאַר וועבסיטעס - שעפעדיק בנימצא אין פריי אַקסעס - אַנטהאַלטן אַ פּונקט וואָס פאַרווערן אָטאַמייטיד דאַטן סקרייפּינג. יראָניקאַללי, אַזאַ פרילי בנימצא טעמפּלאַטעס זענען עפשער געניצט פֿאַר טשאַטגפּט טריינינג. דעריבער, אינהאַלט אָונערז זאל וועלן צו אָפּשאַצן זייער תּנאָים און קאָנדיטיאָנס און אַרייַנלייגן אַ באַזונדער פּונקט וואָס פלאַטלי פאַרווערן אַלע נוצן פון קיין אינהאַלט פון די וועבסיטעס פֿאַר אַי טריינינג אָדער קיין פֿאַרבונדענע צוועקן, צי געזאמלט מאַניואַלי אָדער אויטאָמאַטיש, אָן אַ פריערדיק געשריבן דערלויבעניש פון די וועבזייטל באַזיצער ."

אַן צוגעלייגט קיקער איז אַרייַנגערעכנט אין זייער אַנאַליסיס פון פּאָטענציעל אַקשאַנז פֿאַר אינהאַלט קריייטערז צו נעמען וועגן זייער וועבסיטעס:

"דעריבער, אַרייַנלייגן אַן ענפאָרסאַבאַל ליקווידייטיד דאַמידזשיז טנייַ פֿאַר יעדער הילעל פון די ניט-סקרייפּינג פּונקט, ימפּרוווד מיט אַ ינדזשעקשאַן-אָן-בונד טנייַ, קענען זיין אַ לייַטיש לייזונג פֿאַר די מחברים פון שעפעריש אינהאַלט וואָס זענען נישט שאַרף צו צושטעלן די פירות פון זייער אינטעלעקטואַל אַרבעט פֿאַר אַי טריינינג צוועקן אָן באַצאָלט פֿאַר עס אָדער, לפּחות, געגעבן אַ געהעריק קרעדיט פֿאַר זייער אַרבעט.

איר זאל וועלן צו באַראַטנ דיין אַדוואָקאַט וועגן דעם.

עטלעכע זאָגן אַז דאָס איז אַ וויטאַל וועג צו פּרובירן צו זאָגן די אַי מייקערז אַז אינהאַלט קריייטערז זענען זייער ערנסט וועגן פּראַטעקטינג זייער אינהאַלט. מאַכן זיכער אַז דיין לייסאַנסינג האט די געהעריק ווערדינג, וואָלט ויסקומען צו באַמערקן די אַי מייקערז.

אָבער אנדערע זענען אַ ביסל דאַונביט. זיי דידזשעקטאַדלי זאָגן אַז איר קענען גיינ ווייַטער צו שטעלן די האַרשאַסט און מערסט טויטלעך לעגאַל שפּראַך אויף דיין וועבזייטל, אָבער אין די סוף, די אַי מאַניאַפאַקטשערערז וועלן יבערקוקן עס. איר וועט ניט וויסן זיי האבן אַזוי. איר וועט האָבן אַ טייַוול פון אַ צייַט פּראָווען אַז זיי האבן. איר זענט אַנלייקלי צו אַנטדעקן אַז זייער אַוטפּוץ פאַרטראַכטן דיין אינהאַלט. עס איז אַ ופילל שלאַכט אַז איר וועט נישט געווינען.

די קאַונטעראַרגומענט איז אַז איר געבן די שלאַכט איידער עס איז געווען אפילו וויידזשד. אויב איר טאָן ניט בייַ מינדסטער האָבן גענוג לעגאַל שפּראַך, און אויב איר אלץ כאַפּן זיי, זיי וועלן וואַך און ווייזן זייער וועג צו אַנטלויפן קיין פֿאַראַנטוואָרטלעכקייט. אַלע ווייַל איר האָט נישט פּאָסטן די רעכט מין פון לעגאַל לינגאָ.

דערווייַל, אן אנדער צוגאַנג וואָס איז זוכט צו באַקומען טראַקשאַן וואָלט צונויפשטעלנ זיך פון מאַרקינג דיין וועבזייטל מיט עפּעס וואָס זאגט אַז די פּלאַץ איז נישט סקאַנד דורך דזשענעראַטיוו אַי. דער געדאַנק איז אַז אַ סטאַנדערדייזד מאַרקער וואָלט זיין דיווייזד. וועבסיטעס קען מאַשמאָעס לייגן די מאַרקער צו זייער פּלאַץ. אַי מאַניאַפאַקטשערערז וואָלט זיין געזאָגט אַז זיי זאָל טוישן זייער דאַטן סקאַנינג צו שפּרינגען איבער די אנגעצייכנט וועבסיטעס.

קען אַ מאַרקער צוגאַנג זיין מצליח? זארגן אַרייַננעמען די קאָס צו קריגן און פּאָסטן די מאַרקערס. צי די אַי מאַניאַפאַקטשערערז וועלן האַלטן די מאַרקערס און ענשור אַז זיי ויסמיידן סקאַנינג די אנגעצייכנט זייטלעך. אן אנדער פּערספּעקטיוו איז אַז אפילו אויב די אַי מאַניאַפאַקטשערערז טאָן ניט גיין מיט די מאַרקינגז, דאָס גיט אן אנדער וויכטיק קלו צו גיין צו פּלאַץ און אַרגיוינג אַז דער אינהאַלט באשעפער געגאנגען די לעצטע מייל צו פּרובירן און וואָרענען פון די אַי סקאַנינג.

ייקס, דאָס אַלץ מאכט דיין קאָפּ ומדריי.

סאָף

א ביסל לעצט רימאַרקס אויף דעם טאָרניי טעמע.

זענט איר גרייט פֿאַר אַ מיינונג-בענדינג פּערספּעקטיוו אויף דעם גאַנץ אַי ווי אַ פּלאַגיאַריזער און קאַפּירייט ינפרינדזשער דילעמאַ?

פיל פון די האַשאָרע וועגן "קאַטשינג" גענעראַטיווע אַי אין די אַקט פון פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט כינדזשיז אויף דיסקאַווערד אַוטפּוץ אַז זייער ענלעך פריער אַרבעט אַזאַ ווי אינהאַלט אויף דער אינטערנעץ וואָס איז פּאַטענטשאַלי סקאַנד בעשאַס דאַטן טריינינג.

רעכן כאָטש אַז אַ צעטיילונג-און-קאַנגקער פּלוי איז אין שפּיל דאָ.

דאָ ס וואָס איך מיינען.

אויב די גענעראַטיווע אַי באָראָוז אַ קליינטשיק ביסל פון דאָ און אַ ביסל פון דאָרט, לעסאָף מיקסינג זיי צוזאַמען אין פּראַדוסינג קיין באַזונדער רעזולטאַט, די גיכער פון קענען צו האָבן אַ גאָטטשאַ מאָמענט זענען זייער פאַרמינערט. קיין רעזולטאַט וועט ניט פּאָנעם העכערונג צו אַ גענוג שוועל אַז איר קען זאָגן פֿאַר זיכער אַז עס איז געווען קאַפּט פֿון איין באַזונדער מקור נומער. דער רעזולטאַט עסיי אָדער אנדערע פּראָדוקציע מאָדעס וועט בלויז פראַקשאַנאַלי זיין מאַטשטאַבאַל. און דורך די געוויינטלעך צוגאַנג פון טריינג צו טענהן אַז פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט איז פארגעקומען, איר יוזשאַוואַלי האָבן צו וויטרינע מער ווי עטלעכע קליין קליין ביסל איז אין שפּיל, ספּעציעל אויב די ביסן איז נישט אַ סטאַנדאַוט און קענען זיין געפֿונען וויידלי איבער די אינטערנעט (ונדערקוטטינג). קיין טויגן מאַסע פון דערווייַז פון מיסאַפּראָופּרייישאַן).

קענען איר נאָך פּערסווייסיוו דערקלערן אַז די דאַטן טריינינג דורך גענעראַטיוו אַי האט ריפּט אַוועק וועבסיטעס און אינהאַלט קריייטערז אפילו אויב די סאַגדזשעסטיד דערווייַז איז אַ כלומרשט וממאַטעריאַל פּראָפּאָרציע?

טראַכטן וועגן וואָס.

אויב מיר זענען פייסינג פּאַטענטשאַלי פּלאַגיאַט אין וואָג און קאַפּירייט ינפרינדזשמאַנט אין וואָג, מיר קען דאַרפֿן צו טוישן אונדזער צוגאַנג צו דעפינירן וואָס קאַנסטאַטוץ פּלאַגיאַט און / אָדער קאַפּירייט ינפרינדזשמאַנט. טאָמער עס איז אַ פאַל צו זיין געמאכט פֿאַר פּלאַגיאַט אָדער קאַפּירייט ינפרינדזשמאַנט אין די הויפּט אָדער אין די גרויס. א מאָסאַיק וואָס באשטייט פון טויזנטער אָדער מיליאַנז פון מינוסקיול סניפּאַץ קען זיין קאַנסטרוד ווי קאַמיטינג אַזאַ ווייאַליישאַנז. דער קלאָר צרה כאָטש איז אַז דאָס קען מאַכן אַלע שטייגער פון אינהאַלט פּלוצלינג קומען אונטער אַ שירעם פון בריטשיז. דאָס קען זיין אַ גליטשיק שיפּוע.

שווערע מחשבות.

גערעדט וועגן כעפטיק געדאנקען, לעאָ טאָלסטוי, דער לעדזשאַנדערי שרייַבער, באַרימט סטייטיד: "די איינציקע טייַטש פון לעבן איז צו דינען מענטשהייַט."

אויב דיין וועבזייטל און די וועבסיטעס פון אנדערע זענען סקאַנד פֿאַר די ימפּרוווינג אַי, און כאָטש איר באַקומען נישט אַ איין פּעני פֿאַר עס, קען איר האָבן אַ פייַערלעך טרייסט אין די פאַרברענט גלויבן אַז איר קאַנטריביוץ צו דער צוקונפֿט פון מענטשהייַט? עס מיינט אַ קליין פּרייַז צו באַצאָלן.

נו, סייַדן אַי טורנס אויס צו זיין די דרעדיד עקסיסטענטשאַל ריזיקירן וואָס ווישן אַלע יומאַנז פון עקזיסטענץ. דו זאלסט נישט נעמען קרעדיט פֿאַר דעם. איך יבערנעמען איר וואָלט פּונקט ווי באַלד נישט זיין קאַנטריביוטינג צו דעם שרעקלעך אַוטקאַם. אַחוץ די קאַלאַמייטאַס פאָרויסזאָגן, איר קען טראַכטן אַז אויב די אַי מאַניאַפאַקטשערערז מאַכן געלט פון זייער דזשענעראַטיוו אַי, און זיי ויסקומען צו זיין רילישינג די פּראַפיטערינג, איר זאָל אויך באַקומען אַ שטיק פון די פּיראָג. ייַנטיילן און טיילן ענלעך. די אַי מאַניאַפאַקטשערערז זאָל פרעגן פֿאַר דערלויבעניש צו יבערקוקן קיין וועבזייטל און דערנאָך אויך פאַרהאַנדלען אַ פּרייַז צו באַצאָלן פֿאַר די ערלויבעניש צו דורכפירן די יבערקוקן.

געבן קרעדיט ווו קרעדיט איז רעכט.

לאָמיר געבן סער וואַלטער סקאַט די לעצטע וואָרט פֿאַר איצט: "אָה, וואָס אַ טאַנגגאַלד וועב מיר וויוו. ווען ערשטער מיר פיר צו אָפּנאַרן. ”

דאָס קען זיין אַפּלייז אויב איר גלויבן אַז אָפּנאַר איז אָפענגיק, אָדער טאָמער נישט אַפּלייז אויב איר טראַכטן אַז אַלץ איז געזונט און בישליימעס גלייַך און לאַדזשיטאַמאַט. ביטע געבן זיך ברייטהאַרציק קרעדיט פֿאַר טראכטן דעם איבער. ס 'קומט דיר.

מקור: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- און-איי-געזעץ/