Modele wielkojęzykowe LLM (np. ChatGPT) to systemy sztucznej inteligencji, które coraz skuteczniej wspierają naukowców przy tworzeniu manuskryptów, recenzowaniu artykułów naukowych czy też przy składaniu wniosków o granty. Wydawcy eksperymentują z wykorzystaniem AI w procesach redagowania i szybkiego podsumowywania artykułów (1). W ankiecie przeprowadzonej przez czasopismo Nature, najpopularniejszym zastosowaniem AI było wykorzystanie go przez nieanglojęzycznych autorów przy publikowaniu prac naukowych (2,3). Naukowcy podkreślali także użyteczność ChatGPT w kodowaniu, podsumowywaniu danych naukowych innych naukowców, przyspieszaniu zadań administracyjnych, przyspieszaniu procesu pisania prac naukowych, generowaniu nowych hipotez oraz szybszym recenzowaniu prac naukowych. LLM mogą także przynosić korzyści recenzentom, dzięki wykonaniu szybszej i sprawniejszej poprawy komentarzy.
Wszystko to sprawia, że wydawcy pracują nad narzędziami, które wykrywałyby teksty wygenerowane przez LLM. Dotychczasowe narzędzia do wykrywania AI okazały się jak dotąd nieskuteczne. Aczkolwiek, naukowcy z Uniwersytetu w Kansas twierdzą, że ich narzędzie jest w stanie wykryć teksty wygenerowane przy pomocy AI w 99% przypadków (4). Z kolei twórcy komercyjnych LLM pracują nad oznakowaniem (ang. watermarking) wyników generowanych przez LLM, tak aby umożliwić ich łatwą identyfikację.
Należy pamiętać, że LLM nie są pozbawione wad. Wydawcy obawiają się, że zwiększone wykorzystanie LLM może prowadzić do wzrostu liczby niskiej jakości manuskryptów a także zagrażać uczciwości badań. Na chwilę obecną wykryto już przypadki, gdzie badacze używali ChatGPT do pisania artykułów, nie ujawniając tego przed ich przesłaniem do publikacji. Firmy zajmujące się tworzeniem i sprzedażą sfabrykowanych rękopisów (ang. „paper mills”) mogą zwiększyć swój zasięg stosując ChatGPT. Dlatego, wiele czasopism zaostrza zasady weryfikacji tożsamości autorów i ich autentyczności. EMBO komunikuje się z autorami posiadającymi skrzynki pocztowe związane z instytucjami naukowymi i przeprowadza spotkania z autorami i recenzentami za pośrednictwem wideokonferencji. Dostępne LLM mogą też przyczynić się do pogłębienia nierówności pomiędzy naukowcami z krajów biedniejszych a uprzemysłowionych. Obecnie LLM oferują darmowy dostęp do bazy danych. Jednak w przyszłości dostęp do LLM może stać się drogi (np., koszty przechowywania i obróbki danych). Tym samym naukowcy z krajów uprzemysłowionych będą posiadali przewagę nad naukowcami z biedniejszych krajów.
Przed wysłaniem pracy do wydawnictwa, autorzy, którzy używają LLM powinni:
- sprawdzić obecną politykę redakcyjną czasopisma. Na chwilę obecną 17% wydawców i aż 70% czasopism opracowało już wytyczne dotyczące wykorzystania AI, chociaż różnią się one pod względem sposobu wdrożenia. Wydawcy albo całkowicie zakazują stosowania LLM (np. „Science”, „American Association for the Advancement of Science”) lub proszą o ujawnienie czy tekst był generowany/edytowany przez AI (np. „Nature”).
- zachować oryginalną wersję manuskryptu. Czasopismo może poprosić autorów o wysłanie obu wersji pracy, przed i po obróbce z zastosowaniem LLM.
- poinformować czasopismo docelowe o korzystaniu z LLM. AI może przyczynić się do zwiększenia nierówności między nieanglojęzycznymi i anglojęzycznymi naukowcami (1). Detektory treści AI są stronnicze wobec autorów, dla których angielski nie jest językiem ojczystym. Wykrywacze często błędnie klasyfikują artykuły w języku angielskim napisane przez nieanglojęzycznych autorów jako generowane przez sztuczną inteligencję. Niedawno ujawniono alarmujące dane: ponad połowa tekstów napisanych po angielsku przez obcokrajowców została błędnie sklasyfikowana jako wygenerowana przez sztuczną inteligencję! Likwidacja błędów występujących w tych detektorach ma kluczowe znaczenie, aby zapobiec marginalizacji osób, dla których angielski nie jest językiem ojczystym.
- naukowcy, którzy wykonują recenzję manuskryptu muszą upewnić się, jaka jest polityka redakcyjna czasopisma a dokładnie kwestia poufności przy stosowaniu AI do reagowania recenzji. Firmy takie jak Elsevier, Taylor & Francis i IOP Publishing zabroniły naukowcom przesyłania manuskryptów i fragmentów tekstu na platformy AI w celu tworzenia recenzji, obawiając się, że prace mogą zostać ponownie wykorzystane do szkolenia sieci LLM i naruszać warunki zachowania poufności pracy. National Institutes of Health (USA) i Australian Research Council (Australia) zakazały korzystania z ChatGPT jak i innych narzędzi AI do tworzenia recenzji grantów naukowych ze względu na obawy dotyczące poufności. Jednym z rozwiązań może być skorzystanie z prywatnych LLM, co pozwala zachować pewność, że dane nie zostaną przekazane firmom udostępniających LLM w chmurze.
Przy edycji powyższego tekstu wykorzystano ChatGPT
- How ChatGPT and other AI tools could disrupt scientific publishing (nature.com)
- AI and science: what 1,600 researchers think (nature.com)
- The true cost of science’s language barrier for non-native English speakers (nature.com) Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools – PubMed (nih.gov)
- GPT detectors are biased against non-native English writers: Patterns (cell.com)