Gervigreind er enn sjúk í að stilla hatursorðræðu í hóf

banani, felulitur

Fröken Tech | Getty, Unsplash



Þrátt fyrir allar nýlegar framfarir í gervigreindartækni á tungumáli glímir það enn við eitt af grunnforritunum. Í ný rannsókn , prófuðu vísindamenn fjögur af bestu gervigreindarkerfum til að greina hatursorðræðu og komust að því að þau öll áttu í erfiðleikum með að greina á milli eitraðra og saklausra setninga.

Niðurstöðurnar koma ekki á óvart - það er erfitt að búa til gervigreind sem skilur blæbrigði náttúrulegs tungumáls. En hvernig rannsakendur greindu vandamálið er mikilvægt. Þeir þróuðu 29 mismunandi próf sem miða að mismunandi þáttum hatursorðræðu til að ákvarða nákvæmlega hvar hvert kerfi bilar. Þetta gerir það auðveldara að skilja hvernig á að sigrast á veikleikum kerfisins og er nú þegar að hjálpa einni viðskiptaþjónustu að bæta gervigreind þess.





Höfundar rannsóknarinnar, undir forystu vísindamanna frá háskólanum í Oxford og Alan Turing Institute, tóku viðtöl við starfsmenn í 16 félagasamtökum sem vinna að hatri á netinu. Teymið notaði þessi viðtöl til að búa til flokkunarfræði 18 mismunandi tegunda hatursorðræðu, með áherslu á ensku og textabundinni hatursorðræðu, þar á meðal niðrandi orðræðu, niðrandi orðum og ógnandi orðbragði. Þeir bentu einnig á 11 óhatursfullar aðstæður sem oft koma gervigreindarstjórnendum í taugarnar á sér, þar á meðal notkun blótsyrða í saklausum fullyrðingum, rógburður sem hefur verið endurheimtur af því samfélagi sem stefnt er að og fordæmingar um hatur sem vitna í eða vísa í upprunalega hatursorðræðuna (þekkt sem counter ræðu).

prinsessa leia í lok fantur einn

Fyrir hvern hinna 29 mismunandi flokka handsmíðaðu þeir heilmikið af dæmum og notuðu sniðmátsetningar eins og ég hata [IDENTITY] eða Þú ert bara [SLUR] fyrir mér til að búa til sömu dæmasett fyrir sjö verndaða hópa – auðkenni sem eru lögverndað gegn mismunun samkvæmt bandarískum lögum. Þeir opinn uppspretta endanlegt gagnasett sem heitir HateCheck, sem inniheldur næstum 4.000 alls dæmi.

Rannsakendur prófuðu síðan tvær vinsælar viðskiptaþjónustur: Google Jigsaw Perspective API og tveir hattar SiftNinja . Bæði leyfa viðskiptavinum að tilkynna brot á efni í færslum eða athugasemdum. Sjónarhorn, sérstaklega, er notað af kerfum eins og Reddit og fréttastofum eins og The New York Times og Wall Street Journal. Það flaggar og forgangsraðar færslum og athugasemdum til skoðunar hjá mönnum á grundvelli mælikvarða þess á eiturhrifum.



Þó að SiftNinja hafi verið of mildur gagnvart hatursorðræðu, en ekki greint næstum öll afbrigði þess, var Perspective of erfitt. Það skaraði framúr í að greina flesta af 18 hatursfullum flokkum en flaggaði einnig flestum þeim sem ekki voru hatursfullir, eins og endurheimt rógburður og gagnræðu. Rannsakendur fundu sama mynstur þegar þeir prófuðu tvö akademísk líkön frá Google sem tákna einhverja bestu gervigreindartækni á tungumáli sem völ er á og munu líklega þjóna sem grunnur fyrir önnur efnisstjórnunarkerfi fyrir auglýsingar. Akademísku líkönin sýndu einnig misjafna frammistöðu milli verndaðra hópa - rangflokkun haturs sem beinist að sumum hópum oftar en öðrum.

Hvernig Facebook varð háður því að dreifa rangfærslum

AI reiknirit fyrirtækisins gaf því óseðjandi vana fyrir lygar og hatursorðræðu. Nú getur maðurinn sem smíðaði þær ekki lagað vandamálið.

Niðurstöðurnar benda á einn af erfiðustu þáttunum í greiningu á hatursorðræðu sem byggir á gervigreind í dag: Miðaðu of lítið og þér tekst ekki að leysa vandamálið; hóflega of mikið og þú gætir ritskoðað hvers konar tungumál sem jaðarsettir hópar nota til að styrkja og verja sig: Allt í einu værir þú að refsa einmitt þeim samfélögum sem oftast eru skotmörk haturs í fyrsta lagi, segir Paul Röttger, doktor. frambjóðandi við Oxford Internet Institute og meðhöfundur greinarinnar.

geimlyfta á mars

Lucy Vasserman, aðalhugbúnaðarverkfræðingur Jigsaw, segir Perspective sigrast á þessum takmörkunum með því að treysta á mannlega stjórnendur til að taka endanlega ákvörðun. En þetta ferli er ekki skalanlegt fyrir stærri palla. Jigsaw vinnur nú að því að þróa eiginleika sem myndi endurforgangsraða færslum og athugasemdum á grundvelli óvissu Perspective-fjarlægja sjálfkrafa efni sem það er viss um að sé hatursfullt og flagga efni á mörkum til manna.



Það sem er spennandi við nýju rannsóknina, segir hún, er að hún veitir fíngerða leið til að meta stöðu tækninnar. Margt af því sem er undirstrikað í þessari grein, eins og endurheimt orð eru áskorun fyrir þessar gerðir - það er eitthvað sem hefur verið þekkt í greininni en er mjög erfitt að mæla, segir hún. Jigsaw notar nú HateCheck til að skilja betur muninn á gerðum sínum og hvar þær þurfa að bæta sig.

Fræðimenn eru líka spenntir fyrir rannsókninni. Þessi grein gefur okkur gott og hreint úrræði til að meta iðnaðarkerfi, segir Maarten Sap, tungumálafræðingur við gervigreind við háskólann í Washington, sem gerir fyrirtækjum og notendum kleift að biðja um úrbætur.

Thomas Davidson, lektor í félagsfræði við Rutgers háskóla, er sammála því. Takmarkanir tungumálalíkana og sóðaskapur tungumálsins gera það að verkum að það verða alltaf málamiðlanir á milli van- og ofauðkenningar hatursorðræðu, segir hann. HateCheck gagnasafnið hjálpar til við að gera þessi málamiðlun sýnileg, bætir hann við.

fela sig