L’ús acrític de la màquina: la primera meitat del segle XX i l’actualitat
Des d’una reflexió que caldrà seguir detallant emmarcarem ara, breument, algunes de les conseqüències socials que es deriven de l’ús acrític i generalitzat de la màquina. Amb aquest objectiu considerarem un paral·lelisme que conté aspectes especialment interessants. Ens centrarem en l’anàlisi de l’impacte que deixa la tecnologia en dues etapes històriques concretes. Amb aquesta intenció descriurem, per una banda, els usos que durant l’acabament de la primera meitat del segle XX es van donar als mitjans de comunicació de masses. I en segon lloc les propietats que actualment s’atribueixen a la intel·ligència artificial.
La visió humana pot processar entre 10 o 12 imatges independents per segon. Quan es supera aquesta quantitat el cervell processarà moviment (1). A partir d’aquesta premissa es va prendre sentit investigar en el disseny d’un sistema de projecció de cel·luloide. Els assajos perseguien imitar aquell continuu temporal que el cervell genera quan gestiona la informació empírica.
En aquest àmbit de recerca, canviar la frame rate (FPS) utilitzada per a la projecció de cinema mut, d’entre 16 FPS i 24 FPS, esdevindrà una decisió que tindrà una rellevància important.
Fins a l’entrada del cinema sonor es donava corda a mà al projector. I aquesta taxa variava, contínuament, a mesura que el professional que projectava els fotogrames adaptava la velocitat de projecció a l’escena del film. De fet, per generar més expectació al film, les pel·lícules mudes eren generalment reproduïdes inclús a una major velocitat de la que originalment havien estat gravades. Aquesta velocitat, malgrat la seva aparença erràtica, era suficient per a garantir l’efecte de moviment en l’espectador.
L’oïda humana és més sensible als canvis en la freqüència de l’àudio que l’ull als canvis en la velocitat de reproducció d’imatges. Això explicaria que en el moment d’introduir el so en les pel·lícules es procurés evitar aquestes variacions en la velocitat provocades per la projecció manual, a fi de sincronitzar el so a l’escena que projecta pels fotogrames.
Un dels precursors va ser el sistema Phonofilm, del 1923, adoptat per Western Electric. Però no va ser fins a l’arribada de l’obturador mecànic que no es va aconseguir una imitació encertada de la percepció empírica que genera el cervell.
Així, l’experiència dels professionals en la projecció del cel·luloide constatava que per a pel·lícules sonores calia augmentar la frame rate i adaptar-la a la velocitat amb la que l’oïda percep el so. També des de l’experiència dels professionals de la projecció de films es sabia que la millor manera de superar l’elevat preu del cel·luloide justificava utilitzar un estàndard de 24 FPS, suficient per a garantir una imitació encertada del cervell en el processament de la informació.
Adoptant aquesta velocitat en la frame rate, els professionals del cinema van poder conferir a la projecció del film l’aparença de realitat. Però aleshores es va comprovar que la velocitat en la projecció del cel·luloide generava una interferència sonora quan colpejava i deixava un efecte desagradable en la projecció. Sorgia aleshores un nou problema, que es va resoldre amb uns obturadors mecànics.
Proporcionant més fluidesa en la circulació del cel·luloide, al mateix temps els obturadors mecànics tapaven breument la llum, generant un fotograma negre fins a passar així al següent fotograma i tornar a projectar la imatge.
Així, amb els 24 FPS i la intermitència dels obturadors s’obtenien 48 o 72 impulsos o flash, imitant amb molta més eficàcia el temps que utilitza el sistema nerviós central per convertir els impulsos nerviosos visuals en el continuu temporal que ordena la realitat empírica.
L’evolució del cinema sonor obriria un nou espai de comunicació quan en format domèstic es va poder transportar aquella mateixa pel·lícula en pantalles de televisió d’ús quotidià. S’aconseguiria així introduir aquella mateixa informació aparentment verídica, aquell continuo artificial de l’empíric, en les llars de la ciutadania.
El treball de professionals en el disseny d’aquell continuo de fotogrames capaços d’imitar l’aparença de l’empíric servirà per construir informació coherent, raonada, susceptible de ser real. Que el cervell de l’espectador integrarà i utilitzarà per a construir reflexió i pensament. S’influenciarà així clarament en la ideació i en la construcció dels possibles, de la potencial realitat. Una eina que tindrà socialment una repercussió cabdal per entendre la política del segle XX.
Des de la perspectiva que ens proporciona la distància podem raonar ara, per exemple, que el cervell de tota aquella ciutadania d’aquella etapa, majoritàriament construïa la seva Interfície Cognitiva des d’una experiència propera a la percepció d’arbres, de muntanyes, d’animals i de fenòmens de procedència natural. Podem per tant raonar que en aquella etapa eren poques les ocasions que permetien al ciutadà contactar amb la imatge. Potser les poques experiències amb la imatge es reduïen a potser alguna experiència amb els reflexos de l’aigua, amb algun mirall, amb alguna pintura o amb alguna imatge impresa en paper.
En contrast amb el bagatge que avui dia pot gaudir qualsevol ciutadà, en aquells anys la majoria ciutadana esdevenia doncs enormement vulnerable als nous mitjans de comunicació. La capacitat per descodificar el treball de disseny i projecció del missatge polític quedava ocult sota l’aspecte de realitat empírica ordinària. De manera que els fotogrames esdevenien inqüestionables quan mostraven a un líder polític parlant, per exemple, davant de milers de persones uniformades, en una immensa plaça emmarcada per un cel·luloide orientat expressament per potenciar l’escenografia de l’acte.
Ara sabem, un segle després, que darrere de les imatges que projecta la pantalla hi ha un equip de redactors que treballen amb una voluntat concreta, carregada d’una intencionalitat social i política específica o ordinària.
Podem doncs afirmar que en aquells anys la tecnologia va poder servir per a imposar tendències socials i polítiques. Vehiculant en una mateixa voluntat col·lectiva els ànims i els raonaments de milers de persones lliures per reflexionar una mateixa idea, evidentment determinada per la influència que aquella tecnologia deixava en la Interfície Cognitiva.
Com hem anunciat, considerem aquesta etapa per a establir un interessant paral·lelisme amb les propietats que actualment s’atribueixen a la intel·ligència artificial.
De la pantalla a la intel·ligència: el procés de simulació
Per descriure l’altre de les etapes històriques on localitzarem també aquest impacte que socialment deixa la tecnologia ens interessa comentar eines com DALL-E 2 o Midjourney, presentades en novembre i desembre de 2022.
Si bé fins ara, en el cas de la fotografia i del film, tractàvem d’imatges que des de la fotosensibilitat de diferents substàncies químiques s’obtenien sobre el cel·luloide per imitar l’empíric. Ara, aquesta nova tecnologia es confirma des de la fallida de l’empíric, demostrant-se capaç de generar imatges que no requereixen cap impressió lumínica prèvia. Des d’un nou procediment que s’ha acordat considerar artificial, es proposa poder obtenir imatges a partir, solament, de la computació de dades matemàtiques. Així, convertint el text en dades numèriques, s’ha aconseguit que uns suggeriments que qualsevol persona pot escriure en la pantalla, es puguin obtenir imatges d’una qualitat excel·lent. Per tan, aquestes eines permeten ja, actualment, que qualsevol persona pugui generar imatges a partir de text. Amb l’única facultat de saber escriure i sense necessitat de saber composar o formar una imatge.
Les possibilitats que aporten aquests tipus d’eines per a orientar les feines creatives són realment interessants i obren un espai d’investigació especialment innovador. Per a un creatiu la proposta és realment molt seductora i fascinant. Per això ens interessa tractar aquests tipus d’eines com una totalitat en sí, traspassant qualsevol dels límits propis de les diferents metodologies o formes d’expressió creatives.
La mateixa OpenAI, empresa que presenta DALL-E 2, fa uns dies ha mostrat un nou avenç en la integració social de la intel·ligència artificial llençat el novembre de 2022 el ChatGPT (Chat Generative Pre-trained Transformer). Un chatbot desenvolupat a partir de la família GPT-3 d’intel·ligència artificial amb llenguatge autoregressiu, model de predicció de llenguatge de tercera generació de la sèrie GPT-n.
La qualitat del text que pot generar GPT-3 demostra capacitats tant altes que esdevé difícil determinar si ha estat escrit o no per un interlocutor humà. Esdevenint aquests resultats un nou element des del que s’estimula la inquietud social que envolta actualment aquests tipus d’artefactes.
El mecanisme que cal raonar per entendre les funcions de la intel·ligència artificial és el mateix pels casos DALL-E 2 o ChatGPT.
Primerament, en un procés que es va anomenar generative pre-training (GP) (2), s’entrena l’algoritme en cada tasca concreta i amb un enorme corpus de text i conjunts de dades. A diferència d’altres projectes anteriors, amb aquest treball concret s’ha aconseguit limitar la necessitat de supervisió humana i d’etiquetatge manual. Permetent el disseny d’un aprenentatge automàtic amb una enorme quantitat de text i imatges.
El resultat va superar totes les expectatives i Microsoft, el febrer de 2020, presentava la seva Turing Natural Language Generation (T-NLG), amb 17.000 milions de paràmetres. El model de llenguatge més gran mai publicat abans. Funcionant millor que qualsevol altre model lingüístic anterior, en una varietat de tasques que incloïen resumir textos i respondre preguntes.
Així, a partir de les dades emmagatzemades i d’un entrenament previ, el ChatGPT contesta preguntes i desenvolupa converses en llenguatge natural i DALL-E 2 realitza imatges concretes amb una qualitat més que satisfactòria.
A partir d’aquestes darreres eines comentades, són molts els articles publicats on es debat i s’anuncia la capacitat de la màquina per a crear, imatges o reflexions, igual com ho pot fer un ésser humà. Considerem que just en aquest tema concret esdevé urgent debatre des d’un ciberhumanisme responsable i exigent, la coherència que serveix per atribuir aquestes facultats a la màquina.
Advertint, al mateix temps, un procés progressiu de privatització de la Interfície Cognitiva que el cervell utilitza per interpretar la informació que obté el sistema nerviós central. Culminant-se així un procés iniciat des de la influència que els mitjans de comunicació van deixar en la segona meitat del segle XX.
Per aportar reflexió a aquest debat, en primer lloc ens interessa destacar, un cop més, conversant amb el ChatGPT o raonant els mètodes que usa DALL-E 2 per obtenir imatges, que hom pot distingir una tendència irreversible i anunciada fa anys: la robòtica permetrà definir amb eficàcia les capacitats genuïnament humanes.
La humanitat davant la màquina
És a partir de l’existència d’aquestes eines quan sobresurt i destaca, de forma renovada i especialment precisa, la humanitat davant la màquina. Així com va saber exclamar Walt Whitman davant la càmera fotogràfica o Walter Benjamin davant els mitjans del segle XX. Hom pot comprovar les limitades capacitats que palesa el chatbot ChatGPT quan es mostra, per exemple, incapaç per anticipar les intencions del seu interlocutor. O la dificultat per empatitzar correctament a partir de l’estructura de les frases. O la incapacitat per orientar la conversació cap a una temàtica concreta, durant la narració amb el seu interlocutor.
Per altre banda, els resultats que proposa DALL-E 2 descriuen una tendència a l’obsolescència que actualment només poden ser superades des de les capacitats biològiques del cervell humà per generar Interfície Cognitiva.
Podem preveure, en un context ja molt proper, quan artefactes com aquests podran emmagatzemar tot el llenguatge simbòlic humà o tota l’escena del pensament visual humà o tota la capacitat de prospecció i de creació humana. Que de facto la creativitat, la capacitat d’improvisació, d’assaig davant la incògnita, esdevindrà un valor escàs en sí mateix. Innecessari davant les capacitats d’immediatesa de la màquina però urgent davant les necessitats d’adaptació biològica de la humanitat en el seu medi. Quasi extingit i propi d’espais socials aïllats o bé deliberadament autoexclosos, però enormement valuosos i imprescindibles.
En aquest escenari de futur no molt llunyà, la dificultat continuarà estan en la voluntat o no d’atribuir intel·ligència a una màquina. I en aquesta disposició per delegar la creació de llenguatge i en darrer terme d’atorgar intel·ligència, és on hi restarà, en definitiva, la capacitat per evitar la dominació i l’espai des d’on proporcionar llibertats i drets socials.
- Paul; Meyer, Mark-Paul; Gamma Group (2000). Restoration of motion picture film . Conservation and Museology. Butterworth-Heinemann. pp. 24-26. ISBN 0-7506-2793-X
- Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (June 11, 2018). “Improving Language Understanding by Generative Pre-Training” (PDF). p. 12. Retrieved July 31, 2020.