Enseñar a los perros con el método clícker
Dr. Jesús Rosales-Ruiz,
Profesor asociado de la Universidad North Texas
Traducción ofrecida por www.edogtorial.com con autorización y revisión por su autor, Dr. Jesús Rosales-Ruiz.
El adiestramiento con clícker se ha convertido en sinónimo de moldeado. Karen Pryor, gracias a la publicación de su libro “No lo mates, enséñale”, atrajo la atención hacia el adiestramiento con clícker, y por eso, muchas personas utilizan el moldeado para enseñar a sus perros y otros animales. El moldeado es, por supuesto, una característica única del condicionamiento operante de Skinner que lo diferencia de otras teorías de aprendizaje de comportamiento que asumen que aprendemos por ensayo y error.
Las teorías de “ensayo y error, y el éxito accidental ” (Thorndike, 1898) describen el aprendizaje como un proceso lento que comienza con muchos errores que se eliminan a lo largo del tiempo. El comportamiento deseado se produce la primera vez en gran medida por casualidad, y entre los ensayos de comportamientos no deseados aparece gradualmente el comportamiento correcto. De acuerdo a Hull (1952), el aprendizaje por ensayo y error requiere numerosas repeticiones para disminuir las reacciones dominantes iniciales, especialmente si la respuesta deseada no se ofrece inicialmente. Los animales se supone que lo intentan una y otra vez, hasta que aciertan. La conducta correcta es recompensada y la incorrecta es extinguida (o castigada como por ejemplo en los métodos de recompensa y castigo, palos y zanahorias, etc.). La imagen del aprendizaje se muestra como una curva descendente en el número de errores o del tiempo necesario en los ensayos.
El comportamiento conseguido a través del ensayo y error se puede decir que fue moldeado por las consecuencias. Pero esto no es lo que Skinner entiende por moldeado. En opinión de Skinner, el aprendizaje por ensayo y error oscurece la posible contribución que el refuerzo diferencial podría hacer, y ofreció el condicionamiento operante como su alternativa.
” El Condicionamiento operante moldea un comportamiento como un escultor moldea un trozo de arcilla. Aunque en algún momento el escultor parece haber producido un objeto completamente nuevo, siempre podemos seguir el proceso de vuelta a la masa indiferenciada original, y podemos hacer las etapas sucesivas con las que podemos volver a este estado, tan pequeñas como queramos.”
Skinner, 1953, p. 91
La propuesta es más que un refinamiento de las contingencias del ensayo y error, sino que también lleva consigo una visión única del aprendizaje y una actitud hacia la enseñanza (Skinner, 1968), y que más tarde refinó Goldiamond en 1974) con el enfoque constructivo. En un esfuerzo por diferenciar el conductismo de Skinner de otros conductismos (o teóricos del aprendizaje y error), el campo se llama ahora análisis del comportamiento y sus miembros se llaman analistas del comportamiento en lugar de los conductistas. El enfoque está implícito en el entrenamiento con clícker y en este sentido sus practicantes son también analistas del comportamiento (que es por eso que a veces también se les llama conductistas operantes o Skinnerianos). A continuación podrás reconocer alguno de los métodos que usas con el clícker y tal vez darte cuenta de otros que no eras consciente de que estabas utilizando.
El moldeador
En el sistema de Skinner, el moldeador (investigador, profesor, instructor, entrenador, etc.) tiene un papel más activo. El entrenador hace algo más que crear el problema y ver cómo desaparecen los errores o cuánto tiempo tardan los estudiantes en aprender, si aprenden. En lugar de depender de los accidentes, el comportamiento se modifica sistemáticamente hacia el comportamiento correcto al cambiar las contingencias de refuerzo. Una contingencia de refuerzo es la relación entre la señal (Sd), el comportamiento y sus consecuencias. En palabras de Skinner ” La enseñanza es simplemente la disposición de las contingencias de refuerzo”. (1968, p .5). Aunque la idea de Skinner del moldeador rezuma a través de sus escritos quizá fue más incisivo en sus libros Walden II y La Tecnología de la Enseñanza. En el nivel más práctico, el entrenador debe aproximarse a las características de la máquina de enseñanza de Skinner.
El entrenador haría lo siguiente:
1 . Inducir actividad sostenida.
2 . Pedir al alumno que dé ese paso hacia el que actualmente está más preparado y más propenso a dar.
3 . Ayudar al estudiante a llegar a la respuesta correcta. Lo hace, en parte, a través de la construcción ordenada del programa y, en parte, con las técnicas de insinuar, provocar, sugerir, dependiendo todos ellos del análisis de la conducta.
4 . Reforzar cada respuesta correcta inmediatamente. Por ello, el clícker es tan importante.
Aprendizaje
Para Skinner, el término aprendizaje no tenía ninguna referencia útil y además interfería con la descripción directa de las relaciones entre el medio ambiente y el comportamiento. Decir que un alumno aprendió a nadar, dice muy poco acerca de la natación. El término también es peligroso porque está sesgado hacia el alumno. Aprender, rápidamente implica que es algo que le sucede a los alumnos y, naturalmente, el fracaso y el éxito, a su vez se atribuyen a las características del alumno, lo que da lugar a conceptos, como la inteligencia y el retraso. Esto no quiere decir que los genes, el cerebro y otras características físicas e históricas de los alumnos no sean importantes. Lo son, y como cualquier otra variable relacionada con el comportamiento, la relación necesita pruebas, y el fracaso en la enseñanza no constituye una prueba.
Como Sidman (1985) señala, en lugar de pensar en las curvas de aprendizaje sería más productivo pensar en ello como curvas de enseñanza. Es decir como la interacción del alumno, el profesor y el programa de enseñanza. Así, los alumnos que no aprenden, o aprenden lentamente con un programa determinado, pueden aprender rápidamente con otro programa, o un maestro diferente con el mismo programa. De hecho, si todas las variables relevantes son correctas, el aprendizaje sólo requiere un único refuerzo.
En los experimentos de Skinner el aprendizaje no tiene por qué ser un proceso gradual, continuo y lento, el aprendizaje puede ocurrir de forma abrupta de todo o nada o sin errores. En contraste con las curvas de aprendizaje de otros conductistas y cognitivistas, los gráficos de aprendizaje de Skinner (1938) mostraban una línea recta de respuestas correctas (es decir, presión de la palanca) y que a menudo un refuerzo era suficiente para aprender o como mucho unos pocos refuerzos. Las ratas aprendieron de su éxito. ¡No había ningún ensayo y error!
Debido a esto Skinner a veces se le llama teórico del aprendizaje de un solo intento en contraste con los teóricos del ensayo y error. El aprendizaje por un solo ensayo fue posible porque Skinner no dejó que las ratas aprendieran por sí mismas, les ayudó al controlar sistemáticamente las variables relevantes. En sus palabras, “Motivado por el énfasis de Pavlov sobre el control de las condiciones. Me aseguré de que todos los “errores” de Thorndike fueran eliminados antes de que pudiera obtenerse una respuesta exitosa.” (1987). Para enseñar a las ratas a presionar la palanca procedió de la siguiente manera:
En primer lugar, las ratas fueron introducidas en la caja de Skinner hasta que las ratas se movían sobre la caja sin signos de comportamiento emocional que puede ser producido por un entorno desconocido. (Se veían a gusto en la caja). Skinner se aseguró de que las ratas estaban familiarizadas con las bolitas de comida mediante la mezcla de las bolitas con la comida habitual de la rata (familiaridad). A continuación presentó la comida mediante la entrega de una bola de comida en la bandeja de la caja de Skinner. Esto se repitió hasta que el sonido del dispensador (que hace click) se convirtió en discriminativo para acercarse a la bandeja. Él dijo :
“Con el fin de obtener el máximo refuerzo de la primera respuesta a la palanca, la respuesta discriminativa al sonido del cargador (dispensador) debe estar bien establecida.”( 1938 , p . 66 )
” Si el poder del refuerzo no se consigue con anterioridad al sonido del dispensador mediante el establecimiento de una discriminación, un cierto intervalo de tiempo transcurrirá entre la respuesta y la estimulación de la comida, y la eficacia del refuerzo se verá gravemente reducida “.( p. 72 )
Una vez establecida la conducta de ir al comedero cuando el dispensador producía un sonido, se introdujo la palanca y se capturó el presionar la palanca usando el refuerzo.
Los profesores de clícker están familiarizados con el aprendizaje en un intento y la captura, y quizás te preguntes por qué Skinner no moldea el presionar una palanca reforzando movimientos (aproximaciones) relevantes hacia presionar una palanca. En 1938, estaba tal vez limitado por ser capaz operar el alimentador sólo por la acción de la palanca o de otras partes del aparato y por lo tanto, el moldeado fue hecho principalmente cambiando gradualmente el aparato y por captura. Aunque consciente de la importancia del sonido para el moldeado y la idea de aproximaciones, no fue hasta más tarde cuando fue capaz de hacer funcionar el alimentador con un interruptor manual que podía reforzar libremente las aproximaciones que ocurrían. Skinner recuerda:
“Fue sólo después, en el Proyecto Paloma, que [Skinner y los Breland] descubrimos cuánto más rápidamente podemos moldear un comportamiento complejo accionando un dispensador de comida con un interruptor manual”. (Skinner, 1989).
Sin embargo, en 1938 Skinner también fue capaz de enseñar a una discriminación luz- oscuridad sin errores.
Estas ideas fueron posteriormente enriquecidas por Terrace (1961) que, entre otras cosas, entrenó palomas a discriminar líneas verticales y horizontales, con muy pocos errores. Este enfoque se denomina “aprendizaje sin errores” o entrenamiento sin errores que influyó en el campo de la Instrucción Programada, Sistema de Instrucción Personalizado de Keller, Mathetics (la ciencia del aprendizaje) a principios de los años 60. Las ideas se perfeccionaron aún más y avanzaron conceptualmente por Goldiamond en lo que se conoce como el Enfoque Constructivo (Goldiamond, 1974).
Error vs acierto
Skinner se interesa en la construcción de repertorios, no en la eliminación de errores. No es un accidente que los registros acumulados de Skinner hagan hincapié en la conducta deseada (target) y en las curvas de aprendizaje anteriores destacaron los errores. Aunque él reconoció que podemos aprender algo de nuestros errores, señaló que “el comportamiento correcto no es simplemente lo que queda cuando la conducta errónea se ha eliminado”. Para Skinner el término de error (y acierto) dice muy poco acerca de la conducta y desalienta la descripción de la relación directa conducta-ambiente (es decir, lo que el organismo está haciendo en lugar de la conducta correcta). En su sistema, los errores no son necesarios para que ocurra el aprendizaje. Los errores no son una función de aprendizaje o viceversa, ni se culpa de ellos al alumno. Los errores son una función del mal análisis de la conducta, un programa de moldeado mal diseñado, avanzar demasiado rápido en los escalones del programa y la falta de la conducta requisito previo necesaria para el éxito en el programa (Skinner, 1968).
La elección de si un comportamiento es correcto o un error, no es trivial o simplemente una cuestión de perspectiva, también puede indicar el tipo de procedimientos que se utilizan en la práctica. En el moldeado no hay errores para corregir sólo comportamientos para moldear. En el ensayo-y-error hay errores que reducir y hay técnicas de reducción susceptibles de ser utilizadas para este objetivo.
Ejemplos de esto proliferan en el entrenamiento de la obediencia “tradicional”:
A: Para enseñar a un perro a caminar en junto, todos los errores son castigados rigurosamente. El perro puede estar demasiado hacia delante, muy separado, o retrasado, si el perro no está en la posición correcta de junto, se tira de la correa con fuerza. El perro se queda con ansiedad abrumadora, en la que debe tratar de descifrar cuál es la solución:¿qué se supone que debo hacer para evitar el castigo?
B: Enseñar a un perro a sentarse y quedarse quieto es exactamente el mismo programa: el perro es castigado por todos los errores, el movimiento, cambiar la posición, ladridos y se deja para el perro descifrar el comportamiento correcto.
C: Pulverizar al perro con agua, golpear al perro con un objeto, o producir un fuerte sonido cuando el perro se acerca algo (por ejemplo, alimentos, almacén, etc.) Una vez más todos los errores son castigados.
Como alternativa, puedes utilizar un programa de moldeado para enseñar conductas alternativas:
A: Enseñar al perro a caminar cerca y mantener la posición.
B: Enseñar al perro a sentarse inmóvil.
C: Enseñar al perro dar la vuelta y seguirnos, enseñar el “ven por aquí”.
En el entrenamiento tradicional de obediencia el énfasis en el comportamiento erróneo, inapropiado, indeseable, maladaptativo es característico de enfoques PATOLÓGICOS y el énfasis en la conducta objetivo deseada es característica de los enfoques CONSTRUCTIVOS.
Goldiamond (1974) describe las diferencias entre constructivo y patológico de la siguiente manera:
“La orientación que se propone es la constructiva. Se define como una orientación cuya solución a los problemas es la construcción de repertorios (o su reintegración o transferencia a nuevas situaciones) en lugar de la eliminación de los repertorios.
A menudo se busca ayuda a causa de la angustia o sufrimiento que ciertos repertorios, o su ausencia, conllevan. El enfoque predominante en la actualidad se centra en el alivio o la eliminación de la angustia a través de una variedad de medios que pueden incluir la quimioterapia, psicoterapia o terapia de comportamiento. Voy a designar estos enfoques como orientaciones patológicas (pathos, del griego, sufrimiento, sentimiento).
Estos enfoques a menudo consideran el problema en términos de una patología que (independientemente de la forma en que se creó, o se desarrolló, o se mantiene) se debe eliminar.
“EL COMPORTAMIENTO CORRECTO NO ES SIMPLEMENTE LO QUE QUEDA CUANDO ELIMINAMOS LOS COMPORTAMIENTOS ERRÓNEOS”.
Presentando el mismo problema de distress, angustia y sufrimiento, se puede orientar en una dirección diferente. La atención se centra en la producción de deseables a través de medios que aumentan directamente las opciones disponibles o amplían repertorios sociales, en lugar de hacerlo indirectamente como subproducto de un proceso eliminatorio. Tales enfoques están orientados constructivamente; construyen repertorios”.
Como se puede ver, el moldeado y el enfoque constructivo van de la mano, ya que su objetivo principal es la construcción de relaciones conducta-ambiente deseadas y, al igual que un programa de moldeado, el enfoque constructivo se guía por las respuestas a las siguientes cuatro preguntas (Goldiamond, 1974; Skinner, 1968 ) :
~ ¿Dónde quieres ir?
~ ¿Dónde estás ahora?
~ ¿Qué pasos van a llevarte a dónde quieres ir?
~ ¿Qué te va a mantener en el camino?
Goldiamond señaló que las respuestas a estas preguntas diferencian todavía más los enfoques patológicos vs construccional. Voy a considerar sus argumentos en el contexto del adiestramiento canino.
1 . Los resultados u objetivos
Aunque se pueden producir resultados similares con las dos orientaciones cuando miramos en términos de sufrimiento aliviado. Los resultados de los dos enfoques no son necesariamente similares cuando miramos a los repertorios establecidos.
¿Dónde quieres ir?
Los programas de moldeado tienen un objetivo explícito. Imagina que tu perro salta sobre las personas en la puerta y que hace que sea un problema poder abrir la puerta. Si moldeamos, se le enseña al perro a ir a su colchoneta al abrir la puerta. También puedes enseñar al perro a permanecer sentado a tu lado hasta que se le libere. Estos comportamientos son poco probable que sucedan al tratar de disminuir el salto.
Del mismo modo el caminar con la correa, el asunto no se trata de reducir el tirar de la correa, se trata de enseñar al perro a mantener el autocontrol, mientras permanece a tu lado .
2 . Repertorios actuales utilizables (relevantes)
Uno puede centrarse en (y tratar de describir ) lo que está mal o qué falta, con el fin de corregirlo. En el otro caso, ya que uno está tratando de construir nuevos repertorios, hay que centrarse en qué repertorios están disponibles, están presentes y son eficaces. En consecuencia, se requieren diferentes bases de datos.
¿Dónde estás ahora?
¿Qué hace ya tu perro que se pueda utilizar para comenzar a moldear y durante el moldeado?
Podría darse el caso de que el perro que salta a la gente, ya va a su colchoneta con señal, o responde a otras señales relacionadas con el comportamiento que deseas moldear. Puedes comenzar tu programa de moldeado allí. O bien, podría darse el caso de que comienzas con el hecho de que a tu perro realmente le gustan cierto tipo de golosinas y hay que establecer primero el click-comida, antes de proceder a moldear la conducta deseada. Todos ellos son buenos puntos de partida ya que proporcionan un medio para comenzar de inmediato el moldeado con frecuentes clicks y golosinas.
3 . Secuencia de los procedimientos de cambio
Teniendo diferentes resultados como objetivo y diferentes puntos de partida seleccionados por su relevancia para el resultado, los procedimientos de mediación que convierten el repertorio inicial al repertorio objetivo también deben ser diferentes. Los datos que se consideran como un avance serán diferentes, al igual que la evaluación de la eficacia terapéutica.
¿Qué medidas van a llevarte a dónde quieres ir?
Esto es lo que generalmente se llama el programa de moldeado. El comportamiento final se divide en unidades de enseñanza o etapas de moldeado necesarias para el correcto funcionamiento. Como nidos chinos, cada etapa de moldeado es un mini-programa y también se guía por las cuatro preguntas. Por ejemplo, estar en la colchoneta y levantarse a la señal también puede ser dividida en escalones de moldeado y los pasos subdivididos y así sucesivamente. Sólo se enseña una cosa a la vez. El Moldeador mantiene el estímulo y la situación constante y cambia la respuesta, o mantiene constante la respuesta y cambia los estímulos o la situación o mantiene la relación del comportamiento con el entorno y cambia el programa de refuerzo.
Por lo general, la respuesta se entrena primero, después la señal y, por último, la configuración o puesta en escena de la situación. En cada paso del programa, el alumno tiene una posibilidad razonable de éxito. Los períodos de extinción son invitaciones para el análisis de los pasos del programa, la secuencia y las disposiciones ambientales. El buen moldeado se caracteriza por altas tasas de refuerzo y la baja utilización de la extinción (o mínima frustración).
4 . Mantenimiento de las consecuencias
Las consecuencias de un caso pueden ser el alivio progresivo, disminución del control aversivo, o la progresión gradual de dicho alivio. En otro caso, puede ser el refuerzo explícito de las unidades en una progresión, o la progresión gradual hacia el repertorio a ser establecido. En este último caso, la evaluación se concentra en refuerzos en el medio natural.
¿Qué te va a mantener?
¿Qué refuerzos van a ser utilizados durante el entrenamiento? ¿Son estos los mismos refuerzos que van a mantener el comportamiento fuera del entrenamiento? En el caso del perro que salta a la gente el refuerzo podría ser un premio durante el entrenamiento y la alabanza y una interacción física agradable después del entrenamiento o la oportunidad de saludar al visitante o un premio.
El método constructivo se deriva directamente del análisis experimental de la conducta de Skinner y no sólo se aplica a la enseñanza de los perros, sino también a otros organismos, como las ratas, palomas, caballos y seres humanos. Por desgracia, no es el enfoque dominante. El aprendizaje por ensayo y error, la estrategia de atención en la conducta errónea (y la enseñanza de la tecnología derivada de ella están todavía muy vivas). Un tipo de entrenamiento canino que se llama entrenamiento de “recompensa” (uso de comida para atraer y recompensar el comportamiento correcto), por desgracia también puede reclamar el uso de refuerzo positivo (es decir, comida). Pero la palabra “recompensa” debería darnos una pista de que moldean más como Thorndike que como Skinner. No es de extrañar que a menudo se dice que el entrenamiento de la recompensa no funciona todo el tiempo, no es para todos los perros y funciona mejor cuando se combina con la correa/collar de entrenamiento. Se puede decir que estos métodos implican la provocación de la conducta con la comida o la estimulación aversiva, y tiene la comida y la “corrección” como consecuencias. Tal provocación no es necesaria en el sistema de Skinner. De hecho, el argumentó en contra de Miller y Kornosky en 1937. No tienes que hacer que el animal haga algo o instigarlo a cualquier cosa, como se ha hecho por Miller y Kornoskyr (por ejemplo, provocar la retirada del pie de los perros con descargas eléctricas y luego ofrecerles comida). El condicionamiento operante sólo requiere un organismo activo y un entorno que favorezca la aparición de la conducta deseada o algún otro comportamiento relevante para el comportamiento final. Afortunadamente, estos entrenadores reconocen que el entrenamiento de la recompensa es una vieja técnica anterior a Skinner. Por desgracia, no pueden decir la diferencia entre estos métodos y Skinner. Pero todavía hay esperanza y el adiestramiento con el clícker es una alternativa fuerte. También es agradable ver que los objetivos del entrenamiento con clícker han ido evolucionando desde la enseñanza de trucos para la obediencia y la competición hacia habilidades para la vida diaria. Esto va, sin duda, mucho más allá del “entrenamiento del perro” típico y forma parte del enfoque constructivo en que la preocupación se cambia y centra en enseñar a los perros el comportamiento necesario para mejorar al máximo su calidad de vida y mejorar las interacciones de los perros con el mundo humano.
Al igual que el entrenamiento con clícker, el enfoque constructivo ha sido criticado como poco realista en su uso casi exclusivo del refuerzo positivo. Pero el enfoque constructivo, como el entrenamiento del clícker, es más que la fe ciega en el refuerzo positivo. Es evidente que el objetivo es enseñar con refuerzo positivo solamente y minimizar la extinción. Sabemos muy bien que esto constantemente produce alumnos felices y un mejor aprendizaje. También sabemos que lo que hace posible el uso exclusivo del refuerzo positivo es el programa. Cada vez que nos encontramos corrigiendo o esperando demasiado tiempo para la respuesta, ha llegado el momento de reconsiderar el programa de moldeado. Tomemos el caminar con la correa floja, por ejemplo. Algunos procedimientos de adiestramiento que podrían considerarse “positivos” todavía producen una buena cantidad de tirones durante la extinción y el refuerzo de caminar con la correa floja. Esta extinción, por supuesto, se puede minimizar mediante la introducción sistemática de la correa y la enseñanza del comportamiento requisito, tales como la posición junto, caminar al lado del maestro en línea recta, al ritmo del maestro, girar, detenerse, etc. Así, en lugar de una fe ciega y la alianza política o ideológica al refuerzo positivo, los adiestradores deben caracterizarse como constructivos, ya que siempre están en busca de qué reforzar, lo que conduce inevitablemente a la utilización casi exclusiva del refuerzo positivo.
Bibliografía
Goldiamond , I. (1974 /2002). Hacia un enfoque constructivo a los problemas sociales: aspectos éticos y constitucionales planteadas por el análisis aplicado de la conducta. Conducta y Asuntos Sociales, 11, 108-197.
CASCO , C. L. ( 1952 ) . Un sistema de comportamiento. New Haven: Yale University Press.
Pryor, K. ( 1999 ) . No matar al perro: El nuevo arte de la enseñanza y la formación. Waltham , MA: Sunshine Books. ”No le mates, enséñale” KNSediciones.
SIDMAN , M. ( 1985 ) . Aprendizaje sin error y su significado para la enseñanza de los discapacitados mentales. Psicología, 11 ( 3 ) , 1-15 . Disponible en Inglés en http://www.behavior.org/
SKINNER , B. F. ( 1937 ) . Hay dos tipos de reflejo condicionado: una respuesta a Konorski y Miller . Journal of General Psychology , 16 , 272-279 .
SKINNER , B. F. ( 1938 ) . El comportamiento de los organismos. Nueva York: Appleton -Century- Crofts .
SKINNER , B. F. ( 1953 ) . Ciencia y conducta humana. New York: Macmillan
SKINNER , B. F. ( 1968 ) . La tecnología de la enseñanza. Nueva York: Appleton -Century- Crofts .
SKINNER , B. F. ( 1987 ) . Tras reflexionar sobre ello . Englewood Cliffs, NJ : Prentice -Hall.
SKINNER , B. F. ( 1989 ) . Problemas recientes en el análisis del comportamiento . Columbus , OH: Merrill Publishing Company.
LAURENCE, KAY (2009). Teaching dogs with reinforcement. Publicado por Learning About Dogs Ltd, PO Box 13, Chipping Campden, Glos . GL55 6WX. Reino Unido. learningaboutdogs.com