Thí nghiệm con chuột của Skinner và sự bối rối của Trader
Thứ sáu, 11-01-2019 | 10:28 GMT+7
Sẽ thật xúc phạm nếu so sánh một “Nhà giao dịch Tài chính 4.0” với một chú chuột. Nhưng trong thị trường này, phần con người logic của Trader có thể luôn bị lấn át bởi các yếu tố tâm lý, hoặc chỉ cần lấn át một lúc thôi cũng làm Trader khốn khổ.
Học thuyết nhân cách hành vi của Skinner có liên quan đến các kích thích củng cố (phần thưởng và hình phạt) thúc đẩy sự lặp lại của hành vi, được minh họa trong thí nghiệm dưới đây:
Thí nghiệm con chuột của Skinner
Một con chuột được thả vào một cái hộp có một nút nhỏ đặt bên trong. Khi chuột ấn nút xuống, thức ăn sẽ rơi xuống. Ban đầu con chuột chạy khắp nơi trong hộp và vô tình một lần đạp phải cái nút nhỏ và phát hiện ra thức ăn rớt xuống. Lối vận hành, là hành vi xảy ra ngay sau khi có tác nhân củng cố, trong trường hợp này tác nhân củng cố là thức ăn. Tất nhiên sau đó chuột liên tục đạp vào nút và hăm hở mang thức ăn rớt xuống xếp vào một góc hộp.
Sau đó ông kết luận: Một hành vi khi có sự xuất hiện của kích thích tác nhân củng cố – là thức ăn sẽ tạo một kết quả là khả năng xảy ra của hành vi ấy và sẽ diễn ra thường xuyên hơn trong tương lai.
Khi chuột không được cho thức ăn mỗi khi đạp vào nút, sau vài lần cố gắng, chuột sẽ ngừng hành vi đạp vào nút. Đây là quá trình triệt tiêu (hay còn gọi là quá trình quên) hành vi đạp nút của chuột (extinction of the operant behavior).
Ông kết luận rằng: Một hành vi không có sự xuất hiện của tác nhân củng cố (là thức ăn) sẽ tạo ra một kết quả là khả năng xảy ra (probability) của hành vi (đạp nút) sẽ giảm đi trong tương lai.
Sau đó thức ăn lại được cung cấp, chuột đạp vào nút và nhận được thức ăn, hành vi của chuột chợt trở về thật nhanh, mau hơn lần đầu tiên chuột vô tình phát hiện ra thức ăn. Đơn giản là tác nhân củng cố (reinforcer) đã thiết lập một lịch trình củng cố trong quá khứ và đây là một quá trình gợi nhớ.
Lịch áp dụng củng cố
Đến phần này mới là phần hấp dẫn…
Skinner rất thích kể về chuyện một lần ông tình cờ chứng kiến một khám phá mới mẻ. Lần ấy ông gần hết thức ăn trong lúc làm thí nghiệm với lũ chuột nên phải tự chế thức ăn cho chuột. Điều này đã làm chậm hẳn tiến độ thí nghiệm bình thường. Vì thế Skinner quyết định giảm thiểu số lần kích thích củng cố những thí nghiệm phản xạ có điều kiện với chuột. Ông nhận ra chuột vẫn tận tụy với những hành vi đạp nút của mình một cách không thay đổi. Điều này đã giúp ông thiết lập lịch củng cố trong những thí nghiệm của mình sau này. Dưới đây là những lịch củng cố mà Skinner đã thiết lập được.
– Củng cố liên tục là hoạt cảnh đầu tiên: mỗi lần chuột đạp vào nút sẽ được thưởng thức ăn.
– Lịch tỷ lệ số lần cố định: là lịch củng cố đầu tiên Skinner phát hiện ra: Nếu chuột đạp nút 3 lần mới được thưởng. Hoặc 5 lần, hoặc (n) lần, sẽ tạo ra một tỷ lệ số lần đạp nút và được thức ăn là: [3:1], [5.1] và [n:1], một mô thức khoán sản phẩm. Ví dụ như may gia công sản phẩm: may 3 cái áo gối được trả 1 ngàn đồng.
– Lịch khoảng cách thời gian cố định: sử dụng thời gian như một công cụ trong việc hình thành hiệu ứng phản xạ có điều kiện. Chẳng hạn trong một khoảng thời gian nhất định (ví dụ cứ 20 giây) chuột phải đạp nút ít nhất là 1 lần mới có thưởng. Nếu không đạp nút sẽ không có thưởng. Ông phát hiện ra thuật học khá nhanh, rất chậm rãi trong việc đạp nút lúc đầu, và chỉ hăng hái khi thời gian điểm hẹn được thưởng (reinforcer) đang đến gần.
– Lịch tỷ lệ số lần thay đổi: chuột phải trải qua những thay đổi số lần đạp nút để có thưởng. Chẳng hạn lúc thì cứ đạp 3 lần mới có thưởng, rồi có khi 7 lần, 1 lần, 5 lần, 2 lần, (n) lần mới được thức ăn. Rõ ràng là thí nghiệm này khiến chuột rất bối rối.
– Lịch khoảng cách thời gian thay đổi: Chuột trải qua những lần thí nghiệm, thay đổi ở đây không phải về số lần đạp, mà là thay đổi về khoảng thời gian có thưởng. Nghĩa là chuột cứ phải đạp ít nhất một lần trong khoảng thời gian. Có lúc là cứ 10 giây, cứ 15 giây, cứ mỗi (n) giây phải đạp 1 lần mới có thưởng.
Với lịch thay đổi (tỷ lệ số lần và khoảng cách thời gian), chuột không còn giữ nhịp độ đạp nút nữa vì chuột đã không tạo ra được một liên hệ có tính chu kỳ giữa hành vi (đạp nút) và phần thưởng (thức ăn). Tuy nhiên một khám phá quan trọng là với hai lịch thay đổi trên, một hành vi có điều kiện khi được thiết lập sẽ nhớ rất lâu. Vì sao? Vì chuột nghĩ rằng sau nhiều lần đạp nút mà chẳng có thưởng, vậy có thể cái đạp nút sau cùng là cái đạp nút gây ấn tượng nhất. Giống như nơi người ta vẫn nghe nói: Miếng ngon nhớ lâu.
Điều này theo Skinner giống như ở chiến lược đánh bài nơi người. Chuột tuy không trúng thưởng thường xuyên nhưng chúng biết mình sẽ được trúng thưởng nếu khi chuột không bỏ cuộc. Và như thế chuột sẽ tiếp tục đạp nút. Cũng thế, người đánh bài hoặc chơi cờ luôn tin rằng ván tới họ sẽ thắng.
Yếu tố tác động đến sự hiệu quả của tác nhân kích thích
– Hiệu quả của các kích thích tích cực sẽ giảm đi nếu đối tượng trở nên thỏa mãn với nó. Một người không đói sẽ thờ ơ hơn nếu bạn mang đến nhiều đồ ăn.
– Tức thời: Kết quả tức thời sẽ có hiệu quả hơn. Đối tượng sẽ học/nhớ nhanh hơn khi kết quả đến ngay sau khi hành động hơn là với một mức độ trễ.
– Đều đặn: để đạt hiệu quả, kích thích nên được duy trì một cách đều đặn, nếu bị gián đoạn đối tượng sẽ học sự phản hồi với kích thích một cách chậm hơn. Tuy nhiên, sự phản hồi sẽ kéo dài hơn (khó bị triệt tiêu) nếu quá trình kích thích hay bị gián đoạn.
– Lượng kích thích: độ lớn của phần thưởng, số lượng thức ăn, mức độ đau đớn của sự trừng phạt. Một ít phần thưởng có thể bị đối tượng đánh giá là “không đáng” với bao nhiêu nỗ lực.
Những kích thích khó chịu
Một kích thích khó chịu là kích thích trái ngược hẳn với kích thích củng cố. Như tên gọi, kích thích khó chịu gây ra cảm giác khó chịu và đau đớn cho một cá nhân.
Kết quả: một hành vi sau khi tiếp cận một kích thích khó chịu thường dẫn đến kết quả giảm khả năng xảy ra của một hành vi trong tương lai.
Kích thích khó chịu là hình thức tạo ra hiệu ứng phản xạ có điều kiện trên mô thức hình phạt. Nếu dí điện vào chuột khi chúng đến một góc hộp, chuột sẽ né tránh đến góc hộp ấy. Ví dụ cha mẹ phát vào mông khi em bé ném đồ chơi, sau vài lần như vậy, em có khuynh hướng thôi không ném đồ chơi nữa.
Nếu ta ngừng việc dí điện, chuột sẽ đến góc hộp mà trước đó vẫn hay bị dí điện thường xuyên vì đã quên cảm giác đau. Nếu cha mẹ thôi không phát vào mông nữa, em bé sẽ quay trở lại hành vi thích ném đồ chơi trước đó. Đây là quá trình củng cố tiêu cực (negative reinforcement) khi kích thích khó chịu được cất bỏ đi sẽ kéo theo một hành vi nào đó được tăng lên. Ví dụ các tù nhân sẽ lao động chăm chỉ hơn để khỏi bị phạt. Bị phạt ở đây là những kích thích khó chịu. Và hành vi được tăng lên là tù nhân sẽ lao động chăm chỉ hơn.
Kết luận: Các hành vi có khả năng xảy ra trong tương lai cao hơn, khi các kích thích khó chịu được hủy bỏ.
Skinner phản đối việc sử dụng kích thích khó chịu mà một số nhà trị liệu thuộc nhóm học thuyết hành vi thường áp dụng. Chẳng hạn như áp dụng hình phạt lên những hành vi tiêu cực. Ông không quan trọng lắm về vấn đề đạo đức học mà đơn giản là vì áp dụng biện pháp này thường không hoạt động hữu hiệu lắm.
Ví dụ em bé ném đồ chơi, tuy hành vi phạt em (bằng cách phát vào mông) có thể cản ngăn việc em ném đồ thơi trong khi cha mẹ có mặt, nhưng sau lưng cha mẹ thì em sẽ vẫn ném đồ chơi vì đây là điều em thích thú. Nếu phạt em, em sẽ rơi vào lịch củng cố thay đổi và như thế em sẽ nhớ đến việc ném đồ chơi lén sau lưng cha mẹ lâu hơn. Cuối cùng, em chỉ ngừng ném đồ chơi vì sợ mình bị phát giác chứ không phải vì tự giác bỏ thói quen này.
Tình cảnh bối rối của Trader
Sẽ thật xúc phạm nếu so sánh một “Nhà giao dịch Tài chính 4.0” với một chú chuột. Nhưng trong thị trường này, phần con người logic của Trader có thể luôn bị lấn át bởi các yếu tố tâm lý, hoặc chỉ cần lấn át một lúc thôi cũng làm Trader khốn khổ rồi.
Cứ giả sử một Trader có hệ thống giao dịch Sinh-lời-trong-tương-lai-dài-hạn. Và hệ thống đó đi kèm quy tắc quản lý vốn tốt. Dĩ nhiên là mức sinh lời cho lần giao dịch tiếp theo thay đổi liên tục, và anh ta cũng không thể rõ sau bao nhiêu lần nữa thì có lời, hay tiếp tục lời đến lúc nào thì gặp một giao dịch thua lỗ, vì sự ngẫu nhiên – random của thị trường.
Và mọi rắc rối bắt đầu từ đây.
Đó là sự nguy hiểm của các chuỗi Thắng-Thua và Sự thay đổi ngẫu nhiên số lần Thưởng-Phạt.
– Nếu Thắng liên tiếp, anh ta không gặp khó khăn gì để tiếp tục nhưng sẽ dần dần muốn một phần thưởng lớn hơn để duy trì kỷ luật hệ thống, nghĩ đến việc tăng Rủi ro chẳng hạn. Nỗi sợ thua lỗ sẽ mờ dần đi nếu “Lâu rồi không thua”.
– Nếu thắng một cách không đều đặn, mà việc này xảy ra với hầu hết Trader và hệ thống giao dịch vì tính chất Random của thị trường: người tham gia sẽ rất khó để rời bỏ. Giống như con chuột khi đạp vào cần gạt, nhưng chỉ được cho ăn sau một sô ngẫu nhiên lần (lúc thì đạp 1 lần là có thức ăn, có lúc phải 3 lần, hoặc 8 lần,… ) Tuy học để đạp cần gạt chậm chạp hơn, nhưng lại duy trì hành vi đó trong một thời gian rất dài. Việc lợi nhuận đến một cách gián đoạn giữ cho con bạc ở lại Casino lâu hơn, giữ Trader ở lại Thị trường lâu hơn.
Nếu thua liền vài lần, lại thua tiếp lần nữa, anh ta sẽ “quên” dần cái hệ thống kia, nghi ngờ khả năng sinh lời và đi chệch hướng do liên tục nhận các kích thích tiêu cực.
Việc có một hệ thống giao dịch sinh lời chưa hẳn là hoàn hảo, hệ thống đó có cần phải hỗ trợ cho người Trader tuân theo nó một cách đúng đắn mà ít gặp phải trở ngại tâm lý. Một hệ thống cho lợi nhuận đều đặn/ổn định sau một số lần giao dịch nhất định sẽ làm giảm áp lực tâm lý hơn một hệ thống có tỷ lệ Winrate thấp. Tỷ lệ Lời/Lỗ cao đối với các hệ thống có Winrate thấp là một điều rất tuyệt, tuy nhiên nó tăng rủi ro gặp phải những bất ổn tâm lý đối với Trader sau chuỗi thua lỗ dài dẫn đến việc Trader tự phá vỡ kỷ luật và xa rời phương pháp giao dịch đó, một điều biết trước-nhưng-khó tránh.
Trader cần chú ý đến đây để biết rằng Việc lưu ý đến cái gọi là tuân thủ kỷ luật giao dịch: Có một phương pháp giao dịch sinh lời và rèn luyện để tuân thủ nó. Đó mới là quá trình một chiều giữa Tâm lý tác động đến Hệ thống ảnh hưởng đến kết quả. Anh ta cần phải thấy chiều còn lại: cái Sự hỗ trợ của hệ thống đó (Một hệ thống gồm cả phương pháp giao dịch và quản lý rủi ro) cho tâm lý của Trader, một cách cụ thể. Nếu một Trader không chịu được một chuỗi thua lỗ thì thậm chí một hệ thống Winrate 50:50 cũng là quá khó đối với anh ta để làm theo đều đặn liên tục, mặc dù hứa hẹn có cao đến thế nào
0 nhận xét:
Đăng nhận xét