Hiển thị các bài đăng có nhãn AI. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn AI. Hiển thị tất cả bài đăng

Chủ Nhật, 20 tháng 5, 2018

Mark Manson: 6 việc mọi người nên bớt quan tâm đi


6 việc mọi người nên bớt quan tâm đi

1.              Các vụ thảm sát và chủ nghĩa khủng bố
Bạn có lẽ nghĩ tôi sẽ bắt đầu danh sách này với cái gì đó dễ thương và khuôn sáo như “Hãy ngừng quan tâm đến những gì mọi người nghĩ về bạn” đúng không?
À không hề. Phải làm vài người buồn rồi.

Tôi nghĩ chúng ta nên bớt quan tâm tới những vụ thảm sát và chủ nghĩa khủng bố.
Tôi không muốn nói rằng chúng ta không nên tự bảo vệ bản thân hay các sự kiện đó không quan trọng hay bạo lực từ súng đạn nói chung không phải là vấn đề. Tôi đơn giản đang nói rằng các phản ứng về mặt cảm xúc và xã hội của chúng ta trước các vụ thảm sát là không cần thiết và ẩn chứa nguy cơ gây hại.

Trước tiên, có vài thực tế: bạn có khả năng chết vì tủ lạnh đổ vào người ngang với khả năng chết vì một vụ tấn công khủng bố, và số ca tử vong do thảm sát hàng loạt từ súng đạn chiếm ít hơn 1% số ca tử vong liên quan đến súng ở Mỹ (trong đó: 2/3 số ca tử vong liên quan đến súng là tự tử). Nếu chúng ta thuần túy dựa trên các số liệu thống kê trong xã hội thì chúng thậm chí còn không nằm trong top 10 mối đe dọa hay nguy hiểm cho dân số.

Nhưng đây là lý do tại sao thảm sát hàng loạt bằng súng và chủ nghĩa khủng bố (hãy trung thực, chúng gần như giống nhau) lại nhận được sự quan tâm lớn như vậy:
Vì chúng lan truyền như virut.

Hãy gọi đây là “Qui luật Kardashian”.

Qui luật Kardashian: Một người hay một sự kiện được lan truyền càng nhiều, thì nền văn hóa sẽ càng đánh giá quá cao tầm quan trọng của nó.

Tôi gọi đó là Qui luật Kardashian vì vài năm trước, Kim Kardashia đã chụp ảnh khỏa thân cho một tạp chí chính thống. Chuyện đó thống trị toàn bộ các phương tiện truyền thông ngày đó, với tất cả các loại suy nghĩ kỳ quái khi xem xét bức ảnh đó biểu hiện cho cái gì, hành vi muốn nổi tiếng, nữ quyền, giải phóng tình dục, v.v…

Tất nhiên, nó chả có ý nghĩa đếch gì hết. Thực tế, nó không phải là sự kiện bạn có thể nhớ tới. Nhưng bạn đã biết Kardashian bằng cách nào đó đang là một trong những người nổi tiếng nhất hành tinh. Dù thực sự cô ta đã chẳng làm gì cả, rồi tiếp tục không làm gì hết, và cũng chả hứa hẹn là sẽ làm gì. Đó là vì Kim là bậc thầy ban đầu của Qui luật Kardashian. Cô ta đã nhận ra nó trước bất kỳ ai – kẻ nào lôi kéo sự chú ý nhất sẽ được thưởng nhiều nhất – và đã tận dụng nó trên phạm vi rộng lớn. Phần còn lại trong chúng ta đã dành 10 năm qua để cố gắng bắt kịp.

Qui luật Kardashian hàm ý vài điều. Đầu tiên, một việc có tầm quan trọng đến mức nào chỉ là vấn đề nhỏ. Điều quan trọng là mẩu thông tin ấy gây sốc và đáng nhớ đến mức nào. Tất cả chúng ta đều nhớ tới vụ xả súng ở Vegas từ năm ngoái, và rất có thể nhiều người trong số các bạn còn có thể kể lại chi tiết tất tần tật về nó cho tôi – tên đó là ai, hắn đã làm thế nào, hắn sử dụng loại súng nào…

Nhưng hẳn chỉ ít người hoặc chẳng có ai trong số các bạn có thể mô tả chi tiết các cuộc điều trần trước quốc hội về gian lận bầu cử do Tòa Án Tối Cao Hoa Kỳ phụ trách. Trong khi những cuộc điều trần này có lẽ có ý nghĩa hơn nhiều tới tương lai đất nước và cuộc sống của chúng ta.

Đây không phải muốn hạ thấp các nạn nhân của những sự kiện này. Rõ ràng, đó là những trò chết chóc gớm giếc và chúng ta hoàn toàn đúng khi khiếp sợ.

Nhưng hãy thực tế: nếu chỉ vì bạn khiếp sợ thì cũng không có nghĩa rằng chúng thực sự là những sự kiện quan trọng hoặc có tầm ảnh hưởng.



Mọi hình thức truyền thông đều có một điểm yếu không mong đợi. Truyền hình vô tình làm diện mạo bề ngoài cùng thể chất có vẻ quan trọng hơn và biến mọi thứ thành các bit âm thanh. Trở lại thời kì trước khi có internet, mọi người bị ám ảnh bởi UFO, ma quỉ và các giáo phái Sa tăng, vì chúng trông thực sự đáng sợ trên truyền hình. Mọi người thường bỏ phiếu cho các chính trị gia cao hơn và đẹp trai hơn, bất kể đảng phái hay tín ngưỡng. Điểm yếu không chủ ý của internet là nó tạo ra một nền văn hóa quá nhạy cảm với các sự kiện và thông tin lan truyền trên mạng.

Vì đây là điều thứ hai trong Qui luật Kardashian: thành công của một sự kiện hay cá nhân đang được lan truyền trên mạng hoàn toàn phụ thuộc vào những phản ứng của chúng ta với sự kiện hay cá nhân đó.

Nếu tất cả chúng ta đồng ý rằng Instagram là lãng phí thời gian và chúng ta có nhiều thứ tốt hơn để làm, những người nổi tiếng trên Instagram với các bức ảnh photoshop có thể biến mất khỏi cuộc sống của chúng ta. Điều đó không có nghĩa rằng nếu chúng ta ngừng quan tâm đến các vụ xả súng hàng loạt và khủng bố thì chúng sẽ biến mất ngay lập tức, nhưng một lượng lớn oxy giữ chúng tiếp tục sẽ rời đi.

Mục tiêu chung của các vụ xả súng hàng loạt và khủng bố là sự chú ý. Đó là lý do duy nhất họ làm điều đó. Những kẻ khủng bố làm những điều ghê tởm để thu hút sự chú ý đến niềm tin tôn giáo/chính trị cụ thể của họ. Những tên xả súng hàng loạt làm thế để mang sự chú ý tới chính bản thân chúng. Do đó, các vụ xả súng hàng loạt và khủng bố chỉ “thành công” do Qui luật Kardashian: vì chúng gây sốc và bất ngờ đến mức chúng được lan truyền chóng mặt. Về cơ bản đó chỉ là những pha bạo lực công khai, được thực hiện bởi những kẻ tuyệt vọng và điên rồ, những người khao khát danh tiếng và sự nổi tiếng cho bản thân (hoặc nguyên nhân vớ vẩn nào đó). Nếu bạn loại bỏ danh tiếng ra khỏi phương trình, rất có thể bạn cũng đang loại bỏ một tỷ lệ lớn các sự kiện kiểu này xảy ra.

Điều đó nghe có vẻ điên rồ, nhưng có tiền lệ cho việc này.

Nhiều thập kỷ trước, người ta khám phá ra khi phương tiện truyền thông đưa tin về các vụ tự tử, tỷ lệ tự tử trong vùng đó liền tăng lên. Các nhà khoa học đã nghiên cứu lý do tại sao lại xảy ra chuyện này và cuối cùng kết luận rằng việc lan truyền thông tin các vụ tự sát thành công đã đưa cho những người muốn tự sát khác một cảm giác cho sự xác nhận, làm cho nó trở thành một lựa chọn chấp nhận được. Tự sát còn có thể là một cách hiệu quả để gây chú ý, tình cảm và lòng thương hại mà họ đã rất mong muốn có được trong đời. Điều này có thể xem như một hành động truyền cảm hứng: “Đây là một người đang có cảm giác chính xác như tôi, và họ đã thực sự làm điều đó!”

Người ta gọi đó là Hiệu ứng Werther. Và khi nó được phát hiện, tất cả các phương tiện truyền thông đều cùng nhau làm một việc có trách nhiệm: họ đồng ý ngừng đưa tin về các vụ tự tử. Sự bùng nổ, tỷ lệ tự sát lại giảm xuống.

Cái chúng ta có ở đây là Hiệu ứng Werther, nhưng dành cho những vụ giết người hàng loạt công khai và có tính chính trị cao. Thảm sát hàng loạt rất dễ lan truyền. Hầu hết các tay súng và những tên khủng bố này đều vật lộn với tình trạng sức khỏe tâm thần, cảm thấy bị tẩy chay và bỏ qua, và khao khát sự chú ý cùng cảm xúc từ những người xung quanh chúng một cách tuyệt vọng. Chúng cảm thấy không còn sự lựa chọn nào trong đời, chúng sẽ vĩnh viễn không được lắng nghe và bị bỏ qua. Chúng có những xung động bạo lực và nhiều cơn giận dữ , nhưng không biết làm sao quản lý hay truyền tải nhũng cảm xúc này. Sau đó chúng thấy một câu chuyện khác đang lan truyền về ai đó xả súng vào một trường học hay một văn phòng hay thổi bay những người vô tội, và chúng thấy họ trở thành người nổi tiếng ngay lập tức, bị ám ảnh và khiếp sợ bởi hàng triệu người khắp cả nước. Đó là cách nhanh chóng và dễ dàng nhất để thu hút sự chú ý và trở nên quan trọng – những điều chúng đã khao khát suốt đời một cách tuyệt vọng.

Tôi không nhấn vào xem các bài báo về các vụ xả súng nữa. Tôi không nhấn vào xem các video về các vụ tranh cãi súng ống. Tôi không đọc tin tức về chủ nghĩa khủng bố, dù kẻ đánh bom liều chết Austin đã thổi bay người dân ở quê nhà tôi, tôi cũng đã không đọc một bài báo nào về chuyện này. Tên khốn kiếp. Hắn không xứng đáng với thời gian hay sự chú ý của tôi, cũng không xứng đáng được in tên trên bất kỳ nơi đâu.

Tôi từ chối chạm vào bất kỳ phương tiện truyền thông nào liên quan đến những kẻ thế này. Vì cách đơn giản để chống lại Qui luật Kardashian là rút sự chú ý của bạn lại. Quyết định bạn sẽ không quan tâm về chuyện đó thêm nữa. Và tập trung vào thứ gì đó khác thực sự quan trọng (như điều trần quốc hội).

Điều này không có nghĩa là bạn đang đâm đầu vào đá. Rõ ràng có vấn đề. Nhưng thực sự tôi có giúp giải quyết vấn đề bằng cách nhấp chuột vào xem mỗi bài phỏng vấn với người sống sót không, hay đọc các bài viết về tên xả súng đã dùng gì trong bữa sáng, hay tu sĩ tôn giáo đã xui khiến tên đó viết gì trước khi hắn bắn vào toàn bộ văn phòng?

Không, tôi chẳng giúp gì được. Trong thực tế, tôi có thể làm nó tệ hơn.

2.              Bảo vệ trẻ em
Bang Utah gần đây vừa thông qua một đạo luật nói rằng trẻ em được phép chơi bên ngoài một mình cũng như đi bộ hay đi xe đạp tới trường mà không cần có sự giám sát của cha mẹ. Đây là đạo luật đầu tiên ở Mỹ thuộc loại này. Và thực tế nó thậm chí còn cần thiết số một trong mục đích bài viết tôi đang nói tới.

“Bảo vệ” trẻ em đã bắt đầu trở thành mục tiêu tối thượng của nhiều bậc cha mẹ - bảo vệ chúng khỏi điểm thấp, bảo vệ chúng khỏi sân chơi, bảo vệ chúng không cho ra bên ngoài một mình, bảo vệ chúng khỏi bị chỉ trích bởi bất kì ai, bảo vệ chúng khỏi phải tự thức dậy mỗi sáng.

Điều này được biết đến phổ biến với cái tên “helicopter parenting” (nuôi dạy con cái kiểu máy bay trực thăng). Và như hầu hết những thứ tồi tệ ngày nay, nó là sai lầm chính của thế hệ Baby Boomer (thế hệ những người sinh ra giữa năm 1946 và 1964 – đó là thời kỳ 18 năm bùng nổ số lượng sinh trên toàn thế giới – đó là nhóm người đông đảo nhất, cũng chiếm giữ khoảng 65% tổng số tiền trên toàn thế giới ngày nay).

Các Boomers lớn lên với suy nghĩ rằng mình là trung tâm của thế giới. Đây không hoàn toàn là lỗi của họ. Truyền hình và phát thanh nở rộ trong thời niên thiếu của họ. Và vì xem họ là nhóm tuổi nhân khẩu học lớn nhất, hầu hết nền văn hóa toàn cầu (âm nhạc, phim ảnh…) đểu tập trung phục vụ cho thị hiếu của họ. Đến cuối những năm 60, chính trị cũng đào vào số đông của họ, và không chỉ dừng ở đó.

Sau đó điều gì đó đã xảy ra những năm 80. Các Boomers có con. Vì mọi thứ trong đời Boomers đều là thứ quan trọng nhất vũ trụ, con cái của các Boomers (thế hệ Millennials – thế hệ Thiên Niên Kỷ) bây giờ, do tính chất bắc cầu của những kẻ đại ngốc tự luyến, liền trở thành Thứ Quan Trọng Nhất Vũ Trụ.

Boomers đi theo cách nuôi dạy con cái theo cùng kiểu họ đã tiếp cận hầu hết mọi thứ khác: với ý định làm nó tốt hơn nó từng được làm trước đây nhưng, đôi khi, lại sinh ra một kết quả tệ hơn. Boomers quyết định con cái mình cần lòng tự trọng. Chúng cần được đầy đủ và bận rộn. Chúng cần được vận động ở trường. Chúng cần được bảo vệ khỏi những kẻ săn mồi, những giáo viên xấu xa và các ông bộ trưởng đáng sợ…

Sự ám ánh thời bé tạo môi trường để đứa trẻ không bao giờ có thể sai – chỉ giáo viên, chương trình giảng dạy và truyền thông mới sai. “Timmy bé nhỏ của tôi không phải thằng khốn nạn” – các bố mẹ Boomers có thể nói vậy – “Chính các trò chơi điện tử bạo lực nó chơi đã biến nó thành như vậy!” Và thay vì trừng phạt Timmy đã thành đứa trẻ hư (có thể bị gán cho tội “lạm dụng trẻ em”), vị bố mẹ Boomer chính trực này sẽ viết những bức thư đầy giận dữ cho các công ty sản xuất trò chơi điện tử, chủ tịch PTA, nghị sĩ, giáo viên và tất nhiên cả các bậc cha mẹ Boomers chính trực khác.

Nền văn hóa đại chúng ngay lập tức thích nghi với nỗi ám ảnh trẻ thơ này theo cùng cách nó đã thích nghi với mọi nỗi ám ảnh của các Boomers. Nó tạo ra những bài hát nhạt nhẽo kiểu này:

<div style="position:relative;height:0;padding-bottom:75%"><iframe src="https://www.youtube.com/embed/M9BNoNFKCBI?ecver=2" style="position:absolute;width:100%;height:100%;left:0" width="480" height="360" frameborder="0" allow="autoplay; encrypted-media" allowfullscreen></iframe></div>

Nó cũng tạo ra bội thu những miếng dán đáng ghét nói về việc lũ trẻ vĩ đại đến mức nào. Các chính trị gia đột nhiên nói như thể mọi chính sách họ đề xuất đều được thiết kế cho trẻ em. Các bộ phim và chương trình được bắt đầu sản xuất la liệt.

Nhưng tác dụng phụ quan trọng nhất của phương pháp tiếp cận tôn trọng của các Boomers là nó biến việc nuôi dạy con cái thành một biểu tượng trạng thái. Đối với các thế hệ trước, nuôi dạy con cái chỉ là một việc bạn làm. Đó là một nghĩa vụ. Đối với các Boomers, họ sẽ là những bố mẹ chết tiệt nhất thế gian này từng thấy và mọi người biết điều đó. Con của họ sẽ tới tất cả các trại hè. Susie nhỏ bé sẽ nộp đơn vào tất cả các trường đại học. Joey nhỏ bé sẽ có tất cả các đồ chơi tốt nhất. Nuôi dạy con cái trở thành hình thức khác của cuộc cạnh tranh khốc liệt, nơi bạn càng quản lý con mình chi tiết hơn, bạn càng đạo đức hơn.

Hãy nhảy tới 1 hay 2 thập kỷ trước đó, bạn có thể có bố mẹ rất tốt và có trách nhiệm mà lại bị bắt giữ hay bị điều tra vì để con cái tự chơi bên ngoài. Bạn sẽ thấy cảnh sát xuất hiện tịch thu những đứa trẻ đang chơi một mình. Bạn sẽ thấy có những bà mẹ bị chỉ trích là “bà mẹ tệ nhất thế giới” vì để đứa con trai 9 tuổi tự đi tàu điện ngầm.

Và ai khiến những việc thế này xảy ra? Các bậc cha mẹ khác. Các bậc cha mẹ khác không thể chịu được nỗi lo lắng khi để đứa con bông tuyết bé nhỏ đặc biệt của mình chơi ngoài công viên một giờ, khốn kiếp thật, người mẹ khủng khiếp nào khác có thể nghĩ đến điều như vậy?

Các nghiên cứu cho thấy, điều các bà mẹ này không hiểu là quá bảo vệ đứa trẻ cũng gây hại ngang với bỏ bê đứa trẻ đó. Trẻ con cần thất bại. Đó là cách chúng học. Chúng cần bị người khác làm tổn thương vì đó là cách chúng học để quản lý các mối quan hệ của mình. Chúng cần được phép khám phá và thử mọi thứ theo cách của mình vì đó là cách chúng nhận ra mình là ai và xây dựng một bản sắc mạnh mẽ.

Khi chúng được chiều chuộng, bảo vệ quá mức và bị quản lý tới chân tơ kẽ tóc, chúng chẳng phát triển được gì trong các kỹ năng ở trên. Chúng không học được cách đương đầu với nghịch cảnh hay thất bại. Chúng không học được cách quản lý các mối quan hệ. Và chúng không biết mình là ai.

Thực tế, bản sắc của chúng vẫn được cha mẹ tôn trọng. Giá trị duy nhất của chúng trên đời được giả định là “thiên thần nhỏ của bố/mẹ” chẳng hạn – điều duy nhất trên đời quan trọng nhất mà chẳng phải thực sự làm gì – hay được gán nhãn là những tên khốn nhỏ, chính xác như các vị phụ huynh Boomers của chúng.

Cuối cùng, trước khi tôi kết thúc: tôi nghĩ đó là lý do tại sao thế hệ Thiên Niên Kỷ ngày nay phiền toái hơn nhiều. Bởi vì các Boomers
a)                  Không thể chịu đựng được rằng thế hệ Thiên Niên Kỷ lớn lên sẽ chỉ giống như họ (có quyền và tự luyến)
b)                  Vì các Boomers cuối cùng muốn tránh thực tế rằng họ đã thiêu rụi hết cả.

Ôi những đứa trẻ khốn khổ. Hãy để chúng ngã và tự làm tổn thương mình. Hãy để chúng thất bại rồi tự đứng dậy. Hãy để chúng ăn khổ từ vài giáo viên khốn kiếp. Có lẽ sẽ tốt hơn cho chúng.

3.              Các chất Steroid (chất kích thích)
Vì vài lý do, tôi thực ra là một kiểu tiền kích thích trong thể thao.

Đầu tiên, hãy trung thực, một tỷ lệ lớn các vận động viên chuyên nghiệp đã từng xài doping. Và họ luôn tìm ra các cách mới để đánh lừa hệ thống rồi tiếp tục xài doping. Bất cứ lúc nào bạn cũng thấy người ta trong tình trạng cạnh tranh về tâm lý VÀ có hàng chục triệu đô trong đường dây, vì luôn cần các bác sĩ và huấn luyện viên giúp bạn đánh lừa hệ thống. Điều đó không hề thay đổi trong nhiều thập kỷ qua và có lẽ không bao giờ thay đổi. Vì thế chúng ta hãy cởi mở và điều chỉnh để biết mọi người đang làm gì.

Thứ hai, chất kích thích làm thể thao công bằng hơn. Nghe có vẻ điên rồ, nhưng hãy nghe tôi nói đã.



Nói chung thể thao là để vinh danh các vận động viên có đạo đức nghề nghiệp tốt nhất, quyết tâm nhất và tập trung đầu óc tốt nhất. Di truyền đóng một vài trò cực lớn trong kết quả và sự phát triển của vận động viên, đến mức một số người đơn giản luôn có lợi thế hơn những người khác chả vì lý do nào khác ngoài việc họ được sinh ra với một số gene nhất định.

Chất kích thích làm giảm tác động của di truyền tới kết quả thể thao. Chất kích thích làm tác động này ít hơn ở những người may mắn trúng số trong di truyền và tác động nhiều lên cho những người chăm chỉ nhất, dành nhiều thời gian và tâm sức cho luyện tập. Chất kích thích làm tăng hiệu quả của việc luyện tập chăm chỉ, hy sinh và chuẩn bị vì nó khuếch đại những điều này.

Chất kích thích nghịch lý ở chỗ chúng chỉ không công bằng nếu một số vận động viên xài nó còn người khác thì không. Nếu mọi người đều xài, thì kết quả sẽ công bằng hơn.

Và trong khi chúng ta còn đang sống đây, các liệu pháp hormone là giải pháp tuyệt vời cho chống lão hóa, thể dục tổng hợp, sức khỏe và vô số lợi ích y tế khác. Tôi không hiểu tại sao người ta kỳ thị chúng thế. Tôi nghĩ, giống như các loại ma túy, chúng nên được hợp pháp hóa, đánh thuế và qui định thành luật. Vâng, lạm dụng chúng có thể gây hại. Nhưng sử dụng chúng trong bối cảnh y tế hay điều trị rất hữu ích và chẳng biến ai thành người xấu cả.

4.              Trí tuệ nhân tạo sẽ giết con người
Có chuyện gì với những người đang bàn tán chuyện một chiếc xetr tự lái chẹt phải ai đó? Bạn có biết bao nhiêu người chết vì lỗi của người lái xe mỗi năm không? Tôi sẽ nói cho bạn, đó là 1,3 triệu người.

Con người bị hút vào chuyện này. Con người bị hút vào mọi thứ. Làm ơn hãy mang Trí tuệ nhân tạo đi mau lên.

Tôi biết Elon Musk nghĩ rô bốt sẽ giết tất cả chúng ta và biến chúng ta thành tăm xỉa răng hiệu quả, nhưng con Hal 9000 vẫn còn chưa thể điều khiển được “đúng chỗ màu đỏ”. Vì thế hãy cứ thư giãn đi đã nào.

5.              Nhiễm bệnh lây lan qua đường tình dục
Nếu bạn giống tôi, giáo dục giới tính của bạn là nhiều giờ mô tả chi tiết về việc AIDS sẽ giết bạn như  thế nào, ghẻ sẽ phá hủy đời bạn, giang mai đã giết chết một loạt người nổi tiếng 200 năm trước, và mọi thứ khác sẽ làm thối rữa cái nút của bạn và/hoặc mang đến cho bạn bệnh ung thư. Đạo đức câu chuyện: Đừng đâm vào bất kì ai. Đừng bao giờ.

Ở trường đại học, khi tôi trổ mã thành chàng trai trẻ nhẵn nhụi và ham thích những buổi hò hẹn trong xay xỉn đầu tiên, tôi luôn khiếp sợ rằng mấy thứ thối tha kia sẽ phá hủy của quý. Vì thế tôi luôn phải đi kiểm tra STI khi không tuân thủ những gì giáo dục giới tính đã dạy.

Vâng, sau lần thứ ba kiểm tra cho ra âm tính với mọi thứ, bác sĩ đã ngồi xuống bên tôi và nói với tôi rằng, thành thật mà nói tôi không cần đến quá thường xuyên như thế này, đại đa số STI là tương đối vô hại và có thể điều trị được, chỉ cần tôi mặc áo mưa, có lẽ không cần phải lo lắng quá nhiều.
Chắc chắn dựa trên việc tự tìm hiểu của mình, bà ấy đúng. Hầu hết STI là vô hại (phổ biến đấy!). Tôi sợ cái quái gì thế?

Đây là một vấn đề lớn với tôi (và với nhiều độc giả trẻ đang sợ hãi khác nữa), tôi đã tóm tắt tất cả việc tìm hiểu của mình trong bài báo tên là “Hướng dẫn chân thực về STD” (An Honest – to – God Guide to STDs)

Bài báo này trình bày chi tiết mọi thứ, vì thế tôi sẽ không nhắc lại ở đây. Nhưng TL; DR là “Giữ chú ngựa nhỏ của bạn bình tĩnh… và rồi phóng hết chúng ra.” Vâng, hãy dùng bao cao su và xét nghiệm. Nhưng đừng thở nhanh mỗi lần bạn xài chút giai điệu polka. Chết tiệt, sẽ ổn thôi. Tôi hứa.

6.              TRUMP
Được rồi, tôi đã sẵn sàng cho những lá thư thù địch. Bắt đầu thôi nào…

Tôi nghĩ vị trí gây tranh cãi nhất ở nước Mỹ ngay bây giờ là Trump không thực sự là một vấn đề lớn. Đó là bởi vì hầu hết mọi người cánh hữu nghĩ ông ta là đời thứ hai của Hitler/Stalin/Sa tăng/ hay tín đồ Apollo và sẽ bắt đầu Chiến Tranh Thế Giới Thứ 3. Và hầu hết mọi người cánh tả nghĩ ông ta là vị cứu tinh của nước Mỹ, người sẽ “sửa chữa” mọi thứ và tất cả chúng ta rồi sẽ cùng mở tiệc như năm 1959.

Tôi nghĩ ông ta chả phải loại nào. Cánh tả sai vì rõ ràng ông ta là một tổng thống khốn kiếp, không hiệu quả và không ngừng gây tranh cãi. Cánh hữu sai vì họ quên lịch sử nước Mỹ đầy các vị tổng thống khốn kiếp, không hiệu quả và không ngừng gây tranh cãi. Và bạn biết chuyện gì đã xảy ra cho hầu hết các vị này không?
Chả có gì cả.
Đúng vậy. Một chiếc bánh burger vô vị lớn.

Hệ thống của nước Mỹ không nghi ngờ gì nữa, rất phức tạp và mạnh mẽ. Sức mạnh của tổng thống bị đánh giá quá cao. Thực tế vị trí tổng thống chỉ là nỗi ám ảnh gần đây (trong kỷ nguyên của truyền hình thực tế và âm thanh khủng). Tổng thống luôn chịu trách nhiệm cho những thứ ông ta không làm và bị đổ lỗi cho những điều ông ta chả quan tâm tới.

Hãy nhìn mà xem, ngay cả các vị tổng thống có thẩm quyền và nổi tiếng cũng gặp khó khăn trong việc hoàn thành chương trình của họ. Trump không có thẩm quyền, và cũng không nổi tiếng. Ông ấy là chiếc burger vô vị (được nấu chín thật ngon với nhiều sốt cà chua). Ngay cả các vị tổng thống thông minh và thành công cũng phải đấu tranh để ban hành các mục tiêu chính sách đối ngoại. Họ bị cản trở bởi những bộ máy quan liêu lớn, Quốc hội, hệ thống luật pháp, và trật tự quốc tế. Và ở đây bạn có một người có thể đang nghĩ Frederick Douglass là một cầu thủ NBA của đội Knicks.


Hệ thống đã được thiết kế để sống sót khi có bộ đệm thế này. Nên cứ thư giãn đi!

Hệ thống của Mỹ đòi hỏi nỗ lực của hàng trăm nếu không muốn nói là hàng ngàn người cùng thúc đẩy nó. Tổng thống được cho là người có thể tập hợp họ. Nhưng Trump thậm chí còn không thể tập hợp nổi vợ mình dành nhiều hơn vài giờ bên ông ta, vì thế chính xác chúng ta đang càm ràm chuyện gì đây?

Nhìn này, tôi biết Trump là một tên khốn. Tôi biết ông ta đã làm tổn thương nhiều người. Nhưng ở cấp độ chính sách xã hội/quốc gia, ông ta chẳng là gì khiến hệ thống nước Mỹ không thể nhìn ra hay sống sót nổi. Vì thế hãy bình tĩnh khi nói về trận chiến tận thế Armageddon/Hitler. Đời vẫn sẽ tiếp tục thôi.

Trump có lẽ là ví dụ lớn nhất của Qui luật Kardashian tới nay. Cùng một cách Kim Kardashian dường như thành công vì lôi kéo được quá nhiều sự chú ý, Trump dường như trông có vẻ xấu xa vì ông ta làm bạn bực mình nhiều. Nhưng thực ra chẳng có gì đúng cả. Trump không phải ác quỉ. Ông ấy là một người tự luyến suốt ngày vo ve và nghĩ rằng đời là một cuộc cạnh tranh không bao giờ có hồi kết trên bảng xếp hạng truyền hình.

Và cũng giống như Kim Kardashian hay các vụ xả súng trường học, chúng ta càng chú ý đến hướng đi của ông ấy, ông ấy càng trở nên mạnh mẽ hơn, và chúng ta càng khuyến khích các chính trị gia khác đi theo bước chân ông ấy. Người ta luôn phàn nàn rằng ông ta nên xóa tài khoản Twitter, nhưng còn điều này thì sao: hãy dừng việc đọc nó! Dừng click vào mấy bài báo kể lề về những dòng Twitte của ông ấy. Dừng xem các mẩu tin nói ông ta twitted tệ ra sao. Bạn cũng đừng bỏ phiếu bốn năm một lần, trong năm 2018 bạn sẽ lại bỏ phiếu theo sự chú ý của bạn thôi.

Đó là cách chúng ta thay đổi hướng tường thuật của đất nước. Không phải dậm chân và yêu cầu một người đàn ông ngốc ngếch 70 năm đột nhiên tự thay đổi bản thân. Điều đó sẽ không xảy ra.

Nhiều điều được làm cho #Resistance và những cái đó tôi đều đã xem. Thật tốt khi đứng  trước một tên khốn trong đảng đối lập. Bất cứ điều gì mang lại cho đảng Dân chủ một diện mạo giả dối bề ngoài có lẽ đều cần thiết.

Nhưng có một số trách nhiệm đối với chúng ta, với tư cách người dân – hay với thói quen tiêu dùng của chúng ta. Nếu chúng ta không hạnh phúc với những người nổi tiếng này, các chính trị gia này và các lãnh đạo này, cuối cùng, chúng ta chính là người đã tạo ra họ. Vậy thì điều đó nói gì về chính chúng ta?

Mark Manson
Ngày 5 tháng 4 năm 2018


Chủ Nhật, 19 tháng 11, 2017

Machine Learning cho mọi người - 5: Học tăng cường (Reinforcement Learning)



5. Học tăng cường
(Reinforcement Learning)
Thăm dò và khai thác. Qui trình ra quyết định Markov. Học theo mô hình Q, học theo qui tắc, và học sâu tăng cường.

“Tôi chỉ ăn một ít sôcôla để hoàn thành phần cuối này.”
Trong học có giám sát, dữ liệu đào tạo đi theo một từ khóa trả lời từ đối tượng giống như “người giám sát”. Giá mà cuộc sống chỉ làm việc theo cách đó!

Trong học tăng cường (reinforcement learning – RL), không có từ khóa trả lời, nhưng agent học tăng cường của bạn vẫn phải quyết định cách vận hành tác vụ của nó. Khi vắng mặt dữ liệu đào tạo, agent sẽ học từ kinh nghiệm. Nó tập hợp các ví dụ đào tạo (“hành vi này tốt, hành vi kia xấu”) thông qua thử và sai khi cố gắng hoàn thành nhiệm vụ, với mục tiêu tối đa hóa lợi ích trong dài hạn.

Trong phần cuối này, chúng ta sẽ khám phá:
-          Đánh đổi thăm dò/khai thác
-          Qui trình ra quyết định Markov (Markov Decision Processes – MDP), cách xây dựng cổ điển các tác vụ RL
-          Học theo mô hình Q, theo qui tắc và học sâu tăng cường
-          Cuối cùng, bài toán học giá trị

Cuối cùng, luôn luôn vậy, chúng tôi sẽ tập hợp vài tài nguyên thú vị để khám phá sâu hơn.

Hãy đặt con chuột robot vào trong mê cung
Tình huống đơn giản nhất để nghĩ về học tăng cường là trong các trò chơi có mục tiêu rõ ràng và một hệ thống tính điểm.

Có thể nói chúng ta đang chơi một trò chơi trong đó con chuột của chúng ta đang tìm kiếm phần thưởng tối đa là miếng pho-mat ở cuối mê cung (+1000 điểm), hoặc phần thưởng nhỏ hơn là các giọt nước trên đường (+10 điểm). Đồng thời, con chuột robot muốn tránh các vị trí có điện giật (-100 điểm).


Phần thưởng là miếng pho-mat.

Sau một lúc thăm dò, con chuột có lẽ sẽ tìm thấy thiên đường mini với 3 giọt nước gần lối vào, rồi dùng toàn bộ thời gian để khai thác phát hiện này bằng cách tiếp tục tận thu những phần thưởng nhỏ là các giọt nước mà không bao giờ có thể tiến sâu hơn vào mê cung để theo đuổi phần thưởng lớn hơn.

Như bạn có thể thấy, con chuột có thể lỡ mất cơ hội tốt hơn để tiến sâu vào mê cung, với phần thưởng tuyệt đối là miếng pho-mat ở cuối đường.

Điều này gọi là sự đánh đổi thăm dò/thăm dò. Một chiến lược đơn giản là “thăm dò” - con chuột đã sử dụng trong hầu hết thời gian (80% thời gian), nhưng thường là thăm dò một hướng đi mới, ngẫu nhiên, dù có thể càng lúc càng xa phần thưởng lớn.

Chiến lược này còn được gọi là “epsilon tham lam”, trong đó epsilon là phần trăm thời gian agent sử dụng cho một hành động ngẫu nhiên chứ không phải là hành động để tối đa hóa lợi ích đã biết (trong trường hợp này, là 20%). Chúng ta thường bắt đầu với nhiều thăm dò (ví dụ, giá trị cao hơn cho epsilon). Theo thời gian, khi con chuột học được ngày càng nhiều về mê cung và hành động nào được phần thưởng dài hạn nhất, nó sẽ muốn giảm dần epsilon xuống 10% hoặc thậm chí thấp hơn khi nó đi vào khai thác những gì nó biết.

Quan trọng phải ghi nhớ rằng, phần thưởng không phải lúc nào cũng có tức thì: trong ví dụ con chuột robot, có một diện tích rộng của mê cung bạn phải thăm dò và vài điểm cần ra quyết định trước khi bạn tìm được miếng pho-mat.


Agent quan sát môi trường, hành động để tương tác với môi trường, và nhận được kết quả tích cực hay tiêu cực. Sơ đồ trích trong tài liệu CS 294: Deep Reinforcement Learning từ Berkeley, của John Schulman & Pieter Abbeel

Qui trình ra quyết định Markov (MDP)
Suy nghĩ của con chuột trong mê cung có thể mô hình hóa theo Qui trình ra quyết định Markov, là một qui trình xác định xác suất khi chuyển từ trạng thái này sang trạng thái kia. Chúng ta sẽ giải thích bằng ví dụ về con chuột robot. MDP gồm:
1.      Một tập trạng thái xác định. Đó là những vị trí con chuột có thể ở trong mê cung.
2.      Một tập hành động sẵn có cho mỗi trạng thái. Đó là tập {tiến, lùi} trên hành lang và {tiến, lùi, trái, phải} tại giao lộ.
3.      Chuyển trạng thái. Ví dụ, nếu bạn rẽ trái tại giao lộ, bạn sẽ kết thúc ở vị trí mới. Đó có thể là tập các xác suất gắn với nhiều hơn một trạng thái có thể xảy ra (ví dụ, khi bạn dùng một cú đấm trong trò Pokémon, bạn cũng có thể gây ra vài thiệt hại khác, hoặc có thể đủ để hạ knock out đối thủ).
4.      Phần thưởng đi kèm mỗi khi chuyển trạng thái. Trong ví dụ con chuột robot, hầu hết phần thưởng là 0, nhưng chúng sẽ là dương nếu bạn tới điểm có nước hay có phomat, và âm nếu bạn tới điểm bị điện giật.
5.      Hệ số chiết khấu y giữa 0 và 1. Con số này lượng hóa sự khác biệt về tầm quan trọng giữa phần thưởng tức thời và phần thưởng lâu dài trong tương lai. Ví dụ, y là 0,9 và có một phần thưởng 5 điểm sau 3 bước, giá trị hiện tại của phần thưởng là 0,93*5.
6.      Không có trí nhớ. Một khi trạng thái hiện tại được ghi nhận, lịch sử di chuyển của con chuột trong mê cung có thể bị xóa đi vì trạng thái Markov hiện tại đã chứa đựng mọi thông tin hữu ích trong lịch sử. Nói cách khác, “tương lai độc lập với quá khứ, trong khi hiện tại được cho đã biết.”

Giờ chúng ta đã biết MDP là gì, chúng ta có thể công thức hóa mục đích của con chuột. Chúng ta đang cố gắn tối đa hóa tổng số phần thưởng trong dài hạn:



Hãy nhìn từng thành phần của biểu thức trên. Đầu tiên, chúng ta đang tính tổng toàn bộ thời gian của các bước t. Hãy đặt y bằng 1 từ bây giờ và quên nó đi. Hàm r(x,a) là hàm phần thưởng. Với trạng thái x và hành động a (ví dụ rẽ trái tại giao lộ), nó cho bạn phần thưởng đi kèm. Trở lại biểu thức, chúng ta đang cố gắng tối đa hóa tổng các phần thưởng trong tương lai bằng cách hành động hợp lý nhất (tốt nhất) trong mỗi trạng thái.

Nào, chúng ta vừa xây dựng bài toán học tăng cường và công thức hóa mục tiêu, giờ hãy khám phá các giải pháp có thể xảy ra.

Q-learning: học hàm hành động – giá trị

Q-learning là kỹ thuật đánh giá hành động nào nên làm theo dựa trên một hàm hành động – giá trị. Hàm này xác định giá trị khi ở trong một trạng thái nhất định và làm theo một hành động nhất định trong trạng thái đó.

Chúng ta có hàm Q lấy đầu vào là một trạng thái và một hành động, rồi trả về phần thưởng kỳ vọng cho hành động đó (và toàn bộ các hành động kế sau đó) tại trạng thái này. Trước khi thăm dò môi trường, Q sẽ cho cùng một giá trị cố định (tùy ý). Nhưng sau đó, khi thăm dò được môi trường càng nhiều, Q sẽ cho chúng ta một xấp xỉ càng lúc càng tốt hơn về giá trị của hành động a tại trạng thái s. Chúng ta cập nhất hàm Q khi chúng ta di chuyển.

Biểu thức trên Wikipedia giải thích điều này rất rõ ràng. Nó cho thấy cách chúng ta cập nhật giá trị của Q dựa trên phần thưởng nhận được từ môi trường:



Hãy bỏ qua hệ số chiết khấu bằng cách lại đặt nó bằng 1. Đầu tiên, nhớ rằng đang giả thiết Q thể hiện tổng số phần thưởng khi lựa chọn hành động Q và các hành động này là tối ưu.
Giờ hãy tìm hiểu biểu thức từ trái sang phải. Khi chúng ta sử dụng hành động at ở trạng thái st, chúng ta cập nhật giá trị của Q(st,at) bằng cách thêm một biểu thức vào đó. Biểu thức này gồm:
-          Tỷ lệ học alpha: thể hiện bạn muốn tích cực thế nào khi cập nhật giá trị. Khi alpha gần tới 0, chúng ta sẽ không cập nhật tích cực. Khi alpha gần tới 1, chúng ta đơn giản chỉ thay giá trị cũ bằng giá trị mới cập nhật.
-          Phần thường: chính là phần thưởng chúng ta thu được khi hành động at tại trạng thái st. Vì thế chúng ta cộng cả phần thưởng này vào ước lượng cũ của mình.
-          Chúng ta cũng cộng thêm phần thưởng dự đoán trong tương lai, nó là phần thưởng tối đa có thể đạt được Q trước mọi hành động có thể làm tại xt+1.
-          Cuối cùng, chúng ta trừ đi giá trị của của Q để đảm bảo chênh lệch trong dự đoán chỉ có tăng hoặc giảm (tất nhiên chênh lệch này được nhân với alpha).

Giờ chúng ta đã có một ước lượng giá trị cho mỗi cặp trạng thái – hành động, chúng ta có thể chọn hành động nào để làm dựa theo chiến lược lựa chọn hành động của chúng ta (không cần chỉ chọn hành động có phần thưởng kỳ vọng lớn nhất mỗi lần, ví dụ với chiến lược thăm dò kiểu epsilon tham lam, chúng ta nên hành động ngẫu nhiên trong vài phần trăm thời gian).

Trong ví dụ con chuột robot, chúng ta có thể sử dụng Q-learning để tìm ra giá trị của mỗi vị trí trong mê cung và giá trị của các hành động (tiến, lùi, trái, phải) tại mỗi vị trí. Sau đó chúng ta có thể dùng chiến lược lựa chọn hành động để chọn việc gì con chuột thực sự phải làm tại mỗi bước thời gian.

Học theo qui tắc (policy learning): ánh xạ từ trạng thái tới hành động

Trong cách Q-learning, chúng ta học hàm giá trị ước lượng giá trị của mỗi cặp trạng thái – hành động.

Policy learning là một lựa chọn rõ ràng minh bạch hơn, trong đó chúng ta học một hàm policy (qui tắc) π, là một ánh xạ trực tiếp từ mỗi trạng thái tới hành động phù hợp nhất (tốt nhất) tại trạng thái đó. Hãy coi đó là một qui tắc cư xử: “khi tôi quan sát trạng thái s, việc tốt nhất cần làm là sử dụng hành động a”. Ví dụ, một qui tắc của phương tiện tự lái có thể rất hiệu quả, đó là: “nếu tôi thấy đèn vàng và tôi đang cách giao lộ hơn 100 feet, tôi nên phanh lại. Ngược lại, cứ tiếp tục đi thẳng.”


Một qui tắc là một ánh xạ từ trạng thái tới hành động.

Chúng ta đang học một hàm sẽ tối đa hóa phần thưởng kỳ vọng. Chúng ta có biết cái gì thực sự giỏi trong việc học các hàm phức tạp không? Chính là các mạng neuron mức sâu!

Tài liệu Pong from Pixels của Andrej Karpathy cung cấp một hiểu biết tuyệt vời để sử dụng học sâu tăng cường vào việc học một qui tắc trong trò chơi Pong của Atari: lấy các pixel thô từ trò chơi làm đầu vào (trạng thái) và cho ra xác suất di chuyển mái chèo lên hoặc xuống (hành động).


Trong mạng tính đạo hàm qui tắc, agent sẽ học qui tắc tối ưu bằng cách điều chỉnh trọng số bằng đạo hàm giảm (gradient descent) dựa trên tín hiệu phần thưởng từ môi trường. Ảnh lấy từ http://karpathy.github.io/2016/05/31/rl/

Nếu bạn muốn nhúng tay bẩn vào học tăng cường sâu, hãy đọc bài viết của Andrej. Bạn sẽ dựng một mạng policy 2 lớp trong 130 dòng code, rồi sẽ học cách xài Gym của OpenAI – cho phép bạn nhanh chóng chạy được thuật toán học tăng cường đầu tiên, kiểm tra nó trên vô số game, và xem hiệu suất của nó thế nào khi so sánh với phần người khác làm.

DQN, A3C, và những tiến bộ trong học tăng cường sâu (deep RL)

Vào năm 2015, DeepMind dùng một phương pháp gọi là mạng Q sâu (deep Q-network hay DQN), cách này xấp xỉ các hàm Q nhờ dùng mạng neuron mức độ sâu, để đánh bại các tiêu chuẩn của con người trong nhiều trò game của Atari:
Chúng tôi minh họa một agent của mạng Q sâu, chỉ nhận các pixel và điểm game làm đầu vào, có khả năng vượt qua hiệu năng của toàn bộ các thuật toán trước đó và đạt được cấp độ tương đương với một game thủ chuyên nghiệp (là con người) trong tập 49 trò game, sử dụng cùng giải thuật, cùng kiến trúc mạng và cùng các siêu tham số. Nó hoạt động như cầu nối giữa những đầu vào và hành động sensor có số chiều cao, cho ra kết quả là một agent nhân tạo đầu tiên có khả năng học xuất sắc một dải rộng các tác vụ khó khăn. (Silver et al., 2015)

Đây là cái nhìn nhanh chóng về vị trí của DQN agent khi so sánh với máy học tuyến tính và con người trong nhiều lĩnh vực:


Các con số này được chuẩn hóa theo những người kiểm thử là các game thủ chuyên nghiệp: 0% - chơi ngẫu nhiên, 100% - hiệu năng của con người. Nguồn: tài liệu về DQN của DeepMind Human – level control through deep reinforcement learning.

Để giúp bạn xây dựng vài trực giác về cách các tiến bộ trong nghiên cứu RL làm được, đây là vài ví dụ về những cải tiên của bộ xấp xỉ dùng hàm Q phi tuyến giúp nâng cao hiệu năng và độ ổn định:
-          Lặp lại trải nghiệm: học bằng cách ngẫu nhiên hóa theo một chuỗi dài hơn các quan sát trước đó và phần thường đi kèm để tránh overfiting với các trải nghiệm hiện tại. Ý tưởng này lấy cảm hứng từ bộ não sinh học: ví dụ chuột chạy trong mê cung, sẽ “lặp lại” các mẫu trong hoạt động của tế bào thần kinh khi ngủ để tối ưu hóa hành vi tương lai trong mê cung.
-          Mạng neuron tái phát (RNN): tăng cường DQN. Khi một agent chỉ có thể nhìn thấy môi trường tức thời ngay xung quanh nó (ví dụ con chuột robot chỉ thấy một đoạn mê cung nhất định – so với con chim có thể nhìn được toàn bộ mê cung), agent cần nhớ bức tranh lớn hơn, vì thế nó mới biết các thứ đang ở đâu. Tương tự với cách trẻ con phát triển tình trạng bất biến của đồ vật để biết mọi thứ đang tồn tại, ngay cả khi chúng đã rời khỏi tầm nhìn của đứa trẻ. RNN là “tái phát”, ví dụ chúng cho phép thông tin duy trì lâu hơn. Có một đoạn video ấn tượng về một mạng Q tái phát sâu (DQRN) chơi trò Doom. Xem trong Simple Reinforcement Learning with Tensorflow của Arthur Juliani.
Năm 2016, chỉ một năm sau DQN, DeepMind lại thông báo về một thuật toán khác, gọi là Asynchronous Advantage Actor – Critic (A3C), có thể vượt qua hiệu năng tuyệt vời của các trò game Atari trong khi chỉ mất thời gian đào tạo bằng một nửa (Mnih et al, 2016). A3C là một giải thuật actor – critic kết hợp tốt nhất cả hai cách chúng ta vừa tìm hiểu trước đó: nó sử dụng một actor (một mạng qui tắc để quyết định hành động thế nào) và một critic (một mạng Q để quyết định các thứ đáng giá thế nào). Arthur Juliani có một bài viết tuyệt vời về các A3C vận hành. A3C bây giờ là Universe Starter Agent của OpenAI.

Từ đó, đã có vô số đột phá lý thú – từ việc các cỗ máy AI phát minh ra ngôn ngữ của riêng chúng cho tới việc chúng tự học cách đi vào vô vàn lãnh địa khác. Đấy mới chỉ là dạo trên bề mặt RL, hi vọng đây là điểm bắt đầu cho các khám phá lớn hơn!

Chúng tôi muốn chia sẻ đoạn video khó tin về các agent của DeepMind đã học cách đi bộ… có thêm âm thanh. Hãy cầm bắp rang bơ, bật loa lên, và chứng kiến giây phút vinh quang của trí tuệ nhân tạo:

Tài liệu để thực hành và tìm hiểu sâu hơn
Code:
-          Pong from Pixels của Andrej Karpathy sẽ giúp bạn nhanh chóng chạy được agent tăng cường đầu tiên. Như mô tả “chúng ta sẽ học cách chơi game ATARI (Pong!) bằng PG, từ đầu, với các pixel, và một mạng neuron mức sâu, và toàn bộ chỉ 130 dòng code Python có sử dụng một số hàm phụ thuộc. (Gist link)
-          Tiếp theo, chúng tôi đặc biệt khuyên đọc tài liệu Simple Reinforcement Learning with Tensorflow của Arthur Juliani. Nó bàn từ DQN, mô hình học theo qui tắc, học theo actor – critic tới các chiến lược thăm dò dùng TensorFlow. Hãy cố gắng hiểu và áp dụng các phương pháp trong đó.

Bài giảng, bài viết
-          Reinforcement Learning: An Introduction của Richard Sutton, một cuốn sách rất đáng đọc.
-          CS 294: Deep Reinforcement Learning của John Schulman (Berkeley)
-          Reinforcement Learning của David Silver (UCL)

XONG!




Vishal Maini
Samer Sabri


Thứ Ba, 10 tháng 10, 2017

Machine Learning cho mọi người - 1 Giới thiệu



Machine Learning cho mọi người
(Dành cho những người mới tìm hiểu về Trí tuệ nhân tạo/Machine Learning – Bài viết giải thích một cách đơn giản bằng toán, code, và các ví dụ từ thế giới thực)

Nội dung:
1.                  Tại sao Machine Learning lại có chuyện để nói? – Bức tranh lớn về trí tuệ nhân tạo và machine learning – quá khứ, hiện tại, và tương lai.
2.                  Học có giám sát (Supervised Learning).
I - Học tập với từ khóa trả lời. Giới thiệu các hàm hồi quy tuyến tính, hàm lỗi, overfitting, và phương pháp xuống đồi theo hướng vector đạo hàm (gradient descent)
II – Hai phương pháp phân loại: Hồi qui logistic và SVM.
III- Học không biến: k láng giềng gần nhất, cây quyết định, rừng ngẫu nhiên. Giới thiệu các mô hình kiểm chứng chéo, điều chỉnh siêu tham số (hyperparameter tuning) và tập biến chung.
3.                  Học không giám sát (Unsupervised Learning). Gồm: k – trung bình, cấu trúc phân cấp. Giảm chiều dữ liệu: phân tích thành phần chính (PCA), bình phương tối thiểu tuyến tính (SVD).
4.                  Mạng neuron và Học sâu (Deep Learning). Tại sao, ở đâu và làm cách nào deep learning hoạt động. Lấy cảm hứng từ bộ não. Các mạng neuron xoắn (CNN), mạng nơ ron tái phát (RNN). Các ứng dụng thế giới thực.
5.                  Học tăng cường (Reinforcement Learning). Thăm dò và khai thác. Qui trình ra quyết định Markov. Mô hình Q, học theo policy, mô hình học tăng cường sâu. Bài toán học theo giá trị.
6.                  Phụ lục: Các nguồn Machine Learning tốt nhất hiện nay. Danh sách các nguồn để bạn tạo chương trình machine learning của riêng mình.

Ai nên đọc bài viết này?
-                      Dân kỹ thuật muốn học thật nhanh machine learning
-                      Những ai không phải dân kỹ thuật nhưng muốn học vỡ lòng về machine learning và quyết chí tìm hiểu những khái niệm kỹ thuật
-                      Bất kỳ ai tò mò với việc máy móc tư duy như thế nào

Cuốn tài liệu này ai cũng có thể download miễn phí trên internet theo 2 cách như sau:
·         Bài viết gốc bằng tiếng Anh trên Medium: https://medium.com/machine-learning-for-humans/why-machine-learning-matters-6164faf1df12
·         hoặc file pdf trên dropbox:
·         bản dịch tiếng Việt tại blog này

Các khái niệm cơ bản về xác suất, thống kê, lập trình, đại số tuyến tính, và tích phân sẽ được nói đến, nhưng không cần phải có kiến thức về chúng từ trước mới hiểu được bài viết này.

Nếu bạn quan tâm hơn tới những tài nguyên, khóa học, sách vở nào cần đọc, dự án nào cần để mắt đến… thì hãy đọc thẳng phần Phụ lục: Các nguồn Machine Learning tốt nhất hiện nay.






Phần 1: Tại sao Machine Learning lại có chuyện để nói?



Trí tuệ nhân tạo (Artificial Intelligence – AI) sẽ định hình tương lai của chúng ta mạnh mẽ hơn bất kỳ phát minh nào khác trong thế kỷ này. Bất kỳ ai không hiểu nó sẽ nhanh chóng thấy mình bị bỏ lại phía sau, tỉnh giấc trong một thế giới toàn những công nghệ ngày càng kỳ ảo.

Tốc độ phát triển của nó thật đáng kinh ngạc. Sau những mùa đông AI và các giai đoạn đưa hy vọng đi lạc lối suốt hơn 4 thập kỷ qua, những tiến bộ nhanh chóng trong lưu trữ dữ liệu và sức mạnh xử lý của máy tính đã và đang dần dần thay đổi trò chơi này trong những năm gần đây.

Vào năm 2015, Google đã đào tạo một thực thể giao tiếp không chỉ có thể tương tác đáng tin cậy với con người trên vai trò nhân viên hỗ trợ kỹ thuật mà còn thảo luận được về đạo đức, thể hiện quan điểm và trả lời những câu hỏi chung chung dựa trên thực tế.



Cùng năm đó, DeepMind đã phát triển một thực thể vượt qua khả năng của con người trong các tựa game 49 Atari – vốn chỉ nhận pixel và điểm số trò chơi làm đầu vào. Ngay sau đó, năm 2016, DeepMind đã vứt bỏ thành tựu này bằng cách cho ra đời một phương pháp chơi game đỉnh cao mới có tên là A3C.

Trong khi đó, AlphaGo đánh bại một trong những người chơi cờ vây giỏi nhất với trò Go – một thành tựu cực kỳ đáng kinh ngạc trong trò chơi vốn dĩ luôn bị thống trị bởi con người suốt 2 thập kỷ qua sau khi máy móc lần đầu tiên chinh phục lĩnh vực chơi cờ. Nhiều bậc thầy cũng không thể hiểu được làm thế nào một cỗ máy có thể nắm bắt được toàn bộ sắc thái và sự phức tạp của trò chơi chiến thuật Trung Hoa cổ đại với 10.170 khả năng đi trên bàn cờ này (trong vũ trụ cũng chỉ có 1.080 nguyên tố).


Kỳ thủ cờ vây Lee Sedol đang xem lại trận đấu với AlphaGo sau khi bị đánh bại. Bức ảnh trên The Atlantic.

Vào tháng 3 năm 2017, OpenAI đã tạo ra các thực thể phát minh ra ngôn ngữ riêng của chúng để cộng tác và đạt mục tiêu của chúng một cách hiệu quả hơn. Ngay sau đó, Facebook cũng thông báo đào tạo thành công các thực thể của mình để thương lượng và thậm chí nói dối được.

Chỉ vài ngày trước (khi bài hướng dẫn này ra đời), vào ngày 11/08/2017, OpenAI đã chạm tới cột mốc không thể tin nổi khác khi đánh bại các cao thủ chuyên nghiệp hàng đầu thế giới trong những trận đấu 1-1 của trò game online nhiều người chơi Dota 2.


Xem trận đấu bản đầy đủ trong cuộc thi đấu quốc tế 2017 giữa Dendi (con người) với OpenAI (một con bot) trên YouTube

Nhiều công nghệ dùng hằng ngày của chúng ta đã được tăng cường sức mạnh bằng trí tuệ nhân tạo. Hãy trỏ camera của bạn vào thực đơn này trong chuyến đi lần tới đến Đài Loan và các danh mục lựa chọn trong nhà hàng sẽ xuất hiện thần kỳ bằng tiếng Anh thông qua ứng dụng Google Translate.


Google Translate đang phủ các đoạn dịch tiếng Anh lên thực đơn đồ uống theo thời gian thực bằng cách sử dụng mạng neuron xoắn.

Ngày nay AI được dùng để thiết kế các kế hoạch điều trị dựa trên triệu chứng cho bệnh nhân ung thư, phân tích kết quả tức thời từ các bài kiểm tra y tế tới đưa kết quả cho một chuyên gia phù hợp, và thực hiện nghiên cứu khoa học để tìm ra thuốc mới.

Chuyện gì xảy ra nếu một nhà khoa học có thể nhớ mọi bài báo từng đọc và đọc mọi bài báo từng được viết trong lĩnh vực y học, dược, sinh học, và hóa học…
… VÀ tạo ra những khoảnh khắc eureka từ kiến thức này – hãy tưởng tượng qui mô và tốc độ tuyệt vời của các khám phá có thể được tạo ra mà xem.
BenevolentAI làm điều này 100 lần mỗi ngày.” – Lời tuyên bố gây ấn tượng mạnh của BenevolentAI ở Luân Đôn (trên trang About Us, tháng 8 năm 2017).

Những người thực thi pháp luật đang sử dụng nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên để tìm dấu vết trong các cảnh quay cơ thể. Tàu du hành sao Hỏa Curiosity thậm chí còn dùng AI để tự động lựa chọn các mẫu đất đá có giá trị thí nghiệm với độ chính xác cao.

Trong đời sống hằng ngày, ngày càng có nhiều máy móc chiếm giữ những vai trò mà con người có truyền thống nắm giữ. Quả thực, đừng ngạc nhiên nếu xuất hiện một con bot cung cấp dịch vụ chăm sóc nhà cửa phòng ốc thay cho con người khi bạn yêu cầu lễ tân khách sạn gửi cho một ít kem đánh răng.

Trong bài viết này, chúng ta sẽ khám phá những khái niệm về machine learning cốt lõi phía sau những công nghệ này. Cuối cùng, bạn có thể mô tả chúng làm việc thế nào ở mức khái niệm và được trang bị các công cụ để bắt đầu tự xây dựng các ứng dụng tương tự cho riêng mình.

Cây cú pháp trừu tượng: Trí tuệ nhân tạo và Machine Learning

Một lời khuyên nhỏ: việc nhìn nhận tri thức dưới dạng cây cú pháp trừu tượng rất quan trọng – nó đảm bảo giúp bạn hiểu các nguyên tắc căn bản, ví dụ thân cây và các cành lớn, trước khi bạn đi vào các cái lá/chi tiết hoặc chẳng có gì để mà treo lên đó.” – Elon Musk, từ Reddit AMA.


Machine learning là một trong nhiều lĩnh vực con của trí tuệ nhân tạo, liên quan đến cách máy tính học từ kinh nghiệm để cải thiện cách suy nghĩ, lập kế hoạch, quyết định, … của nó.

Trí tuệ nhân tạo là việc nghiên cứu các thực thể nhận biết được thế giới xung quanh chúng, tạo ra các kế hoạch, và ra các quyết định để đạt được mục đích của chúng. Việc hình thành nên lĩnh vực trí tuệ nhân tạo còn kéo theo nhiều lý thuyết toán học, logic, triết học, xác suất thống kê, ngôn ngữ học, thần kinh học, và các lý thuyết ra quyết định. Nhiều lĩnh vực mới cũng ra đời dưới cái ô AI, chẳng hạn như thị giác máy tính (computer vision), robot, machine learning, xử lý ngôn ngữ tự nhiên…

Machine learning là một lĩnh vực con của trí tuệ nhân tạo. Mục tiêu của nó là cho phép các máy tính tự học. Thuật toán học tập cho một cỗ máy cho phép nó xác định các mẫu trong dữ liệu quan sát được, xây dựng nên các mô hình để giải thích thế giới, và tiên đoán mọi thứ mà không cần những qui tắc và mô hình được lập trình trước cụ thể nào.

Hiệu ứng AI: Cái gì mới thực sự đáng gọi là “trí tuệ nhân tạo”?
Tiêu chuẩn chính xác đối với công nghệ thỏa mãn cái gọi là “AI” hơi mập mờ một chút, và những lời giải thích cho nó cứ thay đổi theo thời gian. Cái mác AI có khuynh hướng mô tả những cỗ máy làm những tác vụ truyền thống với vai trò là con người. Thật thú vị làm sao, một khi các máy tính biết phải làm một trong những tác vụ này thế nào thì con người sẽ có khuynh hướng bảo đó không thực sự là “trí tuệ”. Cái này được biết đến với tên gọi “Hiệu ứng AI”.
Ví dụ, khi Deep Blue của IBM đánh bại nhà vô địch cờ vua thế giới Garry Kasparov năm 1997, người ta chê bai rằng nó đã sử dụng những phương pháp “ép buộc thô thiển” và điều đó hoàn toàn không phải là “trí tuệ” thực sự. Pamela McCorduck viết: “Có một thời kỳ trong lịch sử của lĩnh vực trí tuệ nhân tạo, khi mỗi lần ai đó khám phá ra cách làm máy tính thực hiện được một việc gì đó – làm kiểm kê hoàn hảo, giải được những bài toán đơn giản nhưng tương đối bất thường – sẽ có giọng điệu phê phán vang lên rằng “đó không phải là cách để tư duy”. (McCorduck, 2004).
Có lẽ khi nào xuất hiện câu je ne sais quoi (tôi không biết) thì người ta mới thực sự chấp nhận cái đó là “trí tuệ nhân tạo”.
“AI là bất kỳ thứ gì chưa từng được làm.” – Douglas Hofstadter
Vậy một bàn tính thực hiện phép toán có giống AI không? Có lẽ phải cần chút ít giải thích. Còn một chiếc xe tự lái? Ngày nay thì đúng. Trong tương lai có lẽ không. Doanh nghiệp startup mới và rất tức thời của bạn làm về chatbot tự động thực hiện các flow chart thì sao? Chắc chắn rồi… tại sao lại không chứ.

AI hùng mạnh sẽ thay đổi thế giới của chúng ta vĩnh viễn; để hiểu bằng cách nào, nghiên cứu machine learning là cách tốt nhất để bắt đầu.

Các công nghệ thảo luận ở trên là những ví dụ về trí tuệ nhân tạo hẹp (Artificial Narrow Intelligence – ANI), chúng chỉ có thể thực hiện hiệu quả một hoặc vài tác vụ trong phạm vi hẹp.

Trong lúc đó, chúng ta vẫn tiếp tục tạo ra những tiến bộ căn bản hướng về trí tuệ nhân tạo tổng quát cấp độ con người (Artificial General Intelligence – AGI), còn gọi là AI mạnh. Định nghĩa về AGI là một kiểu trí tuệ nhân tạo có thể thực hiện thành công bất kỳ tác vụ đòi hỏi trí tuệ mà con người có thể làm được, gồm có học tập, lập kế hoạch, và ra quyết định trong điều kiện không chắc chắn, giao tiếp bằng ngôn ngữ tự nhiên, pha trò, thao túng con người, giao dịch chứng khoán,… hay tự lập trình lại chính nó.

Và cái cuối cùng kia là một cuộc ăn thua lớn. Nếu chúng ta tạo ra một AI có thể tự cải thiện chính mình, nó có thể phá vỡ chu trình tự cải thiện bản thân một cách lặp đi lặp lại để tạo ra sự bùng nổ trí tuệ trong một khoảng thời gian chúng ta không đoán được nào đó, có thể nhiều thập kỷ hoặc có thể chỉ mất một ngày.

Hãy để một cỗ máy siêu thông minh được định nghĩa là cỗ máy có thể vượt xa tất cả các hoạt động trí tuệ của bất kỳ người nào, dù thông minh đến đâu. Vì thiết kế máy móc là một trong các hoạt động trí tuệ kiểu đó, cỗ máy siêu thông minh có thể thiết kế ra những cỗ máy tốt hơn; sau đó không nghi ngờ gì nữa, sẽ có một “sự bùng nổ trí tuệ”, và trí tuệ con người sẽ bị bỏ lại rất xa phía sau. Thế là cỗ máy siêu thông minh đầu tiên sẽ là phát minh cuối cùng con người tạo ra được, do đó cỗ máy đó phải đủ ngoan ngoãn để nói cho chúng ta hãy luôn giữ nó trong vòng kiểm soát.” – I.J. Good, 1965.

Bạn có lẽ từng nghe có điểm kỳ dị. Thuật ngữ này vay mượn từ điểm kỳ di trong luật hấp dẫn xảy ra ở tâm hố đen, điểm một chiều có độ đặc vô cùng mà các luật vật lý chúng ta biết đều bắt đầu bị phá vỡ tại đó.



Chúng ta có thị giác bằng không với những gì xảy ra trong chân trời sự kiện của hố đen vì không ánh sáng nào có thể thoát ra khỏi đó. Tương tự, sau khi chúng ta mở khóa cho khả năng của AI để nó tự cải thiện theo cách hồi qui, chúng ta không thể tiên đoán được những gì sẽ xảy ra, giống như một con chuột thiết kế ra một con người – thực thể này có thể gây rắc rối cho thế giới của chúng. Liệu việc này có giúp chúng có thêm pho mát hơn không, như chúng dự định ban đầu? (Hình ảnh từ WIRED)

Báo cáo gần đây của Viện Tương Lai Nhân Loại đã khảo sát một nhóm các nhà nghiên cứu AI về khung thời gian cho AGI, và thấy rằng “các nhà nghiên cứu tin rằng có 50% cơ hội để AI hoàn thành xuất sắc hơn con người trong mọi tác vụ trong vòng 45 năm nữa.” (Grace et al, 2017). Chúng tôi đã đích thân nói chuyện với một số người có chuyên môn về AI một cách thành thạo và thận trọng có tiên đoán dài hơn (giới hạn trên là “không bao giờ”), và cả những người đưa ra khoảng thời gian ngắn đến mức báo động – chỉ khoảng vài năm.


Bức ảnh Điểm kỳ dị đang ở gần của Kurzweil, xuất bản năm 2005. Giờ là năm 2017, chỉ còn vài tấm áp phích có thể giữ lại được trên tường.

Sự ra đời của siêu trí tuệ nhân tạo (Artificiel Superintelligence – ASI) lớn hơn cấp độ con người nhiều lần có thể sẽ là điều tốt nhất hoặc tệ nhất xảy ra với giống loài của chúng ta. Nó kéo theo thách thức vô tận do phải xác định những gì AI muốn theo cách thân thiện với con người.

Trong lúc không thể nói được những gì sẽ xảy ra trong tương lai, một điều chắc chắn là: 2017 là thời điểm tốt để bắt đầu tìm hiểu xem máy móc tư duy thế nào. Đi sâu vào những khái niệm trừu tượng của triết lý ghế bành và định hướng lộ trình cùng các chiến lược của chúng ta một cách thông minh bằng sự tôn trọng với AI, chúng ta sẽ phải hiểu chi tiết máy móc nhìn nhận thế giới thế nào – chúng muốn gì, các định kiến tiềm tàng và các chế độ thất bại của chúng, những mưu kế thuộc về tính cách của chúng – cũng giống như chúng ta nghiên cứu tâm lý học và thần kinh học để hiểu con người học hỏi, quyết định, hành động và cảm thấy thế nào.

Sẽ có nhiều câu hỏi phức tạp, đánh cược cao về AI đòi hỏi chúng ta thật thận trọng chú ý trong vài năm tới.
Làm sao chúng ta có thể chống lại xu thế phát triển của AI trước những thành kiến có hệ thống trong các bộ dữ liệu hiện có? Chúng ta nên làm gì trong những bất đồng cơ bản giữa các nhà công nghệ hùng mạnh nhất thế giới về những rủi ro cùng lợi ích tiềm ẩn của trí tuệ nhân tạo? Cách tiếp cận công nghệ nào hứa hẹn nhất để dạy các hệ thống AI biết cách cư xử? Điều gì sẽ xảy ra với ý thức về mục đích của con người trong thế giới không còn việc làm?”

Machine learning là cốt lõi trong hành trình của chúng ta hướng tới trí tuệ nhân tạo tổng hợp (AGI), và tới thời điểm thích hợp, nó sẽ làm thay đổi mọi ngành công nghiệp và có tác động cực kỳ to lớn tới đời sống hằng ngày của con người. Đó là lý do tại sao chúng tôi tin việc hiểu biết về machine learning rất có giá trị, ít nhất là ở mức khái niệm – và chúng tôi thiết kế bài hướng dẫn này để mọi người bắt đầu một cách tốt nhất.

Đọc bài hướng dẫn này thế nào?
Bạn không cần đọc từ đầu đến cuối mới thu được giá trị từ bài viết này. Có 3 gợi ý về cách đọc, phụ thuộc vào mối quan tâm của bạn và việc bạn có bao nhiêu thời gian:
1.      Hướng tiếp cận hình chữ T. Đọc từ đầu đến cuối. Tóm tắt mỗi phần theo cách của bạn (dùng kỹ thuật Feynman); cách này khuyến khích việc đọc một cách chủ động và nhớ lâu. Đi sâu hơn vào nhưng phần liên quan nhiều nhất tới sở thích hoặc công việc của bạn. Chúng tôi có đề cập tới những tài nguyên để tìm hiểu ở cuối mỗi phần.
2.      Hướng tiếp cận tập trung. Nhảy thẳng tới phần bạn tò mò nhất và tập trung năng lượng tư duy của bạn vào đó.
3.      Hướng tiếp cận 80/20. Đọc lướt toàn bộ trong một lần, ghi chú lại những khái niệm mức độ cao cần quan tâm, sau đó đọc lại nó vào buổi tối.

Về các tác giả


“OK, chúng ta phải làm xong phần gradient descent khi uống xong cốc bia này.” – Tại The Boozy Cow ở Edinburgh

Vishal gần đây nhất đang dẫn dắt sự phát triển lớn mạnh tại Upstart, một nền tảng cho vay dùng machine learning để định giá tín dụng, tự động hóa quá trình cho vay, và thu hút người dùng. Anh dành nhiều thời gian cho các startup, áp dụng khoa học nhận dạng, triết lý đạo đức và luân lý cho trí tuệ nhân tạo. (Liên hệ: vishal.maini@gmail.com)

Samer đang học thạc sĩ ngành Khoa học và Kỹ thuật máy tính tại UCSD và đồng sáng lập Conigo Labs. Trước khi tốt nghiệp đại học, anh đã lập nên TableScribe, một công cụ kinh doanh thông minh cho SMB, và dành 2 năm tư vấn cho các công ty trong Fortune 100 tại McKinsey. Samer trước đây nghiên cứu Khoa học Máy tính và Đạo đức, Chính trị, Kinh tế tại Yale. (Liên hệ: samrsabri@gmail.com)

Hầu hết bài hướng dẫn được viết trong hành trình 10 ngày tới Vương quốc Anh, trong sương mù điên đảo của tàu hỏa, máy bay, café, quán rượu và bất cứ nơi nào nữa mà chúng tôi có thể tìm thấy một chỗ khô ráo để ngồi.

Mục đích của chúng tôi là củng cố sự hiểu biết của chính mình về trí tuệ nhân tạo, machine learning và cách các phương thức phối hợp với nhau – hy vọng tạo ra một cái gì đó giá trị để chia sẻ trong hành trình.

Và bây giờ, không cần náo nhiệt hơn nữa, hãy bắt đầu đi vào thế giới của machine learning với Phần 2: Học có giám sát!

Vishal Maini
Samer Sabri