Thứ Ba, 10 tháng 10, 2017

Machine Learning cho mọi người - 1 Giới thiệu



Machine Learning cho mọi người
(Dành cho những người mới tìm hiểu về Trí tuệ nhân tạo/Machine Learning – Bài viết giải thích một cách đơn giản bằng toán, code, và các ví dụ từ thế giới thực)

Nội dung:
1.                  Tại sao Machine Learning lại có chuyện để nói? – Bức tranh lớn về trí tuệ nhân tạo và machine learning – quá khứ, hiện tại, và tương lai.
2.                  Học có giám sát (Supervised Learning).
I - Học tập với từ khóa trả lời. Giới thiệu các hàm hồi quy tuyến tính, hàm lỗi, overfitting, và phương pháp xuống đồi theo hướng vector đạo hàm (gradient descent)
II – Hai phương pháp phân loại: Hồi qui logistic và SVM.
III- Học không biến: k láng giềng gần nhất, cây quyết định, rừng ngẫu nhiên. Giới thiệu các mô hình kiểm chứng chéo, điều chỉnh siêu tham số (hyperparameter tuning) và tập biến chung.
3.                  Học không giám sát (Unsupervised Learning). Gồm: k – trung bình, cấu trúc phân cấp. Giảm chiều dữ liệu: phân tích thành phần chính (PCA), bình phương tối thiểu tuyến tính (SVD).
4.                  Mạng neuron và Học sâu (Deep Learning). Tại sao, ở đâu và làm cách nào deep learning hoạt động. Lấy cảm hứng từ bộ não. Các mạng neuron xoắn (CNN), mạng nơ ron tái phát (RNN). Các ứng dụng thế giới thực.
5.                  Học tăng cường (Reinforcement Learning). Thăm dò và khai thác. Qui trình ra quyết định Markov. Mô hình Q, học theo policy, mô hình học tăng cường sâu. Bài toán học theo giá trị.
6.                  Phụ lục: Các nguồn Machine Learning tốt nhất hiện nay. Danh sách các nguồn để bạn tạo chương trình machine learning của riêng mình.

Ai nên đọc bài viết này?
-                      Dân kỹ thuật muốn học thật nhanh machine learning
-                      Những ai không phải dân kỹ thuật nhưng muốn học vỡ lòng về machine learning và quyết chí tìm hiểu những khái niệm kỹ thuật
-                      Bất kỳ ai tò mò với việc máy móc tư duy như thế nào

Cuốn tài liệu này ai cũng có thể download miễn phí trên internet theo 2 cách như sau:
·         Bài viết gốc bằng tiếng Anh trên Medium: https://medium.com/machine-learning-for-humans/why-machine-learning-matters-6164faf1df12
·         hoặc file pdf trên dropbox:
·         bản dịch tiếng Việt tại blog này

Các khái niệm cơ bản về xác suất, thống kê, lập trình, đại số tuyến tính, và tích phân sẽ được nói đến, nhưng không cần phải có kiến thức về chúng từ trước mới hiểu được bài viết này.

Nếu bạn quan tâm hơn tới những tài nguyên, khóa học, sách vở nào cần đọc, dự án nào cần để mắt đến… thì hãy đọc thẳng phần Phụ lục: Các nguồn Machine Learning tốt nhất hiện nay.






Phần 1: Tại sao Machine Learning lại có chuyện để nói?



Trí tuệ nhân tạo (Artificial Intelligence – AI) sẽ định hình tương lai của chúng ta mạnh mẽ hơn bất kỳ phát minh nào khác trong thế kỷ này. Bất kỳ ai không hiểu nó sẽ nhanh chóng thấy mình bị bỏ lại phía sau, tỉnh giấc trong một thế giới toàn những công nghệ ngày càng kỳ ảo.

Tốc độ phát triển của nó thật đáng kinh ngạc. Sau những mùa đông AI và các giai đoạn đưa hy vọng đi lạc lối suốt hơn 4 thập kỷ qua, những tiến bộ nhanh chóng trong lưu trữ dữ liệu và sức mạnh xử lý của máy tính đã và đang dần dần thay đổi trò chơi này trong những năm gần đây.

Vào năm 2015, Google đã đào tạo một thực thể giao tiếp không chỉ có thể tương tác đáng tin cậy với con người trên vai trò nhân viên hỗ trợ kỹ thuật mà còn thảo luận được về đạo đức, thể hiện quan điểm và trả lời những câu hỏi chung chung dựa trên thực tế.



Cùng năm đó, DeepMind đã phát triển một thực thể vượt qua khả năng của con người trong các tựa game 49 Atari – vốn chỉ nhận pixel và điểm số trò chơi làm đầu vào. Ngay sau đó, năm 2016, DeepMind đã vứt bỏ thành tựu này bằng cách cho ra đời một phương pháp chơi game đỉnh cao mới có tên là A3C.

Trong khi đó, AlphaGo đánh bại một trong những người chơi cờ vây giỏi nhất với trò Go – một thành tựu cực kỳ đáng kinh ngạc trong trò chơi vốn dĩ luôn bị thống trị bởi con người suốt 2 thập kỷ qua sau khi máy móc lần đầu tiên chinh phục lĩnh vực chơi cờ. Nhiều bậc thầy cũng không thể hiểu được làm thế nào một cỗ máy có thể nắm bắt được toàn bộ sắc thái và sự phức tạp của trò chơi chiến thuật Trung Hoa cổ đại với 10.170 khả năng đi trên bàn cờ này (trong vũ trụ cũng chỉ có 1.080 nguyên tố).


Kỳ thủ cờ vây Lee Sedol đang xem lại trận đấu với AlphaGo sau khi bị đánh bại. Bức ảnh trên The Atlantic.

Vào tháng 3 năm 2017, OpenAI đã tạo ra các thực thể phát minh ra ngôn ngữ riêng của chúng để cộng tác và đạt mục tiêu của chúng một cách hiệu quả hơn. Ngay sau đó, Facebook cũng thông báo đào tạo thành công các thực thể của mình để thương lượng và thậm chí nói dối được.

Chỉ vài ngày trước (khi bài hướng dẫn này ra đời), vào ngày 11/08/2017, OpenAI đã chạm tới cột mốc không thể tin nổi khác khi đánh bại các cao thủ chuyên nghiệp hàng đầu thế giới trong những trận đấu 1-1 của trò game online nhiều người chơi Dota 2.


Xem trận đấu bản đầy đủ trong cuộc thi đấu quốc tế 2017 giữa Dendi (con người) với OpenAI (một con bot) trên YouTube

Nhiều công nghệ dùng hằng ngày của chúng ta đã được tăng cường sức mạnh bằng trí tuệ nhân tạo. Hãy trỏ camera của bạn vào thực đơn này trong chuyến đi lần tới đến Đài Loan và các danh mục lựa chọn trong nhà hàng sẽ xuất hiện thần kỳ bằng tiếng Anh thông qua ứng dụng Google Translate.


Google Translate đang phủ các đoạn dịch tiếng Anh lên thực đơn đồ uống theo thời gian thực bằng cách sử dụng mạng neuron xoắn.

Ngày nay AI được dùng để thiết kế các kế hoạch điều trị dựa trên triệu chứng cho bệnh nhân ung thư, phân tích kết quả tức thời từ các bài kiểm tra y tế tới đưa kết quả cho một chuyên gia phù hợp, và thực hiện nghiên cứu khoa học để tìm ra thuốc mới.

Chuyện gì xảy ra nếu một nhà khoa học có thể nhớ mọi bài báo từng đọc và đọc mọi bài báo từng được viết trong lĩnh vực y học, dược, sinh học, và hóa học…
… VÀ tạo ra những khoảnh khắc eureka từ kiến thức này – hãy tưởng tượng qui mô và tốc độ tuyệt vời của các khám phá có thể được tạo ra mà xem.
BenevolentAI làm điều này 100 lần mỗi ngày.” – Lời tuyên bố gây ấn tượng mạnh của BenevolentAI ở Luân Đôn (trên trang About Us, tháng 8 năm 2017).

Những người thực thi pháp luật đang sử dụng nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên để tìm dấu vết trong các cảnh quay cơ thể. Tàu du hành sao Hỏa Curiosity thậm chí còn dùng AI để tự động lựa chọn các mẫu đất đá có giá trị thí nghiệm với độ chính xác cao.

Trong đời sống hằng ngày, ngày càng có nhiều máy móc chiếm giữ những vai trò mà con người có truyền thống nắm giữ. Quả thực, đừng ngạc nhiên nếu xuất hiện một con bot cung cấp dịch vụ chăm sóc nhà cửa phòng ốc thay cho con người khi bạn yêu cầu lễ tân khách sạn gửi cho một ít kem đánh răng.

Trong bài viết này, chúng ta sẽ khám phá những khái niệm về machine learning cốt lõi phía sau những công nghệ này. Cuối cùng, bạn có thể mô tả chúng làm việc thế nào ở mức khái niệm và được trang bị các công cụ để bắt đầu tự xây dựng các ứng dụng tương tự cho riêng mình.

Cây cú pháp trừu tượng: Trí tuệ nhân tạo và Machine Learning

Một lời khuyên nhỏ: việc nhìn nhận tri thức dưới dạng cây cú pháp trừu tượng rất quan trọng – nó đảm bảo giúp bạn hiểu các nguyên tắc căn bản, ví dụ thân cây và các cành lớn, trước khi bạn đi vào các cái lá/chi tiết hoặc chẳng có gì để mà treo lên đó.” – Elon Musk, từ Reddit AMA.


Machine learning là một trong nhiều lĩnh vực con của trí tuệ nhân tạo, liên quan đến cách máy tính học từ kinh nghiệm để cải thiện cách suy nghĩ, lập kế hoạch, quyết định, … của nó.

Trí tuệ nhân tạo là việc nghiên cứu các thực thể nhận biết được thế giới xung quanh chúng, tạo ra các kế hoạch, và ra các quyết định để đạt được mục đích của chúng. Việc hình thành nên lĩnh vực trí tuệ nhân tạo còn kéo theo nhiều lý thuyết toán học, logic, triết học, xác suất thống kê, ngôn ngữ học, thần kinh học, và các lý thuyết ra quyết định. Nhiều lĩnh vực mới cũng ra đời dưới cái ô AI, chẳng hạn như thị giác máy tính (computer vision), robot, machine learning, xử lý ngôn ngữ tự nhiên…

Machine learning là một lĩnh vực con của trí tuệ nhân tạo. Mục tiêu của nó là cho phép các máy tính tự học. Thuật toán học tập cho một cỗ máy cho phép nó xác định các mẫu trong dữ liệu quan sát được, xây dựng nên các mô hình để giải thích thế giới, và tiên đoán mọi thứ mà không cần những qui tắc và mô hình được lập trình trước cụ thể nào.

Hiệu ứng AI: Cái gì mới thực sự đáng gọi là “trí tuệ nhân tạo”?
Tiêu chuẩn chính xác đối với công nghệ thỏa mãn cái gọi là “AI” hơi mập mờ một chút, và những lời giải thích cho nó cứ thay đổi theo thời gian. Cái mác AI có khuynh hướng mô tả những cỗ máy làm những tác vụ truyền thống với vai trò là con người. Thật thú vị làm sao, một khi các máy tính biết phải làm một trong những tác vụ này thế nào thì con người sẽ có khuynh hướng bảo đó không thực sự là “trí tuệ”. Cái này được biết đến với tên gọi “Hiệu ứng AI”.
Ví dụ, khi Deep Blue của IBM đánh bại nhà vô địch cờ vua thế giới Garry Kasparov năm 1997, người ta chê bai rằng nó đã sử dụng những phương pháp “ép buộc thô thiển” và điều đó hoàn toàn không phải là “trí tuệ” thực sự. Pamela McCorduck viết: “Có một thời kỳ trong lịch sử của lĩnh vực trí tuệ nhân tạo, khi mỗi lần ai đó khám phá ra cách làm máy tính thực hiện được một việc gì đó – làm kiểm kê hoàn hảo, giải được những bài toán đơn giản nhưng tương đối bất thường – sẽ có giọng điệu phê phán vang lên rằng “đó không phải là cách để tư duy”. (McCorduck, 2004).
Có lẽ khi nào xuất hiện câu je ne sais quoi (tôi không biết) thì người ta mới thực sự chấp nhận cái đó là “trí tuệ nhân tạo”.
“AI là bất kỳ thứ gì chưa từng được làm.” – Douglas Hofstadter
Vậy một bàn tính thực hiện phép toán có giống AI không? Có lẽ phải cần chút ít giải thích. Còn một chiếc xe tự lái? Ngày nay thì đúng. Trong tương lai có lẽ không. Doanh nghiệp startup mới và rất tức thời của bạn làm về chatbot tự động thực hiện các flow chart thì sao? Chắc chắn rồi… tại sao lại không chứ.

AI hùng mạnh sẽ thay đổi thế giới của chúng ta vĩnh viễn; để hiểu bằng cách nào, nghiên cứu machine learning là cách tốt nhất để bắt đầu.

Các công nghệ thảo luận ở trên là những ví dụ về trí tuệ nhân tạo hẹp (Artificial Narrow Intelligence – ANI), chúng chỉ có thể thực hiện hiệu quả một hoặc vài tác vụ trong phạm vi hẹp.

Trong lúc đó, chúng ta vẫn tiếp tục tạo ra những tiến bộ căn bản hướng về trí tuệ nhân tạo tổng quát cấp độ con người (Artificial General Intelligence – AGI), còn gọi là AI mạnh. Định nghĩa về AGI là một kiểu trí tuệ nhân tạo có thể thực hiện thành công bất kỳ tác vụ đòi hỏi trí tuệ mà con người có thể làm được, gồm có học tập, lập kế hoạch, và ra quyết định trong điều kiện không chắc chắn, giao tiếp bằng ngôn ngữ tự nhiên, pha trò, thao túng con người, giao dịch chứng khoán,… hay tự lập trình lại chính nó.

Và cái cuối cùng kia là một cuộc ăn thua lớn. Nếu chúng ta tạo ra một AI có thể tự cải thiện chính mình, nó có thể phá vỡ chu trình tự cải thiện bản thân một cách lặp đi lặp lại để tạo ra sự bùng nổ trí tuệ trong một khoảng thời gian chúng ta không đoán được nào đó, có thể nhiều thập kỷ hoặc có thể chỉ mất một ngày.

Hãy để một cỗ máy siêu thông minh được định nghĩa là cỗ máy có thể vượt xa tất cả các hoạt động trí tuệ của bất kỳ người nào, dù thông minh đến đâu. Vì thiết kế máy móc là một trong các hoạt động trí tuệ kiểu đó, cỗ máy siêu thông minh có thể thiết kế ra những cỗ máy tốt hơn; sau đó không nghi ngờ gì nữa, sẽ có một “sự bùng nổ trí tuệ”, và trí tuệ con người sẽ bị bỏ lại rất xa phía sau. Thế là cỗ máy siêu thông minh đầu tiên sẽ là phát minh cuối cùng con người tạo ra được, do đó cỗ máy đó phải đủ ngoan ngoãn để nói cho chúng ta hãy luôn giữ nó trong vòng kiểm soát.” – I.J. Good, 1965.

Bạn có lẽ từng nghe có điểm kỳ dị. Thuật ngữ này vay mượn từ điểm kỳ di trong luật hấp dẫn xảy ra ở tâm hố đen, điểm một chiều có độ đặc vô cùng mà các luật vật lý chúng ta biết đều bắt đầu bị phá vỡ tại đó.



Chúng ta có thị giác bằng không với những gì xảy ra trong chân trời sự kiện của hố đen vì không ánh sáng nào có thể thoát ra khỏi đó. Tương tự, sau khi chúng ta mở khóa cho khả năng của AI để nó tự cải thiện theo cách hồi qui, chúng ta không thể tiên đoán được những gì sẽ xảy ra, giống như một con chuột thiết kế ra một con người – thực thể này có thể gây rắc rối cho thế giới của chúng. Liệu việc này có giúp chúng có thêm pho mát hơn không, như chúng dự định ban đầu? (Hình ảnh từ WIRED)

Báo cáo gần đây của Viện Tương Lai Nhân Loại đã khảo sát một nhóm các nhà nghiên cứu AI về khung thời gian cho AGI, và thấy rằng “các nhà nghiên cứu tin rằng có 50% cơ hội để AI hoàn thành xuất sắc hơn con người trong mọi tác vụ trong vòng 45 năm nữa.” (Grace et al, 2017). Chúng tôi đã đích thân nói chuyện với một số người có chuyên môn về AI một cách thành thạo và thận trọng có tiên đoán dài hơn (giới hạn trên là “không bao giờ”), và cả những người đưa ra khoảng thời gian ngắn đến mức báo động – chỉ khoảng vài năm.


Bức ảnh Điểm kỳ dị đang ở gần của Kurzweil, xuất bản năm 2005. Giờ là năm 2017, chỉ còn vài tấm áp phích có thể giữ lại được trên tường.

Sự ra đời của siêu trí tuệ nhân tạo (Artificiel Superintelligence – ASI) lớn hơn cấp độ con người nhiều lần có thể sẽ là điều tốt nhất hoặc tệ nhất xảy ra với giống loài của chúng ta. Nó kéo theo thách thức vô tận do phải xác định những gì AI muốn theo cách thân thiện với con người.

Trong lúc không thể nói được những gì sẽ xảy ra trong tương lai, một điều chắc chắn là: 2017 là thời điểm tốt để bắt đầu tìm hiểu xem máy móc tư duy thế nào. Đi sâu vào những khái niệm trừu tượng của triết lý ghế bành và định hướng lộ trình cùng các chiến lược của chúng ta một cách thông minh bằng sự tôn trọng với AI, chúng ta sẽ phải hiểu chi tiết máy móc nhìn nhận thế giới thế nào – chúng muốn gì, các định kiến tiềm tàng và các chế độ thất bại của chúng, những mưu kế thuộc về tính cách của chúng – cũng giống như chúng ta nghiên cứu tâm lý học và thần kinh học để hiểu con người học hỏi, quyết định, hành động và cảm thấy thế nào.

Sẽ có nhiều câu hỏi phức tạp, đánh cược cao về AI đòi hỏi chúng ta thật thận trọng chú ý trong vài năm tới.
Làm sao chúng ta có thể chống lại xu thế phát triển của AI trước những thành kiến có hệ thống trong các bộ dữ liệu hiện có? Chúng ta nên làm gì trong những bất đồng cơ bản giữa các nhà công nghệ hùng mạnh nhất thế giới về những rủi ro cùng lợi ích tiềm ẩn của trí tuệ nhân tạo? Cách tiếp cận công nghệ nào hứa hẹn nhất để dạy các hệ thống AI biết cách cư xử? Điều gì sẽ xảy ra với ý thức về mục đích của con người trong thế giới không còn việc làm?”

Machine learning là cốt lõi trong hành trình của chúng ta hướng tới trí tuệ nhân tạo tổng hợp (AGI), và tới thời điểm thích hợp, nó sẽ làm thay đổi mọi ngành công nghiệp và có tác động cực kỳ to lớn tới đời sống hằng ngày của con người. Đó là lý do tại sao chúng tôi tin việc hiểu biết về machine learning rất có giá trị, ít nhất là ở mức khái niệm – và chúng tôi thiết kế bài hướng dẫn này để mọi người bắt đầu một cách tốt nhất.

Đọc bài hướng dẫn này thế nào?
Bạn không cần đọc từ đầu đến cuối mới thu được giá trị từ bài viết này. Có 3 gợi ý về cách đọc, phụ thuộc vào mối quan tâm của bạn và việc bạn có bao nhiêu thời gian:
1.      Hướng tiếp cận hình chữ T. Đọc từ đầu đến cuối. Tóm tắt mỗi phần theo cách của bạn (dùng kỹ thuật Feynman); cách này khuyến khích việc đọc một cách chủ động và nhớ lâu. Đi sâu hơn vào nhưng phần liên quan nhiều nhất tới sở thích hoặc công việc của bạn. Chúng tôi có đề cập tới những tài nguyên để tìm hiểu ở cuối mỗi phần.
2.      Hướng tiếp cận tập trung. Nhảy thẳng tới phần bạn tò mò nhất và tập trung năng lượng tư duy của bạn vào đó.
3.      Hướng tiếp cận 80/20. Đọc lướt toàn bộ trong một lần, ghi chú lại những khái niệm mức độ cao cần quan tâm, sau đó đọc lại nó vào buổi tối.

Về các tác giả


“OK, chúng ta phải làm xong phần gradient descent khi uống xong cốc bia này.” – Tại The Boozy Cow ở Edinburgh

Vishal gần đây nhất đang dẫn dắt sự phát triển lớn mạnh tại Upstart, một nền tảng cho vay dùng machine learning để định giá tín dụng, tự động hóa quá trình cho vay, và thu hút người dùng. Anh dành nhiều thời gian cho các startup, áp dụng khoa học nhận dạng, triết lý đạo đức và luân lý cho trí tuệ nhân tạo. (Liên hệ: vishal.maini@gmail.com)

Samer đang học thạc sĩ ngành Khoa học và Kỹ thuật máy tính tại UCSD và đồng sáng lập Conigo Labs. Trước khi tốt nghiệp đại học, anh đã lập nên TableScribe, một công cụ kinh doanh thông minh cho SMB, và dành 2 năm tư vấn cho các công ty trong Fortune 100 tại McKinsey. Samer trước đây nghiên cứu Khoa học Máy tính và Đạo đức, Chính trị, Kinh tế tại Yale. (Liên hệ: samrsabri@gmail.com)

Hầu hết bài hướng dẫn được viết trong hành trình 10 ngày tới Vương quốc Anh, trong sương mù điên đảo của tàu hỏa, máy bay, café, quán rượu và bất cứ nơi nào nữa mà chúng tôi có thể tìm thấy một chỗ khô ráo để ngồi.

Mục đích của chúng tôi là củng cố sự hiểu biết của chính mình về trí tuệ nhân tạo, machine learning và cách các phương thức phối hợp với nhau – hy vọng tạo ra một cái gì đó giá trị để chia sẻ trong hành trình.

Và bây giờ, không cần náo nhiệt hơn nữa, hãy bắt đầu đi vào thế giới của machine learning với Phần 2: Học có giám sát!

Vishal Maini
Samer Sabri

Thứ Hai, 9 tháng 10, 2017

AI và tương lai điện toán: 1 - Khi định luật Moore gặp AI



AI và Tương lai Điện toán:
1- Khi định luật Moore gặp AI
Nếu chúng ta muốn đạt tới AI thời gian thực, chúng ta sẽ phải tạo ra một nền công nghiệp iPhone khác. Lớn hơn 5 lần.


Được liên kết sản xuất với NewCo Shift

Tháng 10 năm 2016, Tesla ra thông báo về một thay đổi lớn trong gói Advanced Driver Assistance System. Đây là sự kết hợp giữa các sensor và sức mạnh của máy tính cho phép Tesla hoàn thành lời hứa hẹn của Elon Musk vào cuối năm 2017: “lái xe từ bãi đỗ xe ở California tới bãi đỗ xe ở New York mà không cần điều khiển trên toàn bộ hành trình”.

Trong số rất nhiều thay đổi của gói sensor, có một chuyển đổi trong bộ não hệ thống. Trước đây sử dụng bộ vi xử lý từ Mobileye (gần đây đã được Intel mua lại), hiện giờ gói này đang xài Nvidia Drive PX 2. Tại sao thế?

Họ chỉ ra rằng, để an toàn, các xe tự lái cần một lượng dữ liệu cực lớn từ các hệ thống sensor. Và nếu chỉ là để tìm hiểu tất cả những gì các sensor đang nói, chiếc xe cần một lượng xử lý chưa từng có. Một khi nó biết điều gì sắp xảy ra trong môi trường, cần phải có thêm xử lý cần thiết để giúp chiếc xe biết phải làm gì tiếp theo.

Chuyển đổi Tesla làm sẽ đưa ra đầu mối cho biết xử lý nhiều tới mức nào. Bộ vi xử lý Mobileye EyeQ3 là một con chip điển hình. Nó có diện tích 42mm2 (bằng khoảng ¼ kích thước bộ vi xử lý Intel i7 hiện đại), đóng gói các transistor bằng một qui trình sản xuất các miếng transistor cách nhau 40nm.

Con chip thay thế từ Nvidia có kích cỡ 610mm2 và sử dụng kỹ thuật sản xuất tiên tiến, các transistor đóng gói ở nốt 16nm. Nốt nhỏ hơn nghĩa là các transistor được đóng gói chặt hơn 2,5 lần các transistor trong bộ vi xử lý EyeQ3. Tóm lại, con chip Nvidia thay thế có hiệu năng được cải tiến gấp 90 lần so với con chip Mobileye.

Ngay cả theo tiêu chuẩn của Định luật Moore – phát biểu rằng việc đóng gói các transistor hoặc hiệu suất của transistor sẽ tăng trung bình 60% mỗi năm – đó cũng là một bước nhảy vọt đáng kể. Thực tế, việc chuyển đổi diễn ra tương đương với một thập kỷ xử lý theo định luật Moore.

AI lớn hơn định luật Moore

Tóm lại, sự thay đổi của Tesla tóm lược các loại ứng dụng giống như machine learning theo yêu cầu để làm chúng trong tình trạng sẵn sàng xử lý. Đó không phải là những phương tiên tự động. Đó là các thiết bị được kết nối của chúng ta, cài đặt hỗ trợ các giao diện cá nhân, tương tác giọng nói và tăng cường thực tế ảo.

Ngoài ra, các phương thức lập trình của chúng ta cũng đang thay đổi. Trong thế giới của machine learning, một lượng lớn “hàng nặng” được xử lý bằng bộ não của software developer. Các developer thông minh có nhiệm vụ đơn giản hóa và biểu diễn thế giới theo toán học (giống như code trong phần mềm), sau đó các nhiệm vụ này sẽ được thực hiện theo một cách xác định và im lặng.

Trong thế giới mới của machine learning, software developer không cần lo lắng nhiều về việc dịch những thứ trừu tượng từ thế giới bên ngoài vào code. Thay vào đó, họ xây dựng các mô hình xác suất cần những tập dữ liệu khổng lồ để đưa ra kết quả tốt nhất. Cái mà lập trình viên tiết kiệm được trong việc khám phá các trừu tượng toán học, đó là việc yêu cầu máy tính làm rất nhiều tính toán (thường tới hàng tỷ phép tính một lần).

Khi machine learing trườn vào mọi ngóc ngách doanh nghiệp, nhu cầu xử lý trong công ty sẽ tăng lên rõ rệt. Điều này có ảnh hưởng thế nào trong ngành công nghiệp IT, với các nhà cung cấp phần mềm và phần cứng? Việc thực hành sẽ thay đổi thế nào? Nó sẽ tạo ra những cơ hội nào?

Dưới đây là 3 thay đổi quan trọng:
1.      Lượng tính toán cần thiết tăng lên một cách khủng khiếp
2.      Điện toán đám mây sẽ tiếp tục phát triển, lĩnh vực bên rìa cũng nở rộ
3.      Nhiều loại chip mới sẽ xuất hiện

Yêu cầu tính toán khổng lồ

Hãy bắt đầu với những chiếc xe tự lái. Tại một sự kiện gần đây do hãng đầu tư mạo hiểm Open Ocean ở Luân Đôn tổ chức, người đứng đầu bộ phận sản phẩm của Five.AI – một startup về phương tiện tự lái, đã tóm tắt các yêu cầu tính toán cần thiết cho việc tự lái hoàn toàn.

Thách thức mấu chốt nhân lên 2 lần. Đầu tiên, chiếc xe phải vẽ bản đồ không gian actor – state (thực thể - trạng thái). Không gian actor – state biểu diễn môi trường bên ngoài xung quanh chiếc xe, gồm tất cả các đối tượng, phương tiện, con người …, và tình trạng hiện tại của chúng (đứng im, hướng, gia tốc, tốc độ, …)..

Thứ hai, chiếc xe cần tìm cách cư xử phù hợp. Hành động tốt nhất tiếp theo của nó là gì trong tình huống khách hàng đang cố gắng đi tới một nơi cho trước, các mối nguy hiểm xung quanh xe ngay bây giờ cũng đã biết?

Để làm điều này, mỗi chiếc xe cần một đống dữ liệu từ Lidar, cameras và các sensor. Lidar, viết tắt của “Light Detection and ranging” (phát hiện đèn và xếp hàng), là một sensor giống như radar, rất phổ biến trên nhiều xe tự lái (dù Tesla sử dụng công nghệ khác).

Một hệ thống con cần xử lý mối ghép sensor và các bước cảm biến trước khi các hệ thống con bổ sung lập kế hoạch hành động tiếp theo. Toàn bộ xử lý này xảy ra trên thiết bị (chiếc xe); ngay cả với mạng 5G, nguy cơ trễ khi khi dữ liệu theo tín hiệu dự báo cũng là quá lớn.

Khi đưa xe vào chế độ tự lái hoàn toàn và an toàn, toàn bộ việc xử lý cùng nhập liệu này ước tính mất khoảng 200 teraflop xử lý, tất cả về căn bản đều cần được thực hiện trong một giây hoặc khung thời gian nhỏ hơn.

200 teraflop là bao nhiêu? Ngày nay có quá nhiều tiêu chuẩn: nhiều chu trình khác xa định luật Moore. Để hoàn thành 200 nghìn tỷ phép tính dấu phẩy động trong khung thời gian một giây tính sơ sơ cần 10 chiếc iPhone theo mẫu hiện tại. Đặc biệt là với khả năng của thiết bị dùng Nvidia chạy trong các mẫu Tesla hiện tại. (Để công bằng, Ngài Musk có lẽ có thể đạt được mục tiêu của mình với các GPU Nvidia hiện tại nếu việc tối ưu hóa thuật toán cung cấp một bước thay đổi đáng kể trong hiệu suất tính toán.)

Lượng ô tô và xe tải sản xuất ra hằng năm khoảng 100 triệu xe trên toàn cầu. Điều này có nghĩa là để “thông minh”, toàn bộ sản lượng xe theo các giả định này sẽ yêu cầu tương đương với việc bổ sung khoảng 1 tỷ iPhone mỗi năm.

Sản lượng iPhone toàn cầu hiện nay đã đạt khoảng 200 triệu chiếc vào năm 2016. Vì thế để thông minh hóa số lượng ô tô trên, theo nghĩa thực, tương đương với việc tăng kích cỡ hiện tại của chip bán dẫn hỗ trợ trong ngành công nghiệp iPhone lên ít nhất 5 lần.

Mối quan tâm thứ hai là chi phí và sức tải của việc xử lý. Những chiếc xe tự lái cần có giá phải chăng. Và vì chúng hoạt động bằng điện, bộ não của nó sẽ phải được cấp nguồn hiệu quả. Một chiếc Tesla đốt khoảng 200 Watt giờ trên mỗi kilomet. Một chiếc GPU hiệu năng cao nhưng nguồn cấp cũng cao có lẽ cần thêm 1,2% điện năng tiêu thụ cho tải (Nvidia PX2 tiêu tốn 250W). Tăng công suất tải sẽ kéo theo giảm dải giá trị.

Chuyển dịch các bit đắt gần như chuyển dịch các nguyên tử
Xe tự lái có kết cục hấp dẫn hơn trong những yêu cầu tính toán tăng lên của chúng ta. Các phương pháp deep learning hiện đại cũng có những yêu cầu tính toán nhiều ý nghĩa. Một mạng neuron hiện đại có hàng tá các lớp liên kết và hàng tỷ biến số, đòi hỏi phải tăng thêm một bước trong công suất tính toán từ những gì chúng ta có hiện nay.

Như nhà phân tích AI Libby Kinsey phác thảo trong một bài luận gần đây, hầu hết các phương pháp đột phá trong deep learning đều sử dụng những lượng tính toán khổng lồ. Trong bất kỳ một hệ thống machine learning nào, dạy mô hình làm sao tiên đoán hiệu quả là bước tính toán đắt giá nhất. Bước thứ hai, áp dụng để sản xuất đầu ra hữu ích (còn gọi là tạo ra ý nghĩa), bước này rẻ hơn nhiều. Nhưng vẫn không phải là miễn phí.

Chỉ mới gần đây, vì lý do này, việc nhận dạng đối tượng đã bắt đầu dịch chuyển từ đám mây sang điện thoại di động. Tạo ra ý nghĩa một cách cục bộ sẽ cho phép machine learning ngay trên thiết bị - nghĩa là nó sẽ nhanh hơn và đáng tin cậy hơn khi các mạng dữ liệu chắp vá. Ví dụ hay cho điều này là khóa nhận dạng gương mặt theo sinh trắc học được sử dụng trên các mẫu điện thoại Samsung gần đây.

TensorFlow, một nền tảng phổ thông nhất để phát triển các mô hình deep learning, gần đây đã có trên các thiết bị Android. Tuy nhiên, nền tảng này hiện tại chỉ cho phép bước “tạo ra ý nghĩa” rẻ hơn kia. Đến cuối năm 2017, TensorFlow cũng không thể xây dựng xong các mô hình deep learning cho người học trên các thiết bị. Tất nhiên, chương trình đỉnh cao ở Silicon Valley đã đưa khả năng này vào thành một kiểu sử dụng cao cấp với ứng dụng “Not Hot Dog” (giờ rõ ràng đó đã là thật).

Chu trình tăng cường
Các thuật toán và xử lý chỉ là 2 khía cạnh của chu trình. Khía cạnh thứ 3 là dữ liệu. Khi sức mạnh xử lý tăng lên, chúng ta có thể sử dụng nhiều thuật toán yêu cầu hơn, nhờ đó có thể áp dụng cho nhiều dữ liệu hơn (vì thế yêu cầu đối với dữ liệu sensor dùng để đào tạo hoặc tạo ra ý nghĩa cũng sẽ tăng lên). Đến lượt nó sẽ làm tăng yêu cầu đối với xử lý hiệu quả, cho phép chúng ta tăng độ phức tạp của giải thuật.

Chu trình này gợi lại mối quan hệ giữa Microsoft và Intel trong quá trình thiết lập thế độc quyền song song Wintel. Với sự phát triển bộ vi xử lý của Intel, Microsoft có thể viết mã độc quyền và tạo những tính năng hấp thu toàn bộ khả năng của bộ xử lý. Tuy nhiên, với những tính năng mới của Microsoft, Intel bị hối thúc phải cải tiến. Khoảng trống trên đầu tạo ra từ các con chip mới gia tăng cho phép Microsoft (và hệ thống các nhà cung cấp phần mềm độc lập của họ) sử dụng khoảng trống này cho những thứ mới.




Những gì vòng lặp tăng cường này gợi ý cho thấy việc kết hợp sức mạnh xử lý ngày càng tăng và các thuật toán ra yêu cầu càng nhiều có thể điều khiển yêu cầu về dữ liệu rất lớn.

Và chúng ta đang nhìn thấy điều đó. Một ví dụ rõ ràng nhất là tầm nhìn của các cỗ máy, hiện tại chúng tương đối tốt khi được dùng là một nguồn dữ liệu chính cho phần mềm (thay vì chỉ là dữ liệu nhật ký, các mục nhập cơ sở dữ liệu hay đầu vào của người dùng). Những chiếc xe tự lái là ví dụ tuyệt vời cho việc này, nhưng các hệ thống sử dụng sinh trắc học hay cửa hàng Amazon Go cũng phụ thuộc nặng nề vào tầm nhìn của máy móc khi dùng nó làm đầu vào chính.

Nếu bạn muốn xem toàn bộ những thứ này hoạt động, hãy nhìn vào ngành công nghiệp camera sensor (cảm biến cho máy ảnh). Từ năm 2009 tới năm 2019, số lượng sensor CMOS bán được dự kiến tăng 3 lần.



Các cảm biến xuất đi trong năm 2008/9 có công việc chính là chụp ảnh mắt người để xử lý. Nhưng ngày càng có nhiều sensor chụp các loại hình ảnh để cho các thuật toán nhận dạng của máy móc xử lý. Nhiều bức ảnh con người sẽ không bao giờ có thể thấy được. Các pixel giờ đây được lập trình chỉ để phần mềm truy cập.

Giả sử tuổi thọ của một sensor CMOS cụ thể là 5 năm, chúng ta có thể mong đợi tới năm 2019 có khoảng 45 nghìn tỷ sensor của các camera số đang hoạt động. Sức mạnh phân giải của các sensor này cũng tăng lên. Định luật Hendy mô tả quan hệ tương tự định luật Moore, nhưng với mật độ pixel, tốc độ tăng trung bình hằng năm là 59%. Điều đó có nghĩa là một sensor xuất ra năm 2019 có lượng pixel gấp 100 lần của sensor xuất năm 2009. Và với khối lượng sensor xuất ra tăng cao không ngừng, chúng ta cũng sẽ thấy độ tăng lượng xuất ra trên mỗi đơn vị từ 2009 tới 2019 là 100%.

Tất cả các sensor này đều có khả năng tạo ra một lượng khổng lồ dữ liệu. Một số sensor, giống như camera thứ ba trên chiếc iPhone 7 Plus, sẽ không được dùng quá thường xuyên. Những sensor khác, như của CCTV hay IoT, sẽ sử dụng 24/7 để streaming các hình ảnh cần xử lý. Đội xe tự lái cho biết một chiếc xe tự lái sẽ cần có những chiếc sensor cho camera với độ phân giải 120-150 megapixel để streaming mọi lúc mọi nơi để đánh giá môi trường. (Để so sánh, một camera của iPhone 7 có sensor 50 megapixel. Một megapixel là đơn vị phân giải đồ họa tương đương 1.048.576 pixel).

Lidar sẽ tăng độ phân giải lên rất đáng kể. Như CEO của Intel, Brian Krzanich cho biết trong một bài báo gần đây:

Trong một chiếc xe hơi tự điều khiển, chúng ta phải tính toán các loại camera, radar, sonar, GPS và LIDAR – các thành phần cơ bản của cách lái mới này như các piston, vòng xoay, các khối động cơ. Các camera sẽ sinh ra 20-60 MB/s, radar khoảng trên 10kB/s, sonar 10-100 kB/s, GPS chạy ở 50kB/s, và LIDAR trong dài 10-70 MB/s. Với những con số này, mỗi phương tiện tự lái sẽ sinh ra khoảng 4.000 GB – hay 4 terabyte – dữ liệu một ngày.

Để so sánh, những người dùng internet trên di động lớn nhất thế giới, người Phần Lan, sử dụng trung bình 2,9 Gb dữ liệu mỗi tháng vào năm 2015. (Nói cách khác, nhu cầu dữ liệu hàng ngày của một chiếc xe tự lái tương đương với khoảng 40.000 người Phần Lan đang say sưa lướt Internet.)

Người ta dự đoán có khoảng 20-30 tỷ thiết bị IoT sử dụng trực tuyến vào năm 2020, dữ liệu streaming sẽ giúp xây dựng các đối tượng thông minh hơn, nhà thông minh, thông tin về phong cách sống của người tiêu dùng, đảm bảo kiểm soát an ninh và tiêu thụ năng lượng.

Đó chỉ là một số ít các ứng dụng mới đi vào trực tuyến. Còn có ít nhất 4 loại thiết bị khác sẽ tạo ra những đòi hỏi nặng nề, mà chúng ta không có chỗ để tìm hiểu sâu hơn ở bài viết này:
-          Thực tế ảo (Virtual Reality -VR) và thực tế ảo tăng cường (Augmented Reality – AR). AR và VR dựa gần như hoàn toàn vào khung nhìn của máy móc và việc mô hình hóa 3D cùng mô phỏng sẽ tạo ra những yêu cầu xử lý đáng kinh ngạc. (Một ví dụ về cách không gian AR/VR hình thành nên một keiretsu rộng lớn hơn, đó là việc Softbank đã đầu tư vào kẻ tiên phong trong lĩnh vực thế giới ảo, Improbable; bị ARM – một công ty bán dẫn - mua lại, và chiếm một phần đáng kể trong Nvidia.)
-          Ngành thông tin sinh học (Bioinformatics) phụ thuộc vào các tính toán khối lượng lớn, với hàng tỷ phần dữ liệu cần xử lý, phân tích và lưu trữ. Theo bài báo của 4 nhà khoa học máy tính người Đức năm 2009, kích thước cơ sở dữ liệu của chuỗi AND tăng gấp đôi mỗi năm, một tỷ lệ tăng tốc độ khiến hiệu suất các máy tính hiện nay khó mà theo kịp.
-          Ngành sinh học tính toán (Computational Biology) nơi các mô phỏng tính toán và mô hình hóa được sử dụng để nghiên cứu các hệ thống sinh học, cũng sẽ làm tăng yêu cầu đối với các chu trình.
-          Tiền ảo (hay tiền kỹ thuật số - cryptocurrency) có các yêu cầu tính toán riêng ở mức độ mining (mining – thường dịch trong tiếng Việt là ‘khai phá’, ‘khai thác’ – là việc ứng dụng các thuật toán để tìm kiếm một số mẫu trong tập dữ liệu khổng lồ).

Chiếc bánh xe của công nghệ tính toán đang sinh ra nhiều ứng dụng mới, sinh ra nhiều giải pháp với thuật toán mới, sinh ra nhiều đòi hỏi về mặt dữ liệu hơn, sinh ra nhiều đòi hỏi về mặt tính toán hơn, và nó sẽ không dừng lại. Nó sẽ tăng tốc và khiến chúng ta phải so sánh các chu trình tính toán trước đây và các ranh giới phần mềm đang có.

Nhu cầu của xe tự lái là một cơ hội để chúng ta hướng dần tới ngành công nghiệp lớn gấp 5 lần iPhone mỗi năm. Nhiều ứng dụng mới khác trong lĩnh vực machine learning cũng sẽ gia tăng nhu cầu tính toán hơn nữa và khiến ngành công nghiệp bán dẫn tăng theo cho phù hợp.

Azeem
Dịch từ Medium

Chuẩn bị cho một khóa thiền Vipassana 10 ngày như thế nào?

Vì liên tục có nhiều bạn hỏi về các khóa thiền Vipassana mà mình thi thoảng tham gia, để không phải giải thích lại nhiều lần, mình viết các ...