Tesla vẫn kiên quyết theo đuổi con đường trực quan. Liệu LiDAR có chiến thắng cuối cùng không? Tesla vẫn kiên quyết theo đuổi con đường trực quan. Liệu LiDAR có chiến thắng cuối cùng không?

Tesla vẫn kiên quyết theo đuổi con đường trực quan. Liệu LiDAR có chiến thắng cuối cùng không?

Gần đây, Musk đã thể hiện sức mạnh của mình tại Ngày AI của Tesla. Sự xuất hiện của robot hình người, siêu máy tính Dojo và việc trình diễn nguyên lý hoạt động của tuyến đường trực quan thuần túy đều cho thấy sự tự tin của ông vào công nghệ. Trong khi nhiều nhà sản xuất đã chọn giải pháp lidar làm con đường nhận thức trực quan, Tesla vẫn kiên trì với con đường trực quan thuần túy và đã giương cao ngọn cờ và tiến sâu hơn.

Chúng ta biết rằng nguyên tắc cơ bản của việc lái xe tự động là sự kết hợp của ba bước: nhận thức, ra quyết định và thực hiện. Lớp nhận thức sử dụng các cảm biến thị giác để thu thập thông tin về tình trạng đường sá xung quanh, xử lý dữ liệu thông qua thiết bị trên thân xe và đám mây, đồng thời thu thập các lệnh thực thi, cho phép xe có khả năng lái tự động. Trong ba bước cơ bản, nhận thức là bước đầu tiên và đóng vai trò tiên quyết trong việc ra quyết định và thực hiện tiếp theo. Ở cấp độ nhận thức, hiện nay có hai phương pháp kỹ thuật trên thị trường: nhận thức thị giác và nhận thức lidar.

Phe radar laser tin rằng độ chính xác về nhận thức hình ảnh của camera là không đủ. Nếu muốn phát triển xe tự hành lên cấp độ L3 hoặc cao hơn thì cần sử dụng radar laser. Trường phái nhận thức thị giác tin rằng thông tin về môi trường mà máy ảnh thu nhận được rất giàu dữ liệu và các vật thể có thể được phân loại và dán nhãn dễ dàng sau này. Quan trọng nhất là chi phí thấp, đây là điều mà lidar không làm được.

Cho dù phân tích theo góc độ kỹ thuật hay chi phí, sự khác biệt cốt lõi giữa hai giải pháp nằm ở chỗ liệu có cần sự hỗ trợ của lidar để đạt được khả năng lái xe tự động cấp cao hay không. Hai phe tranh cãi không ngừng về việc phe nào tốt hơn. Vậy thì trong hai con đường kỹ thuật, con đường nào sẽ chiến thắng?

So sánh hiệu suất của LiDAR với Visual Perception

Công nghệ cảm biến LiDAR chủ yếu là LiDAR, kết hợp với radar sóng milimet, cảm biến siêu âm và camera làm thành phần phụ trợ. Nguyên lý hoạt động của LiDAR trong việc cảm biến môi trường là phát ra chùm tia laser qua LiDAR và đo độ lệch thời gian và độ lệch pha giữa quá trình phát ra và thu hồi để xác định khoảng cách tương đối giữa xe và vật thể, qua đó thực hiện chức năng nhận thức môi trường theo thời gian thực và tránh chướng ngại vật.

LiDAR có khoảng cách phát hiện xa, độ chính xác cao và khả năng chống nhiễu mạnh. Nó có thể chủ động phát hiện nhiều vật thể trong môi trường xung quanh, thu thập đám mây điểm môi trường xung quanh và xây dựng mô hình môi trường 3D. Ngay cả khi ánh sáng yếu vào ban đêm, điều đó cũng không ảnh hưởng đến hiệu quả phát hiện. Mặc dù LiDAR không sợ ánh sáng tối nhưng nó lại nhạy cảm với thời tiết. Mưa, tuyết, bụi, sương mù và các điều kiện thời tiết khác có thể ảnh hưởng đến hiệu quả nhận dạng của LiDAR. Giải pháp lập bản đồ có độ chính xác cao bằng công nghệ LiDAR có thể khắc phục hiệu quả những khiếm khuyết của giải pháp trực quan về tính phụ thuộc cao vào môi trường và yêu cầu công suất tính toán lớn. Những lợi thế về hiệu suất đã khiến hầu hết các nhà sản xuất ô tô liệt kê LiDAR là thiết bị nhận thức không thể thiếu cho xe tự lái cấp độ 3 trở lên.

Nhận thức thị giác là giải pháp do camera thống trị và chi phí cho camera có lợi thế hơn nhiều so với lidar. Giá của một chiếc camera vào khoảng vài chục đô la, trong khi giá của một lidar là vài trăm đô la, cao gấp nhiều lần. Hơn nữa, công nghệ máy ảnh đã dần hoàn thiện và công nghệ hình ảnh có độ phân giải cao, tốc độ khung hình cao đã giúp thông tin về môi trường được nhận biết trở nên phong phú hơn, nhưng khả năng nhận biết của máy ảnh bị hạn chế trong môi trường tối và độ chính xác cũng như độ an toàn của nó cũng giảm sút.

Ví dụ, sự cố phanh ma bị chỉ trích nhiều nhất của Tesla xảy ra ở khu vực tối của một số đường hầm và cây cầu. Do cấu trúc của camera, thuật toán coi những cái bóng xuất hiện đột ngột là chướng ngại vật, khiến xe đột nhiên tự động giảm tốc độ, gây nguy hiểm cho an toàn. Khi so sánh hiệu suất phần cứng trong giải pháp hình ảnh, chức năng camera bị ảnh hưởng ngay lập tức. Nhờ bổ sung các thuật toán phần mềm, các giải pháp trực quan có thể dựa vào các thuật toán mạnh mẽ để đảm bảo các chức năng xử lý hình ảnh và thực hiện quyết định diễn ra bình thường.

So với lidar, nhận thức thị giác có điểm yếu rõ ràng hơn: camera phụ thuộc vào điều kiện ánh sáng, độ chính xác nhận thức thấp, phụ thuộc nhiều vào và yêu cầu thuật toán và sức mạnh tính toán, đồng thời có rào cản lớn đối với việc thu thập dữ liệu và lặp lại thuật toán. Về hiệu suất, lidar rõ ràng vượt trội hơn. Tesla đã chi rất nhiều chi phí cho sức mạnh tính toán và thuật toán, và đã đầu tư rất nhiều. Tuy nhiên, nó luôn nhấn mạnh vào con đường nhận thức trực quan. Những cân nhắc là gì?

Tesla tập trung vào logic lộ trình trực quan thuần túy

Theo quan điểm của Musk, "nhận thức thị giác thuần túy là con đường dẫn đến AI thực tế" và đây cũng là cách tiếp cận của ông để giải quyết vấn đề.

Ý tưởng cơ bản của nguyên lý đầu tiên là quay trở lại những điều kiện cơ bản nhất của sự vật, chia nhỏ chúng thành nhiều yếu tố khác nhau để phân tích cấu trúc và từ đó tìm ra con đường tối ưu để đạt được mục tiêu.

Khi lái xe, chúng ta thu thập thông tin về tình trạng đường sá bằng mắt và xử lý thông tin đó với sự trợ giúp của não bộ. Về mặt lý thuyết, xe tự lái cũng có thể lái xe an toàn thông qua nhận thức thị giác được hỗ trợ bởi quá trình xử lý thuật toán. Điều Tesla muốn làm là mô phỏng khả năng thị giác của con người để thu thập thông tin nhằm đạt được khả năng lái xe tự động. Do phương pháp nhận dạng của camera trực quan có độ chính xác thấp nên Tesla dựa vào lợi thế dữ liệu độc đáo và khả năng xây dựng sức mạnh tính toán và thuật toán để khắc phục khiếm khuyết này.

Về mặt dữ liệu, trong khi các nhà sản xuất xe tự hành khác vẫn đang thu thập dữ liệu trong giai đoạn thử nghiệm trên đường, Tesla đã tích lũy được một lượng lớn dữ liệu về điều kiện đường thực tế nhờ hàng triệu chiếc ô tô được trang bị camera được bán trên toàn thế giới. Dữ liệu được sử dụng để đào tạo các mô hình học sâu từ lâu đã tạo ra rào cản cho các thuật toán của Tesla, và tốc độ tích lũy các mẫu dữ liệu này cũng như hiệu quả của các thuật toán không thể được các nhà sản xuất khác sao chép, những người chỉ có thể bất lực nhìn.

Về khả năng tính toán, siêu máy tính Dojo mới thành lập của Tesla có khả năng tính toán cực mạnh. Siêu máy tính này được thiết lập cho hệ thống lái xe tự động của Tesla để tập trung vào việc đào tạo toàn bộ hệ thống lái xe tự động bao gồm cả Autopilot.

Về mặt kỹ thuật của camera, Tesla cũng đã có những cải tiến công nghệ khi sử dụng công nghệ "lidar giả" để ước tính độ sâu trên các điểm ảnh trong camera. Chức năng đám mây điểm tương tự như lidar thường tạo thành khả năng phát hiện mục tiêu 3D, giúp cải thiện độ chính xác của ước tính độ sâu. Khoảng cách giữa lidar và camera đã bắt đầu thu hẹp.

Mọi người dựa vào tầm nhìn khi lái xe. Mạng lưới nơ-ron của chúng ta có thể xử lý các tín hiệu như khoảng cách và tốc độ trong thông tin hình ảnh, và mạng lưới nơ-ron của Tesla dường như cũng có thể thực hiện điều tương tự một cách dần dần. Lộ trình nhận thức trực quan của Tesla đang dần thu hẹp khoảng cách với giải pháp lidar, nhưng cái giá phải trả đằng sau nó khiến những người đi sau không thể bắt chước và sao chép, điều này cũng tạo nên rào cản lớn đối với Tesla. Giải pháp thị giác thuần túy được hỗ trợ bởi quá trình đào tạo và học dữ liệu mẫu khổng lồ cùng sức mạnh tính toán của thuật toán xử lý hình ảnh tiên tiến và được cho là sẽ là một lộ trình khó khăn mà một số ít người leo núi lựa chọn.

Nhà khoa học AI hàng đầu của Tesla, Karpathy, cho biết tại hội thảo về xe tự hành CVPR 2021 năm nay rằng các giải pháp xe tự hành hoàn toàn dựa trên tầm nhìn khó triển khai hơn về mặt kỹ thuật vì chúng yêu cầu mạng nơ-ron phải chạy rất tốt chỉ dựa trên dữ liệu video. Nhưng mặt tích cực là "khi bạn thực sự đưa nó vào hoạt động, nó sẽ trở thành một hệ thống tầm nhìn toàn cầu có thể được triển khai ở bất cứ đâu trên hành tinh".

Trong tương lai, hệ thống nhận thức thị giác sẽ không chỉ được triển khai trong ô tô mà còn trong bất kỳ sản phẩm nào khác đòi hỏi chức năng của hệ thống thị giác, chẳng hạn như robot, máy bay không người lái, AR/VR, v.v., trở thành một khả năng phổ biến, đây cũng là cân nhắc và tham vọng trong tương lai của Tesla. Mặc dù tầm nhìn tương lai của Tesla rất đẹp nhưng trên thực tế vẫn còn khoảng cách giữa các giải pháp nhận thức thị giác hiện tại và các giải pháp lidar. Chúng ta vẫn thấy trên báo chí những vụ tai nạn liên quan đến xe Tesla gây ra do vấn đề về nhận dạng và tri giác. Hiện tại, nhóm LiDAR vẫn đang dẫn đầu về mặt an toàn.

Liệu LiDAR có chiến thắng cuối cùng không?

Trường phái nào sẽ chiến thắng cũng sẽ phụ thuộc vào trường phái nào có tốc độ sản xuất hàng loạt hoặc tốc độ lặp lại công nghệ hình ảnh nhanh hơn. Qua dữ liệu, chúng ta có thể thấy ngày càng có nhiều công ty radar mới được đăng ký. Dữ liệu cho thấy hiện nay có 14.000 công ty liên quan đến radar tại quốc gia tôi, trong đó có 2.640 công ty mới đăng ký vào năm 2020, tăng 29,3% so với cùng kỳ năm trước. Các sản phẩm lidar giá rẻ do các công ty niêm yết Hesai Technology và gã khổng lồ Huawei tung ra đã sẵn sàng để sản xuất hàng loạt.

Xu hướng tăng trưởng về phía cung được thúc đẩy bởi nhu cầu lớn về phía cầu. Hầu hết các công ty tham gia vào lĩnh vực xe tự hành cấp độ 3 và cấp độ 4, bao gồm cả các công ty khởi nghiệp và công ty lớn, đều đã áp dụng lidar và hầu hết trong số họ mua lidar thay vì tự phát triển.

Giải pháp LiDAR có thể được thị trường chấp nhận mặc dù chi phí tạm thời khá cao do những lợi thế về an toàn mà hiệu suất phần cứng có độ chính xác cao mang lại. Hầu hết người chơi đều chấp nhận giải pháp LiDAR, dẫn đến nhu cầu lớn. Năng lực sản xuất cũng tăng lên tương ứng và quá trình sản xuất hàng loạt trên quy mô lớn đang được tiến hành. Trong tương lai, chi phí sẽ tiếp tục giảm do lợi thế về quy mô, qua đó thiết lập một vòng tròn lành mạnh.

Sau hơn 10 năm phát triển, lidar đã được chứng minh là cảm biến thiết yếu để đạt được khả năng lái xe tự động cấp cao. Trong tình hình này, Tesla cũng rất muốn phát triển nó và đồng thời thể hiện sức mạnh của mình và tuyển dụng nhân sự. Trước đó, thông tin Tesla đã ký hợp đồng với công ty công nghệ lidar Luminar để sử dụng lidar để thử nghiệm và phát triển đã làm dấy lên sự đồn đoán của mọi người. Mặc dù Tesla sau đó đã làm rõ rằng họ sẽ theo đuổi con đường tầm nhìn thuần túy, nhưng ý định của họ khi sử dụng lidar vẫn khó có thể dự đoán được.

Nếu xét theo góc nhìn thuần túy, camera có giá rẻ nhưng độ an toàn của chúng vẫn còn là dấu hỏi. Nó liên quan đến thuật toán và sức mạnh tính toán. Tesla dựa vào dữ liệu khổng lồ và siêu máy tính của riêng mình, một lợi thế mà không ai có thể bắt chước được. Điều này có nghĩa là con đường trực quan thuần túy sẽ vượt trội hơn hẳn hoặc ngang bằng, nhưng các công ty khác trên thị trường sẽ không thể đi theo con đường nhận thức trực quan bất kể kết quả là gì. Nếu không có kỹ năng tham gia, đây sẽ là một trò chơi khiến người chơi phải thót tim.

Về lâu dài, hai tuyến đường nhận thức trực quan này vẫn sẽ gây tranh cãi vì chi phí và tính an toàn. Hiện tại, tốc độ phát triển quy mô lớn của lidar và tốc độ phát triển công nghệ thị giác thuần túy của Tesla vẫn chưa rõ ràng, nên khó có thể nói liệu lidar có thể chiếm ưu thế hay không. Nhưng hiện tại, so với sự phát triển chưa từng thấy của công nghệ nhận thức thị giác, giải pháp lidar đã trên con đường sản xuất hàng loạt quy mô lớn và xu hướng phát triển tươi sáng của nó mang lại cho thế hệ này sự tự tin để chào đón tương lai với nụ cười.