Grok Vision – “Đôi mắt” mới của trí tuệ nhân tạo từ xAI, thách thức Google và OpenAI
https://fptshop.com.vn/https://fptshop.com.vn/
Tâm An
1 năm trước

Grok Vision – “Đôi mắt” mới của trí tuệ nhân tạo từ xAI, thách thức Google và OpenAI

xAI - startup do Elon Musk hậu thuẫn vừa tung ra một quân bài chiến lược mang tên Grok Vision. Ra mắt chính thức vào ngày thứ Ba tuần trước, tính năng mới này cho phép chatbot Grok “nhìn thấy” thế giới thực qua camera smartphone và quan trọng hơn, hiểu được những gì nó đang nhìn.
Chia sẻ:
Cỡ chữ nhỏ
Cỡ chữ nhỏ
Cỡ chữ lớn
Nội dung bài viết
Grok Vision: Biến camera thành công cụ hiểu biết

Đây không chỉ là một bản cập nhật tính năng mà còn là dấu mốc mở ra kỷ nguyên tương tác AI mang tính trực giác cao, nơi hội tụ giữa AI hội thoại, AI thị giác và AI âm thanh.

Grok Vision: Biến camera thành công cụ hiểu biết

Cốt lõi của Grok Vision là khả năng xử lý hình ảnh thời gian thực bằng camera điện thoại. Người dùng chỉ cần đưa máy lên, hướng về một vật thể, biển hiệu, tài liệu hoặc môi trường xung quanh và đặt câu hỏi như “Đây là gì?”, “Tác phẩm này thuộc thời kỳ nào?” hoặc “Có gì đáng chú ý trong bức ảnh này?”. Ngay lập tức, Grok phản hồi bằng câu trả lời chi tiết, gãy gọn, đúng phong cách hội thoại.

Khác với Google Lens vốn dựa vào giao diện tìm kiếm truyền thống, Grok Vision được tích hợp trực tiếp vào chatbot Grok, cho phép người dùng hỏi đáp linh hoạt, giống như đang trò chuyện với một chuyên gia thị giác máy tính. Đây là bước tiến giúp AI thoát khỏi giới hạn phân tích văn bản, tiến tới “hiểu thế giới bằng hình ảnh”, vốn là bước tiếp theo trong hành trình xây dựng trí tuệ đa phương thức (multimodal AI).

Grok Vision – “Đôi mắt” mới của trí tuệ nhân tạo từ xAI, thách thức Google và OpenAI

Tính năng này được xây dựng trên nền tảng mô hình học sâu được đào tạo chuyên biệt cho nhận diện hình ảnh, tương tự các kỹ thuật được dùng trong Google Gemini hoặc GPT-4V (Vision) của OpenAI. Tuy nhiên, điểm khác biệt của Grok là tốc độ xử lý nhẹ nhàng, tích hợp trực tiếp trong app, không cần tải hình ảnh lên máy chủ trung gian. Hiện tính năng mới đã khả dụng trên iOS, trong khi phiên bản Android có thể cần thêm thời gian tối ưu hóa bảo mật và hiệu suất.

Grok Vision không đứng riêng lẻ. Nó còn là mảnh ghép quan trọng trong gói đăng ký SuperGrok trị giá 30 USD (khoảng 780 nghìn đồng)/tháng, nơi người dùng được truy cập vào nhận diện hình ảnh thời gian thực (Grok Vision), giao tiếp bằng giọng nói và đa ngôn ngữ, truy xuất thông tin thời gian thực, tính năng “memory” lưu trữ nội dung hội thoại và khả năng tạo nội dung bằng canvas trực quan.

xAI đang xây dựng một siêu trợ lý AI với khả năng hiểu cả văn bản, hình ảnh và âm thanh, trong khi vẫn duy trì phong cách hội thoại đơn giản, trực quan. Đây là đối trọng trực tiếp với gói GPT Plus từ OpenAI hoặc Gemini Advanced của Google.

Khả năng ứng dụng của Grok Vision là cực kỳ rộng. Trong giáo dục, học sinh có thể quét hình ảnh sách, sơ đồ hoặc vật thể tự nhiên để nhận diễn giải tức thì. Trong thương mại điện tử, người dùng có thể kiểm tra tính xác thực sản phẩm, so sánh giá hoặc tra cứu xuất xứ chỉ với một lần quét camera.

Trong lĩnh vực y tế, khả năng nhận diện thị giác kết hợp với mô hình ngôn ngữ có thể hỗ trợ phân tích ảnh chụp sơ bộ (dù không thay thế bác sĩ) hoặc theo dõi thay đổi môi trường, cảnh báo nguy cơ tiềm ẩn. Các doanh nghiệp cũng có thể tích hợp Grok Vision để hỗ trợ khách hàng theo cách chưa từng có, từ hướng dẫn lắp đặt thiết bị, nhận diện lỗi phần cứng, đến dịch thuật bảng hướng dẫn.

Tất nhiên, các vấn đề về quyền riêng tư và an ninh dữ liệu vẫn là điểm nghẽn cần được giải quyết, đặc biệt khi AI thị giác tiếp xúc với nội dung cá nhân và không gian thực

Song song với Grok Vision, xAI vừa triển khai tính năng “memory”, cho phép AI ghi nhớ thông tin từ các cuộc trò chuyện trước đó, biến Grok thành một trợ lý ngày càng thấu hiểu người dùng hơn. Đây là bước đi được đánh giá cao, tương tự như tính năng ghi nhớ sắp triển khai của ChatGPT, nhưng có lợi thế khi kết hợp với khả năng xử lý hình ảnh trực tiếp.

Công cụ “canvas” dạng bảng làm việc tương tác cũng bắt đầu được thử nghiệm, đưa Grok ra khỏi khung chat truyền thống để bước vào lĩnh vực sáng tạo nội dung, giống như cách Notion AI hay Microsoft Copilot đang làm.

Nguồn: TechCrunch

Thương hiệu đảm bảo

Thương hiệu đảm bảo

Nhập khẩu, bảo hành chính hãng

Đổi trả dễ dàng

Đổi trả dễ dàng

Theo chính sách đổi trả tại FPT Shop

Giao hàng tận nơi

Giao hàng tận nơi

Trên toàn quốc

Sản phẩm chất lượng

Sản phẩm chất lượng

Đảm bảo tương thích và độ bền cao