Vỏ Não Thị Giác Của Cỗ Máy Thao Túng

Trích đoạn từ cuốn sách "Cỗ máy thao túng" của Sinan Aral

Bằng những ví dụ như trường hợp về cuộc bầu cử tổng thống Hoa Kỳ năm 2016 hay đại dịch COVID-19, Sinan Aral, giáo sư quản lý tại Viện Công nghệ Massachusetts (MIT), đã chỉ ra rằng các nền tảng truyền thông xã hội như Facebook, Twitter và Instagram đã trở thành một “cỗ máy thao túng” khuếch đại, truyền bá thông tin sai lệch, thuyết âm mưu và nội dung độc hại, được sử dụng để thao túng dư luận. Trong cuốn sách, Aral cũng thảo luận về tác động kinh tế của mạng xã hội, lập luận rằng nó đã dẫn đến sự gia tăng của “những người có ảnh hưởng kỹ thuật số” và một kỷ nguyên tiếp thị mới ưu tiên nội dung thu hút sự chú ý hơn chất lượng hoặc độ chính xác. Ông cũng khám phá những cách mà mạng xã hội đã ảnh hưởng đến sức khỏe thể chất và tinh thần của chúng ta, trích dẫn các nghiên cứu về mối liên hệ giữa việc sử dụng mạng xã hội với tỷ lệ trầm cảm, lo lắng và nghiện ngập gia tăng.

“Cỗ máy thao túng” là một cuốn sách kịp thời và quan trọng, cung cấp một phân tích sắc thái về những cách thức phức tạp mà mạng xã hội đang biến đổi xã hội của chúng ta. Những hiểu biết sâu sắc và đề xuất của Aral dựa trên nghiên cứu nghiêm ngặt và cung cấp một lộ trình có giá trị về cách chúng ta có thể thích ứng với những thách thức do mạng xã hội đặt ra đồng thời khai thác tiềm năng thay đổi tích cực của nó.

Nhìn chung, chúng ta dành 100 triệu giờ để xem tám tỷ video trên Facebook mỗi ngày. Video chiếm 80% tổng lưu lượng truy cập Internet của người dùng, và trong khi người dùng nắm bắt được 10% nội dung thông tin họ đã đọc, thì đối với video, khả năng nắm bắt của họ lên tới 95%. Hãy suy ngẫm về điều này. Nói cách khác, video – chứ không phải văn bản – là phương tiện chủ chốt ngày nay của Cỗ máy Thao túng. Mặc dù công nghệ phân tích văn bản (text analysis) rất quan trọng với Cỗ máy Thao túng vào giai đoạn sơ khởi, nhưng ngày nay các nền tảng mạng xã hội hiểu thấu về thế giới bằng cách thu nạp và nắm bắt video, hay những hình ảnh chuyển động. Khi nhìn lại, không có gì ngạc nhiên khi Snapchat bắt đầu phát hành cổ phiếu dưới danh nghĩa là một “công ty máy ảnh”, và giờ đây được xem như một ứng dụng chụp ảnh trên điện thoại của chúng ta. Facebook cũng tập trung mạnh vào mảng video khi mua lại Instagram vào năm 2012, sau đó chuyển tính năng Stories[1] của họ sang nền tảng này.

Các video cực kỳ phong phú về mặt nội dung. Việc xử lý được chúng là rất quan trọng để có thể thực hiện gắn thẻ (tag) những người có trong video, ngữ cảnh của họ, tâm trạng và hành động của từng người trong hình, vị trí của khung cảnh trong hình, thời tiết khi đó, và mối liên hệ giữa tất cả các yếu tố này. Trong số tám tỷ video chúng ta xem hàng ngày trên nền tảng, Facebook cần cảm nhận và hiểu được tất cả các dữ liệu trong những video này theo thời gian thực. Sự nắm bắt này là rất quan trọng để nâng cao chất lượng chức năng tìm kiếm video, hiệu quả quảng cáo, các tính năng hỗ trợ truy cập giúp người mù hiểu được nội dung video, và thậm chí cả nền tảng bán hàng của Facebook[2], nơi người mua kẻ bán đăng ảnh và video về các sản phẩm được rao bán mà không cần cung cấp nhiều câu chữ giới thiệu sản phẩm.

Tôi đã hiểu thêm về công nghệ phân tích video sau quá trình hợp tác với VidMob, một trong những nền tảng phân tích video hàng đầu thế giới. Công ty này tập trung hoàn toàn vào khía cạnh video do rằng, như lời ví von ưa thích của giám đốc điều hành Alex Collmer, “video đang nuốt chửng thế giới”. VidMob thuộc danh mục đầu tư của Manifest Capital, quỹ đầu tư mạo hiểm tôi thành lập vào năm 2016 cùng người bạn lâu năm và cũng là đối tác kinh doanh Paul Falzone. Tôi làm việc trực tiếp với VidMob để phát triển Agile Creative Studio (ACS), nền tảng hàng đầu về tối ưu hóa video. Tối ưu hóa video là một thử thách; nó đòi hỏi sự phối hợp rối ren giữa máy học, thị giác máy tính (computer vision[3]), mô hình dự đoán (predictive modeling[4]) và kỹ thuật tối ưu hóa. Nhưng phương thức thực hiện cơ bản thì tương đối dễ hiểu.

Mục đích chính [của tối ưu hóa video] là phân tích, theo từng giây một, xem video có gì trong đó, cũng như nội dung, ngữ cảnh, mạch cảm xúc và sắc thái bao trùm trong video, đồng thời so sánh sự xuất hiện (hay thiếu vắng) của các yếu tố này lên các chỉ số đo lường hiệu quả (key performance indicators, hay KPI) như số lượt xem, tỷ lệ giữ chân người xem (retention rate) và tỷ lệ người xem bỏ ngang (drop-off rate), số lần nhấp chuột, mức độ tương tác, hay mức độ nhận diện hoặc hài lòng với thương hiệu. Bằng cách khép kín vòng lặp các công đoạn sản xuất, phân tích, tối ưu hóa và đăng tải video, VidMob có thể cải thiện lợi tức đầu tư tiếp thị của khách hàng.

ACS tự động trích xuất siêu dữ liệu (metadata[5]) và phân tích mạch cảm xúc trong video. Nó sử dụng công nghệ học sâu và thị giác máy tính để nhận diện cảm xúc, đồ vật, biểu trưng (logo), con người và câu chữ trong video; nó có thể nhận ra các biểu cảm khuôn mặt như thích thú, ngạc nhiên hoặc khinh miệt. Tiếp theo, nó phân tích từng yếu tố này với các thời điểm tương ứng, chẳng hạn như khi người xem bỏ ngang video, để rồi sau đó nó đề xuất (hay tự động hóa) các chỉnh sửa nhằm tăng tỷ lệ giữ chân người xem. Việc gắn thẻ đồ vật, con người, ngôn ngữ và cảm xúc cũng cho phép khách hàng [của công ty] sắp xếp và tìm kiếm nội dung video theo các thuộc tính hình ảnh và ngôn ngữ. Kỹ thuật xử lý ngôn ngữ cho phép VidMob gỡ băng (transcribe) và phân tích văn bản trong video, đồng thời phân tích các yếu tố như thời gian xuất hiện, hay kích thước của văn bản hoặc biểu trưng, ảnh hưởng như nào đến chất lượng video. Như Alex chia sẻ, “Những thông tin nội quan (insight) này cho thấy vì sao chúng tôi thực sự tin rằng vai trò của AI là trao quyền và thúc đẩy khả năng sáng tạo của con người”.

Facebook đã phát triển một nền tảng phân tích video tương tự có tên Lumos; Manohar Paluri[6], người đứng đầu bộ phận Computer Vision (Tầm nhìn Máy tính) của công ty, gọi nền tảng này là “vỏ não thị giác” của Facebook. Vỏ não thị giác là một phần của bộ não có nhiệm vụ xử lý các xung thần kinh cảm giác từ mắt. Lumos xử lý những nội dung từ các video chúng ta xem trên Facebook, hệt như cách nền tảng ACS của VidMob hỗ trợ các khách hàng tiếp thị của mình. Hệ thống sử dụng các mạng học sâu dư thừa (deep residual learning networks), một dạng máy học xếp chồng các mạng thần kinh nhân tạo nhiều lớp lên nhau, để phân loại hình ảnh bằng cách kết nối các lớp ở nhiều độ sâu cùng một lúc. Các mẫu hình của nó có thể mở rộng quy mô xử lý video một cách chính xác để phân tích lượng video khổng lồ Facebook tiếp nhận hàng ngày.

Những gì hệ thống này có thể xử lý được là khá phi thường. Lumos không chỉ gắn thẻ các đồ vật, biểu trưng và câu chữ trong video, mà còn thực hiện được những thao tác nhận dạng khuôn mặt tinh vi để nhận diện được từng cá thể người, cùng biểu cảm nét mặt từng người. Nó cũng đồng thời nhận định về dáng điệu của họ. Ví dụ, nó có thể biết được chúng ta đang ngồi, đang đứng hay vung tay. Khi đã nắm được điều này, nó có thể bắt đầu suy luận xem chúng ta đang làm gì – liệu chúng ta có đang chạy bộ, đạp xe, trượt tuyết, khiêu vũ hay chơi quần vợt. Nó phân tích ngữ điệu và âm thanh để xem mọi người đang nói về chủ đề gì hoặc đang nghe thể loại âm nhạc nào; nó nhận diện nét mặt để phân loại cảm xúc của chúng ta. Như Joaquin Quiñonero Candela, giám đốc bộ phận máy học ứng dụng của Facebook, cho biết, “Chúng tôi đã nâng cấp thị giác máy tính lên một tầm cao mới với mục tiêu là có thể phân tích hình ảnh ở cấp độ từng pixel”.

Hiểu biết trực quan không chỉ quan trọng để thấu hiểu cách Facebook cung cấp cho chúng ta các quảng cáo và nội dung, mà còn giúp để hiểu xem những phát kiến của Facebook có thể giảm thiểu các tác động tiêu cực lên chúng ta như thế nào. Nếu Lumos có thể nắm bắt được các hành động tản bộ, khiêu vũ hoặc cưỡi ngựa của chúng ta, nó có thể được huấn luyện để nhận biết hành vi bạo lực, xâm hại tình dục, các hoạt động bất chính hoặc phi pháp, hay tin giả hoặc nội dung rác. (Trong Chương 11 tôi sẽ bàn luận về cách các phần mềm như Lumos có thể được sử dụng cho các mục đích tốt đẹp như thế nào).

Vỏ não thị giác là một ví dụ về khía cạnh “tri giác” của Vòng lặp Cảm nhận và Vòng lặp Gợi ý. Bước tiếp theo trong vòng lặp mô tả các thuật toán đề xuất của Cỗ máy Thao túng, chẳng hạn như thuật toán gợi ý kết bạn (hay “những người bạn có thể biết”) và thuật toán nguồn cấp tin tức; cả hai hiện đều phổ biến trên tất cả các nền tảng truyền thông mạng xã hội.

 

Chú thích:

[1] Được giới thiệu vào tháng 3 năm 2017, Facebook Stories là bộ sưu tập ảnh hoặc video ngắn do người dùng tạo ra có thể được tải lên tài khoản Facebook của người dùng.

[2] Được giới thiệu vào năm 2007, Facebook Marketplace cho phép người dùng đăng các quảng cáo về mua bán, nhà ở và việc làm. Tuy nhiên, tính năng này chưa bao giờ đạt được sứ.

[3] Một lĩnh vực của trí tuệ nhân tạo cho phép máy tính và hệ thống lấy thông tin có ý nghĩa từ hình ảnh số, video và các đầu vào trực quan (visual inputs) khác.

[4] Các mô hình có thể dự báo các sự kiện hoặc xu hướng trong tương lai dựa trên dữ liệu lịch sử.

[5] Dạng dữ liệu mô tả thông tin chi tiết về dữ liệu.

[6] Giám đốc bộ phận trí tuệ nhân tạo của Facebook.

Bản lưu cuộc trò chuyện Book Exploring #10: Cỗ máy thao túng

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *