Chức năng tóm tắt
Lượt xem: 13885

Chức năng của các công cụ tóm tắt văn bản tự động

resoomer

Trong thời gian gần đây, mọi người thường hay tìm kiếm trên internet, rất dễ dàng để có được thông tin về bất cứ điều gì. Trong nhiều trường hợp, thông tin chúng ta nhận được từ các công cụ tìm kiếm có thể không chính xác với những gì chúng ta mong đợi. Để tìm hiểu mỗi trang web viết về điều gì, chúng ta xem qua các đoạn nhỏ dưới mỗi liên kết. Những đoạn nhỏ này là tóm tắt ý chính của bài viết. Vì có rất nhiều dữ liệu từ các bài báo, tin tức, trang web, blog và nghiên cứu được tải lên trên internet mỗi ngày, nên việc tóm tắt thủ công từng bài viết là điều không thể.

Google, Bing, Yahoo và các công cụ tìm kiếm khác sử dụng các công cụ tóm lược văn bản tự động để tạo ra các bản tóm tắt cho các tài liệu văn bản dài. Tóm tắt là loại bỏ có hệ thống các câu từ tài liệu và cấu trúc lại theo cách dễ đọc. Điều này được thực hiện bằng cách xác định các phần văn bản quan trọng nhất để tạo ra một tài liệu ngắn hơn rất nhiều. Tóm tắt này cho phép máy tính phân tích và hiểu ngôn ngữ của con người.

pm_tom_tat

Có hai kỹ thuật chính để tóm tắt văn bản tự động - Phương pháp trừu tượng và phương pháp trích xuất.

Mức độ mà các văn bản được tóm tắt liên quan đến đầu vào của nó (tài liệu đơn hoặc nhiều nguồn), mục đích, tên miền cụ thể hoặc dựa trên truy vấn và loại đầu ra (trừu tượng hoặc trích xuất).

Phương pháp trừu tượng tạo ra các câu và cụm từ hoàn toàn mới nắm bắt được bản chất của các văn bản nguồn. Phương pháp này khó khăn hơn và nó cho kết quả thực tế hơn. Mặc dù phương pháp này chọn ra và nén nội dung từ các văn bản nguồn, nhưng nó có thể chứa các từ không có trong văn bản nguồn.

Phương pháp tóm tắt văn bản trích xuất chọn ra các câu và cụm từ từ một tài liệu nguồn và tạo ra một bản tóm tắt. Sau đó sắp xếp các cụm từ theo thứ tự liên quan, chọn những cụm từ gần với nghĩa của tài liệu gốc.

dich_vu_tom_tat

Tính sẵn có và cách tiếp cận dễ dàng hơn của nó làm cho phương pháp trích xuất được sử dụng rộng rãi; tuy nhiên, vấn đề trừu tượng hóa được coi là tổng quát và được giải quyết bằng phương pháp trừu tượng hóa.

 

Print version

 
Comments

Sender

Nội dung