Đặt banner 324 x 100

Hiểu về TF-IDF trong SEO


TF-IDF là viết tắt của thuật ngữ tần suất tài liệu nghịch đảo tần số và nó là thước đo, được sử dụng trong các lĩnh vực truy xuất thông tin (IR) và học máy, có thể định lượng tầm quan trọng hoặc mức độ liên quan của các biểu diễn chuỗi (từ, cụm từ, bổ đề, v.v.) trong một tài liệu giữa một tập hợp các tài liệu (còn được gọi là kho văn bản).

Tổng quan về TF-IDF

TF-IDF có thể được chia thành hai phần TF (tần số thuật ngữ) và IDF (tần số tài liệu nghịch đảo).

TF (tần số thuật ngữ) là gì?

Tần suất thuật ngữ hoạt động bằng cách xem xét tần suất của một thuật ngữ cụ thể mà bạn quan tâm so với tài liệu. Có nhiều biện pháp hoặc cách xác định tần suất:

  • Số lần từ xuất hiện trong tài liệu (số liệu thô).

  • Tần suất thuật ngữ được điều chỉnh theo độ dài của tài liệu (số lần xuất hiện thô chia cho số từ trong tài liệu).

  • Tần số được chia tỷ lệ logarit (ví dụ: nhật ký (1 + số lượng thô)).

  • Tần suất Boolean (ví dụ: 1 nếu thuật ngữ xuất hiện hoặc 0 nếu thuật ngữ không xuất hiện trong tài liệu).

IDF (tần số tài liệu nghịch đảo) là gì?

Tần suất tài liệu nghịch đảo xem xét mức độ phổ biến (hoặc không phổ biến) của một từ trong kho văn bản. IDF được tính như sau trong đó t là thuật ngữ (từ) mà chúng ta đang tìm kiếm để đo mức độ phổ biến của nó và N là số lượng tài liệu (d) trong kho văn bản (D). Mẫu số chỉ đơn giản là số lượng tài liệu trong đó hạn, t , xuất hiện trong. 

>>> Xem thêm: Đào tạo SEO của GTV SEO tại đây: https://gtvseo.com/dao-tao-seo/
Lưu ý: Có thể một thuật ngữ hoàn toàn không xuất hiện trong ngữ liệu, điều này có thể dẫn đến lỗi chia cho 0. Một cách để giải quyết vấn đề này là lấy số đếm hiện có và thêm 1. Do đó, tạo mẫu số (1 + số đếm). Một ví dụ về cách scikit-learning của thư viện phổ biến xử lý việc này có thể được xem bên dưới.


Lý do chúng tôi cần IDF là để giúp sửa các từ như “of”, “as”, “the”, v.v. vì chúng xuất hiện thường xuyên trong ngữ liệu tiếng Anh. Do đó, bằng cách lấy tần suất tài liệu nghịch đảo, chúng ta có thể giảm thiểu trọng số của các thuật ngữ thường xuyên trong khi làm cho các thuật ngữ không thường xuyên có tác động cao hơn.

Cuối cùng, các IDF cũng có thể được lấy từ kho văn bản nền, giúp điều chỉnh độ lệch lấy mẫu hoặc tập dữ liệu đang được sử dụng trong thử nghiệm.

Đặt nó lại với nhau: TF-IDF

Để tóm tắt trực giác quan trọng thúc đẩy TF-IDF là tầm quan trọng của một thuật ngữ tỷ lệ nghịch với tần suất xuất hiện của nó trên các tài liệu. TF cung cấp cho chúng tôi thông tin về tần suất một thuật ngữ xuất hiện trong tài liệu và IDF cung cấp cho chúng tôi thông tin về độ hiếm tương đối của một thuật ngữ trong việc thu thập tài liệu. Bằng cách nhân các giá trị này với nhau, chúng ta có thể nhận được giá trị TF-IDF cuối cùng.

Điểm TF-IDF càng cao thì thuật ngữ càng quan trọng hoặc có liên quan; vì một thuật ngữ trở nên ít liên quan hơn, điểm số TF-IDF của nó sẽ tiến tới 0.

Nơi sử dụng TF-IDF

Như chúng ta có thể thấy, TF-IDF có thể là một thước đo rất hữu ích để xác định tầm quan trọng của một thuật ngữ trong tài liệu. Nhưng TF-IDF được sử dụng như thế nào? Có ba ứng dụng chính cho TF-IDF. Đây là trong học máy, truy xuất thông tin và tóm tắt văn bản/trích xuất từ ​​khóa.

Sử dụng TF-IDF trong học máy & xử lý ngôn ngữ tự nhiên

Các thuật toán học máy thường sử dụng dữ liệu số, do đó, khi xử lý dữ liệu văn bản hoặc bất kỳ tác vụ xử lý ngôn ngữ tự nhiên (NLP) nào , một trường con của ML/AI xử lý văn bản, dữ liệu đó trước tiên cần được chuyển đổi thành một vectơ dữ liệu số bằng cách một quá trình được gọi là vector hóa. Quá trình vector hóa TF-IDF liên quan đến việc tính điểm TF-IDF cho mỗi từ trong kho văn bản của bạn so với tài liệu đó và sau đó đưa thông tin đó vào một véc tơ (xem hình ảnh bên dưới bằng cách sử dụng các tài liệu mẫu “A” và “B”). Do đó, mỗi tài liệu trong kho văn bản của bạn sẽ có vectơ riêng và vectơ sẽ có điểm TF-IDF cho từng từ trong toàn bộ bộ sưu tập tài liệu. Sau khi có các vectơ này, bạn có thể áp dụng chúng cho nhiều trường hợp sử dụng khác nhau, chẳng hạn như xem liệu hai tài liệu có giống nhau hay không bằng cách so sánh vectơ TF-IDF của chúng bằng độ tương tự cosine .

Sử dụng TF-IDF trong truy xuất thông tin

TF-IDF cũng có các trường hợp sử dụng trong lĩnh vực truy xuất thông tin, với một ví dụ phổ biến là các công cụ tìm kiếm. Vì TF-IDF có thể cho bạn biết về tầm quan trọng liên quan của một thuật ngữ dựa trên tài liệu, công cụ tìm kiếm có thể sử dụng TF-IDF để giúp xếp hạng kết quả tìm kiếm dựa trên mức độ liên quan, với kết quả phù hợp hơn với người dùng có TF-IDF cao hơn điểm số.

Sử dụng TF-IDF trong tóm tắt văn bản & khai thác từ khóa

Vì TF-IDF đánh giá các từ dựa trên mức độ liên quan nên người ta có thể sử dụng kỹ thuật này để xác định rằng các từ có mức độ liên quan cao nhất là từ quan trọng nhất. Điều này có thể được sử dụng để giúp tóm tắt các bài báo hiệu quả hơn hoặc đơn giản là xác định từ khóa (hoặc thậm chí là thẻ) cho tài liệu.

Vectơ & Word nhúng: TF-IDF so với Word2Vec so với Bag-of-word so với BERT

Như đã thảo luận ở trên, TF-IDF có thể được sử dụng để vector hóa văn bản thành định dạng phù hợp hơn cho các kỹ thuật ML & NLP. Tuy nhiên, mặc dù nó là một thuật toán NLP phổ biến nhưng nó không phải là thuật toán duy nhất hiện có.

Bag-of-word

Bag of Words (BoW) chỉ đơn giản là đếm tần suất của các từ trong tài liệu. Do đó, vectơ cho một tài liệu có tần suất của từng từ trong kho văn bản cho tài liệu đó. Sự khác biệt chính giữa túi từ và TF-IDF là cái trước không kết hợp bất kỳ loại tần số tài liệu nghịch đảo (IDF) nào và chỉ là số đếm tần số (TF).

Word2Vec

Word2Vec là một thuật toán sử dụng các mạng thần kinh 2 lớp nông, không sâu để nhập một kho văn bản và tạo ra các bộ vectơ. Một số điểm khác biệt chính giữa TF-IDF và word2vec là TF-IDF là thước đo thống kê mà chúng ta có thể áp dụng cho các thuật ngữ trong tài liệu và sau đó sử dụng nó để tạo thành một vectơ trong khi word2vec sẽ tạo một vectơ cho một thuật ngữ và sau đó có thể cần nhiều công việc hơn được thực hiện để chuyển đổi tập hợp các vectơ đó thành một vectơ đơn lẻ hoặc định dạng khác. Ngoài ra, TF-IDF không xem xét ngữ cảnh của các từ trong ngữ liệu trong khi word2vec thì có.

BERT - Biểu diễn bộ mã hóa hai chiều từ Transformers

BERT là một kỹ thuật ML/NLP do Google phát triển, sử dụng mô hình ML dựa trên biến áp để chuyển đổi các cụm từ, từ, v.v. thành các vectơ. Các điểm khác biệt chính giữa TF-IDF và BERT như sau: TF-IDF không tính đến ý nghĩa ngữ nghĩa hoặc ngữ cảnh của các từ trong khi BERT thì có. Ngoài ra, BERT sử dụng các mạng thần kinh sâu như một phần kiến ​​trúc của nó, nghĩa là nó có thể đắt hơn nhiều về mặt tính toán so với TF-IDF không có các yêu cầu như vậy. 

Ưu và nhược điểm của việc sử dụng TF-IDF

Ưu điểm của việc sử dụng TF-IDF

Ưu điểm lớn nhất của TF-IDF đến từ mức độ đơn giản và dễ sử dụng của nó. Nó đơn giản để tính toán, nó rẻ về mặt tính toán và là điểm khởi đầu đơn giản để tính toán độ tương tự (thông qua vector hóa TF-IDF + độ tương tự cosine).

Nhược điểm của việc sử dụng TF-IDF

Một điều cần lưu ý là TF-IDF không thể giúp mang ý nghĩa ngữ nghĩa. Nó xem xét tầm quan trọng của các từ dựa trên trọng lượng của chúng, nhưng nó không nhất thiết phải rút ra ngữ cảnh của các từ và hiểu tầm quan trọng theo cách đó.

Cũng như đã đề cập ở trên, giống như BoW, TF-IDF bỏ qua trật tự từ và do đó các danh từ ghép như “Queen of England” sẽ không được coi là một “đơn vị”. Điều này cũng áp dụng cho các tình huống như phủ định với “không thanh toán hóa đơn” so với “thanh toán hóa đơn”, trong đó đơn đặt hàng tạo ra sự khác biệt lớn. Trong cả hai trường hợp sử dụng công cụ NER và dấu gạch dưới, “queen_of_england” hoặc “not_pay” là những cách để xử lý việc coi cụm từ là một đơn vị.

Một nhược điểm khác là nó có thể bị thiếu hiệu quả bộ nhớ vì TF-IDF có thể bị lời nguyền về chiều. Nhớ lại rằng độ dài của vectơ TF-IDF bằng với kích thước của từ vựng. Trong một số bối cảnh phân loại, đây có thể không phải là vấn đề nhưng trong các bối cảnh khác như phân cụm, điều này có thể khó sử dụng khi số lượng tài liệu tăng lên. Do đó, việc xem xét một số lựa chọn thay thế có tên ở trên (BERT, Word2Vec) có thể là cần thiết.

Sự kết luận

TF-IDF (Tần số thuật ngữ - Tần số tài liệu nghịch đảo) là một thuật toán tiện dụng sử dụng tần suất của các từ để xác định mức độ liên quan của các từ đó đối với một tài liệu nhất định. Đó là một cách tiếp cận tương đối đơn giản nhưng trực quan để tính trọng số từ, cho phép nó hoạt động như một điểm khởi đầu tuyệt vời cho nhiều nhiệm vụ khác nhau. Điều này bao gồm xây dựng công cụ tìm kiếm, tóm tắt tài liệu hoặc các tác vụ khác trong lĩnh vực truy xuất thông tin và máy học.

>>> Xem thêm: Dịch vụ SEO Website tổng thể của GTV SEO.
 

Thông tin liên hệ


: letrinbd
:
:
:
: