nk-vector v0.0.33
Giới thiệu về NK-VECTOR!
Lý do ra đời
Về cơ bản, NK-VEC là một Neural Network Embeddings có ý tưởng từ Word2Vec và có nhiệm vụ giống tất cả các mô hình nhúng từ hiện tại, nhưng nó có cấu tạo đơn giản hơn rất nhiều. Thông qua thư viện NK-VECTOR, bạn có thể sử dụng mô hình NK-VEC để build bộ vector theo dữ liệu riêng của bạn một cách đơn giản nhất. Ngoài ra NK-VECTOR còn cung cấp cho bạn một số tính năng, thuật toán hữu ích dùng để giải quyết các bài toán NLP.
Về tên gọi
Tôi tạo ra nó trong lúc nghiên cứu dự án lớn tại phòng tin học của trường THCS-THPT Nguyễn Khuyến, nên NK là chữ viết tắt của tên trường, đây dấu ấn tôi muốn lưu lại và nó xứng đáng được thế.
Các tính năng hiện tại
- Tạo one hot vector
- Tạo windows words
- Cho phép người dùng build bộ vector theo bộ dữ liệu riêng của họ
- Tìm từ tương tự
- Fast KNN (KNN K-d tree)
- Build vetor cho câu, cho đoạn văn, văn bản
- Tách từ tiếng Việt và tiếng Anh
- Làm sạch câu cho tiếng Việt và tiếng Anh
- Xóa từ lặp lại
Hàm và các tham số
Hàm Tham số Ví dụ Lưu ý Create_one_hot <file_url, url_save> "E:/project/data.txt", "E:/project/onehot.json" Trong này sẽ mặc định lọc stopword tiếng Anh và các ký tự đặc biệt Create_window_words <file_url, window_size, url_save> "E:/project/data.txt", 5, "E:/project/window.txt" Trong này sẽ mặc định lọc stopword tiếng Anh và các ký tự đặc biệt train <size_output, url_data_one_hot, url_data_window_words, url_save> 512, "E:/project/onehot.json", "E:/project/window.txt", "E:/project/data_vector.json" Số chiều vector đầu ra phải nhỏ hơn số chiều đầu onehot vector đầu vào build_vec_sentences <"doc", url_vecs_of_words, url_save> "Xin chào tất cả mọi người", "E:/project/data_vector.json", "" Nếu url_save có độ dài bằng 0 thì mặc định trả về bộ vector mà không lưu, nếu lưu thì hãy để định dạng json - Vd: "E:/project/data_sentence_vector.json" find_word <"target", url_vecs_of_word, size_result> "king","E:/project/data_vector.json", 15 size_result tương ứng với số lượng từ có độ tương tự từ cao nhất đến thấp được trả về" knn <"target", type_distance, data, k> 7, 8 , 'eculid', points, 4 Xem ví dụ sử dụng hàm knn bên dưới VN_segmentation_tag <"document"> "Chào mừng bạn đến với tôi" Hãy chắc chắn rằng version node của bạn là phiên bản bắt đầy từ 10.16.0 trở lên clear_sentence_vn <"document"> "Chào mừng bạn đến với tôi" Tại đây câu tiếng Việt của bạn sẽ được lọc từ stopword tiếng Việt cho đến các ký tự đặc biệt clear_sentence_en <"document"> "Chào mừng bạn đến với tôi" Tại đây câu tiếng Anh của bạn sẽ được lọc từ stopword tiếng Anh cho đến các ký tự đặc biệt remove_duplicate_words <"document"> "Chào chào mừng bạn đến với tôi" Tại đây sẽ xóa các từ bị trùng lặp trong câu và nó dùng cho cả tiếng Anh và Việt Cài đặt
- Install Node.js
- Run: npm i nk-vector
Sử dụng
let NKV = require('nk-vector')
Ví dụ: Sử dụng hàm knn
let NKV = require('nk-vector') let points = [ [ 1, 2 ], [ 3, 4 ], [ 5, 6 ], [ 7, 8 ] ]; let nearest = NKV.knn([ 7, 8 ], 'eculid', points, 4); console.log(nearest); /*Result: [ [ [ 7, 8 ], 0 ], [ [ 5, 6 ], 8 ], [ [ 3, 4 ], 32 ], [ [ 1, 2 ], 72 ] ] Giải thích mảng trả về: [<vector trong tập dữ liệu>, <khoảng cách từ vector đầu vào tới vector này>] */
Ví dụ: Sử dụng hàm clear_sentence_vn
let NKV = require('nk-vector') let clear_sentence = NKV.clear_sentence_vn("Chào mừng các bạn lên trên trời, ở đây là trên trời") console.log(clear_sentence); //Result: chào mừng trời trời
Lời cảm ơn
Cảm ơn mọi người đã sử dụng NK-VECTOR, tôi sẽ cập nhật thường xuyên các thuật toán mới! Cảm ơn VUNB đã phát triển gói VNTK thần thánh
3 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago
4 years ago