MongoDB

Bài 34: MongoDB - Map Reduce

Trong MongoDB Documentation, Map-Reduce là một hệ xử lý dữ liệu để cô đọng một khối lượng lớn dữ liệu thành các kết quả tổng thể có ích. MongoDB sử dụng lệnh mapReduce cho hoạt động Map-Reduce. Nói chung, Map Reduce được sử dụng để xử lý các tập dữ liệu lớn.

1. MapReduce trong MongoDB

Cú pháp cơ bản của lệnh mapReduce như sau:
>db.collection.mapReduce(
   function() {emit(key,value);},  //map function
   function(key,values) {return reduceFunction},   //reduce function
   {
      out: collection,
      query: document,
      sort: document,
      limit: number
   }
)
Đầu tiên, hàm (function) của Map Reduce truy vấn Collection, sau đó ánh xạ các Document kết quả để phát xạ (Emit) các cặp key-value mà sau đó bị rút gọn dựa trên các key mà có nhiều value.
Trong cú pháp trên:
  • map là một hàm JavaScript mà ánh xạ một value với một key và phát xạ một cặp key-value.
  • reduce là một hàm JavaScript mà rút gọn hoặc nhóm tất cả Document có cùng key.
  • out xác định vị trí của kết quả truy vấn Map-Reduce.
  • query xác định tiêu chuẩn chọn tùy ý để lựa chọn các Document.
  • sort xác định tiêu chuẩn sắp xếp tùy ý.
  • limit xác định số lượng Document tối đa tùy ý để được trả về.

2. Sử dụng MapReduce trong MongoDB

Bạn theo dõi cấu trúc của Document để lưu giữ User Post. Document này lưu giữ user_name của người dùng và status của Post.
{
   "post_text": "tutorialspoint is an awesome website for tutorials",
   "user_name": "mark",
   "status":"active"
}
Bây giờ, chúng ta sẽ sử dụng một hàm mapReduce trên các posts collection để lựa chọn tất cả các active post, nhóm chúng lại dựa trên user_name và sau đó đếm số lượng post của mỗi user bởi sử dụng code sau:
>db.posts.mapReduce( 
   function() { emit(this.user_id,1); }, 
   function(key, values) {return Array.sum(values)}, 
      {  
         query:{status:"active"},  
         out:"post_total" 
      }
)
Truy vấn mapReduce trên sẽ cho kết quả:
{
   "result" : "post_total",
   "timeMillis" : 9,
   "counts" : {
      "input" : 4,
      "emit" : 4,
      "reduce" : 2,
      "output" : 2
   },
   "ok" : 1,
}
Kết quả chỉ ra rằng, tổng số 4 Document đã kết nối với truy vấn (status:"active"), hàm map phát xạ 4 Document với các cặp key-value và cuối cùng hàm reduce nhóm các Document đã ánh xạ có cùng key vào trong 2.
Để xem kết quả của truy vấn mapReduce này, bạn sử dụng toán tử find:
>db.posts.mapReduce( 
   function() { emit(this.user_id,1); }, 
   function(key, values) {return Array.sum(values)}, 
      {  
         query:{status:"active"},  
         out:"post_total" 
      }
).find()
Truy vấn trên cung cấp kết quả chỉ ra rằng cả hai người dùng tom và mark có hai posts trong trạng thái là active.
{ "_id" : "tom", "value" : 2 }
{ "_id" : "mark", "value" : 2 }
Theo phương thức tương tự, các truy vấn MapReduce có thể được sử dụng để xây dựng các truy vấn Aggregation phức tạp. Sự sử dụng của các hàm JavaScript tùy biến giúp cho việc sử dụng MapReduce thêm linh động và mạnh mẽ hơn.