Database | NoteHub

TERM

Tuning: Điều chỉnh

What’s different between NoSQL & SQL

Giới thiệu ngắn gọn về hai loại databse

Relational database (SQL) lưu trữ dữ liệu theo dạng bảng với các mối quan hệ rõ ràng, sử dụng schema cố định và hỗ trợ các giao dịch ACID để đảm bảo tính nhất quán dữ liệu.

💡

Giao dịch ACID

Giao dịch ACID là một khái niệm quan trọng trong cơ sở dữ liệu, đảm bảo các thao tác trên dữ liệu được thực hiện một cách an toàn, nhất quán và đáng tin cậy. ACID là viết tắt của bốn thuộc tính: Atomicity (Tính nguyên tử), Consistency (Tính nhất quán), Isolation (Tính cô lập) và Durability (Tính bền vững)

Atomicity (Tính nguyên tử): Một giao dịch (transaction) gồm nhiều thao tác nhỏ, nhưng sẽ chỉ có hai kết quả: hoặc tất cả các thao tác đều thành công, hoặc không thao tác nào được thực hiện. Nếu có lỗi ở bất kỳ bước nào, toàn bộ giao dịch sẽ bị hủy và dữ liệu được trả về trạng thái ban đầu.

Consistency (Tính nhất quán): Sau khi giao dịch hoàn tất, dữ liệu phải đảm bảo tuân thủ tất cả các quy tắc, ràng buộc của hệ thống. Nếu giao dịch làm vi phạm quy tắc này, nó sẽ bị hủy.

Isolation (Tính cô lập): Các giao dịch đang diễn ra phải được tách biệt với nhau. Điều này giúp đảm bảo rằng kết quả của một giao dịch không bị ảnh hưởng bởi các giao dịch khác đang thực hiện đồng thời.

Durability (Tính bền vững): Khi một giao dịch đã được xác nhận thành công (commit), mọi thay đổi dữ liệu sẽ được lưu trữ vĩnh viễn, kể cả khi hệ thống gặp sự cố như mất điện hoặc lỗi phần cứng.

Nhờ bốn thuộc tính này, các hệ quản trị cơ sở dữ liệu có thể đảm bảo tính toàn vẹn và độ tin cậy của dữ liệu, đặc biệt trong các ứng dụng quan trọng như ngân hàng, thương mại điện tử, quản lý tài chính.

Non-relational database (NoSQL) lưu trữ dữ liệu linh hoạt hơn, có thể là document, key-value, graph hoặc wide-column, phù hợp với dữ liệu không cấu trúc hoặc bán cấu trúc và dễ mở rộng ngang hơn

So sánh điểm mạnh/ yếu và ứng dụng thực tế

Tiêu chí	Quan hệ (SQL)	Phi quan hệ (NoSQL)
Cấu trúc dữ liệu	Cố định, chuẩn hóa, dạng bảng	Linh hoạt, không cần schema cố định
Mối quan hệ dữ liệu	Rõ ràng, hỗ trợ JOIN phức tạp	Hạn chế JOIN, tối ưu cho truy vấn nhanh
Mở rộng	Chủ yếu mở rộng dọc	Mở rộng ngang dễ dàng
Tính nhất quán	Cao (ACID)	Thường ưu tiên tính sẵn sàng, linh hoạt
Ứng dụng phù hợp	Hệ thống tài chính, ERP, CRM	Big data, real-time analytics, caching

Hash Join Algorithm

Hash join là một thuật toán dùng để thực hiện phép JOIN giữa hai bảng trong hệ quản trị cơ sở dữ liệu quan hệ, đặc biệt hiệu quả khi xử lý các bảng lớn và điều kiện join là so sánh bằng (equi-join).

Cách hoạt động của Hash Join gồm hai giai đoạn chính:

Build phase (Giai đoạn xây dựng): Thuật toán chọn một bảng (thường là bảng nhỏ hơn, gọi là build table), sau đó tạo một hash table trong bộ nhớ từ các giá trị của khóa join của bảng này. Mỗi dòng sẽ được lưu vào hash table dựa trên giá trị hash của khóa join.

💡

Hash table ở đây giống như một map mà:

Key: giá trị của cột dùng để join (VD id)

Value: Toàn bộ dữ liệu của bảng A có id đó

“id”: Record<contain_id>

Probe phase (Giai đoạn dò tìm): Thuật toán duyệt qua từng dòng của bảng còn lại (probe table), tính giá trị hash của khóa join và kiểm tra xem giá trị này có tồn tại trong hash table không. Nếu có, nó sẽ kết hợp các dòng tương ứng từ hai bảng để tạo ra kết quả join.

Ưu điểm:

Hiệu suất cao với bảng lớn, đặc biệt khi không có chỉ mục trên cột join.

Độ phức tạp trung bình là O(M+N) với M và N là số dòng của hai bảng, nhanh hơn nhiều so với nested loop join O(M×N).

Không yêu cầu chỉ mục trên cột join.

Nhược điểm:

Cần đủ bộ nhớ để lưu hash table, nếu không sẽ phải chia nhỏ và xử lý nhiều lần.

Hiệu quả phụ thuộc vào chất lượng hàm hash, nếu xảy ra nhiều collision (đụng độ hash) thì hiệu năng sẽ giảm2.

Khi nào dùng hash join?

Khi join trên điều kiện bằng (=).

Khi làm việc với bảng lớn, không có chỉ mục trên cột join.

Khi bộ nhớ đủ lớn để chứa hash table.

Ví dụ minh họa:

javascriptjavascript

1SELECT p.id, p.title, pc.review
2FROM post p
3INNER JOIN post_comment pc ON pc.post_id = p.id;

Cơ sở dữ liệu sẽ tạo hash table từ bảng nhỏ hơn (ví dụ bảng post), sau đó duyệt bảng còn lại để tìm các dòng khớp dựa trên giá trị hash.

Tóm lại, hash join là thuật toán join hiệu quả và phổ biến trong các hệ quản trị cơ sở dữ liệu hiện đại, đặc biệt phù hợp với các phép join lớn và điều kiện join là so sánh bằng.

MySQL Optimize Database

Việc tối ưu hóa hiệu suất Database trở nên cực kỳ quan trọng để đảm bảo hệ thống vận hành tối ưu và sử dụng tài nguyên hiệu quả

Các best practice tối ưu hóa MySQL

Profile your server wordload (phân tích công việc tải của server)

Đầu tiên, cần phân tích các truy vấn để biết truy vấn nào tốn tài nguyên nhất, ưu tiên tối ưu các truy vấn này.

Có thể dùng công cụ để thu thập và sắp xếp truy vấn theo thời gian phản hồi, giúp xác định nhanh các truy vấn chậm hoặc tốn kém

💡

MySQL Workbench

Hiểu rõ các tài nguyên chính

Bốn tài nguyên quan trọng: bộ nhớ (memory), CPU, ổ đĩa (disk), mạng (network).

Nếu một trong bốn yếu tố này bị quá tải hoặc không ổn định, hiệu suất sẽ giảm mạnh.

Nên đầu tư phần cứng tốt, đặc biệt là bộ nhớ, vì thiếu RAM sẽ khiến ổ đĩa bị quá tải.

Kiểm tra kỹ xem tài nguyên đang yếu hay chỉ đơn giản là bị quá tải để xử lý đúng vấn đề.

Curate baseline metrics (thu thập các chỉ số cơ bản)

Trước khi tối ưu, cần xác định các chỉ số như số dòng duyệt, số dòng trả về, thời gian chạy truy vấn, trạng thái chờ (wait/thread states).

Các chỉ số này giúp xác định chính xác điểm cần tối ưu.

Phân tích execution plan

Sử dụng các lệnh như EXPLAIN, EXPLAIN EXTENDED hoặc công cụ đồ họa như MySQL Workbench để xem execution plan.

Execution plan cho biết từng bước thực hiện truy vấn, bảng nào được đọc, index nào được dùng, số dòng cần đọc, cách dữ liệu được truy cập và sắp xếp.

Rà soát index và bảng

Kiểm tra kích thước và vị trí bảng, các ràng buộc, khóa, cấu trúc cột, nhất là khi dùng WHERE.

Dùng lệnh mysqlshow –status <dbname> để xem kích thước bảng, show index from <table_name> để kiểm tra index.

Chú ý index nhiều cột và thứ tự cột trong index, vì MySQL chỉ dùng index nếu cột đầu tiên (left-leading column) được tham chiếu trong truy vấn.

Tránh dùng MySQL như một queue

Sử dụng MySQL như queue (hàng đợi) sẽ gây ra hai vấn đề: ngăn song song hóa công việc và tạo ra bảng chứa cả dữ liệu đang xử lý lẫn dữ liệu lịch sử, làm tăng độ trễ và tải không cần thiết.

Scalability traps (Tránh các bẫy mở rộng)

Quy trình song song bị giới hạn bởi các phần phải xử lý tuần tự hoặc cần đồng bộ, gây giới hạn khả năng mở rộng.

Tránh lock độc quyền trên dòng, tránh queue để hệ thống mở rộng tốt hơn

Response time analysis (Phân tích thời gian phản hồi)

Phân tích thời gian phản hồi giúp xác định chính xác truy vấn, tài nguyên hoặc quy trình nào gây chậm hệ thống

Công cụ như SolarWinds Database Performance Analyzer giúp thu thập, phân tích và trực quan hóa dữ liệu hiệu suất, từ đó xác định truy vấn cần tối ưu.

Những thách thức thường gặp khi tối ưu hóa MySQL

Tuning truy vấn: Phân tích và tối ưu truy vấn SQL phức tạp, cần công cụ profiling và execution plan.

Tối ưu hóa index: Đòi hỏi hiểu sâu về cấu trúc bảng và hiệu suất truy vấn.

Bảo mật: Đảm bảo an toàn dữ liệu và giảm thiểu lỗ hổng SQL.

Thiết kế schema: Cần chú ý chuẩn hóa dữ liệu và quan hệ giữa các bảng.

Phân bổ tài nguyên: Quản lý CPU, RAM hiệu quả để tránh bottleneck.

Indexes

Tầm quan trọng của index

Index có tác động trực tiếp đến việc truy vấn dữ liệu

Index là gì?

Index (chỉ mục) là một cấu trúc dữ liệu trong cơ sở dữ liệu giúp cải thiện hiệu suất truy vấn. Một bảng có thể có một hoặc nhiều index liên kết với nó. Index được định nghĩa qua biểu thức trường (field expression), thường là tên một trường như emp_id. Ví dụ, index trên trường emp_id sẽ chứa danh sách đã sắp xếp các giá trị emp_id cùng với tham chiếu đến các dòng chứa giá trị đó.

Khi có index, driver cơ sở dữ liệu có thể tìm dòng dữ liệu nhanh hơn rất nhiều. Ví dụ, với truy vấn:

javascriptjavascript

1WHERE EMP_id = 'E10001'

Nếu không có index, server phải duyệt toàn bộ bảng để tìm dòng có EMP_id là 'E10001'. Nếu có index trên emp_id, server chỉ cần tra cứu index để tìm dòng phù hợp.

Cấu trúc index (DSA)

Bạn tạo index trên cột last_name:

javascriptjavascript

1CREATE INDEX idx_lastname ON employees(last_name);

Cấu trúc index sẽ như sau:

last_name (Search Key)	Data Reference (Pointer)
Nguyen	Địa chỉ dòng 1, dòng 5, ...
Pham	Địa chỉ dòng 2
Tran	Địa chỉ dòng 3, dòng 7, ...
...	...

Khi bạn truy vấn:

javascriptjavascript

1SELECT * FROM employees WHERE last_name = 'Nguyen';

Cơ sở dữ liệu sẽ tra cứu index để nhanh chóng lấy ra tất cả các dòng có last_name = 'Nguyen' mà không cần quét toàn bộ bảng.

Ưu và nhược điểm của index

Ưu điểm: Index giúp tăng tốc đáng kể các truy vấn SELECT, đặc biệt với bảng lớn.

Nhược điểm: Có quá nhiều index sẽ làm chậm các thao tác INSERT, UPDATE, DELETE vì driver phải cập nhật cả bảng và các index liên quan. Index cũng chiếm thêm dung lượng lưu trữ.

Khi nào nên tạo hoặc không nên tạo index

Nếu chủ yếu thao tác INSERT, UPDATE, DELETE thì càng ít index càng tốt để tăng hiệu suất ghi.

Nếu chủ yếu truy vấn SELECT, hãy xác định các trường thường dùng để lọc dữ liệu và tạo index phù hợp.

Khi join nhiều bảng, nên tạo index trên trường dùng để join ở bảng thứ hai trở đi trong mệnh đề FROM.

Ví dụ về tối ưu join với index

javascriptjavascript

1SELECT * FROM dept, emp WHERE dept.dept_id = emp.dept_id

Nên có index trên trường emp.dept_id để tăng tốc join

Nếu join nhiều bảng

javascriptjavascript

1SELECT * FROM dept, emp, addr WHERE dept.dept_id = emp.dept AND emp.loc = addr.loc

Nên có index trên emp.dept và addr.loc.s

Example full index

Bảng nhân viên

javascriptjavascript

1CREATE TABLE employees (
2    employee_id INT PRIMARY KEY,
3    first_name VARCHAR(100),
4    last_name VARCHAR(100),
5    department_id INT
6);

Case 1: Không có index trên cột last_name

javascriptjavascript

1SELECT * FROM employees WHERE last_name = 'Nguyen';

Nếu bạn chưa tạo index trên cột last_name, cơ sở dữ liệu sẽ phải quét toàn bộ bảng (full table scan) để tìm các dòng có last_name là 'Nguyen'. Điều này rất chậm nếu bảng lớn

Case 2: Tạo index trên cột last_name

javascriptjavascript

1CREATE INDEX idx_lastname ON employees(last_name);

Sau khi có index, khi chạy lại truy vấn

javascriptjavascript

1SELECT * FROM employees WHERE last_name = 'Nguyen';

Lúc này, cơ sở dữ liệu sẽ sử dụng index để tra cứu rất nhanh các dòng có last_name là 'Nguyen', thay vì phải duyệt toàn bộ bảng

SQL Transaction

Định nghĩa

SQL Transaction là một đơn vị logic bao gồm một hoặc nhiều thoa tác (như thêm, sửa, xóa dữ liệu) được thực hiện trên cơ sở dữ liệu.

Transaction đảm bảo rằng các thao tác này hoặc được thực hiện thành công toàn bộ, hoặc nếu có lỗi xảy ra thì tất cả sẽ bị hủy bỏ và dữ liệu được trả về trạng thái ban đầu trước khi transaction bắt đầu

Đặc điểm của SQL - Transaction

Transaction phải tuân thủ 4 tính chất ACID

Atomicity (Tính nguyên tử): Tất cả các thao tác trong transaction phải được thực hiện trọn vẹn; nếu có một thao tác thất bại, toàn bộ transaction sẽ bị rollback (hoàn tác).

Consistency (Tính nhất quán): Sau khi transaction hoàn thành, dữ liệu phải đảm bảo nhất quán, đúng với các ràng buộc của hệ thống.

Isolation (Tính cô lập): Các transaction thực hiện đồng thời phải độc lập, không ảnh hưởng đến nhau.

Durability (Tính bền vững): Khi transaction đã commit thành công, các thay đổi sẽ được lưu vĩnh viễn, kể cả khi hệ thống gặp sự cố

Example

Một ví dụ điển hình là chuyển tiền giữa hai tài khoản ngân hàng: transaction sẽ gồm hai bước là trừ tiền ở tài khoản A và cộng tiền vào tài khoản B. Nếu chỉ một bước thành công còn bước kia thất bại, hệ thống sẽ rollback để đảm bảo không bị mất hoặc tạo ra tiền không hợp lệ

Cách sử dụng transaction trong SQL

Bắt đầu transaction: BEGIN TRANSACTION;

Commit (lưu thay đổi): COMMIT;

Rollback (hoàn tác): ROLLBACK;

Example

javascriptjavascript

1BEGIN TRANSACTION;
2
3UPDATE Account SET Balance = Balance - 100 WHERE AccountID = 'A';
4UPDATE Account SET Balance = Balance + 100 WHERE AccountID = 'B';
5
6COMMIT;

Nếu một trong hai lệnh UPDATE bị lỗi, bạn có thể dùng ROLLBACK để hoàn tác toàn bộ giao dịch

Transaction isolation level in DBMS

Transaction Isolation Level

Trong hệ quản trị cơ sở dữ liệu (DBMS), ngoài các thuộc tính ACID (Atomicity, Consistency, Isolation, Durability), Isolation (tính cô lập) đóng vai trò quan trọng giúp đảm bảo tính nhất quán và toàn vẹn dữ liệu khi nhiều transaction (giao dịch) diễn ra đồng thời. Mức độ cô lập xác định mức độ mà một transaction phải được tách biệt khỏi các transaction khác, nhằm bảo vệ dữ liệu khỏi các hiện tượng không mong muốn

Các hiện tượng thường gặp khi thiếu Isolation

Dirty Read: Một transaction đọc dữ liệu mà transaction khác vừa sửa đổi nhưng chưa commit. Nếu transaction kia rollback, dữ liệu đọc được sẽ không còn tồn tại.

Non-repeatable Read: Một transaction đọc cùng một dòng hai lần, nhưng nhận được hai giá trị khác nhau do transaction khác đã cập nhật và commit giữa hai lần đọc.

Phantom Read: Khi hai truy vấn giống nhau được thực hiện trong cùng một transaction, nhưng số lượng dòng trả về khác nhau vì transaction khác đã thêm/xóa dòng phù hợp với điều kiện truy vấn giữa hai lần thực hiện

Các mức độ Isolation chính

Read Uncommitted

Mức thấp nhất, cho phép đọc cả dữ liệu chưa commit từ transaction khác (có thể xảy ra dirty read).

Các transaction không bị cô lập với nhau.

Ví dụ: Transaction T1 cập nhật số dư nhưng chưa commit, T2 vẫn có thể đọc số dư mới này

Read Committed

Chỉ cho phép đọc dữ liệu đã commit tại thời điểm truy vấn.

Không cho phép dirty read, nhưng vẫn có thể bị non-repeatable read.

Ví dụ: T1 cập nhật số dư nhưng chưa commit, T2 đọc vẫn thấy số dư cũ. Khi T1 commit, T2 đọc lại sẽ thấy số dư mới

Repeatable Read

Đảm bảo rằng trong suốt transaction, nếu đọc một dòng nhiều lần thì giá trị đọc được luôn giống nhau (không bị non-repeatable read).

Tuy nhiên, vẫn có thể xảy ra phantom read.

Ví dụ: T1 đọc số dư hai lần đều nhận được cùng một giá trị, dù T2 có cập nhật và commit giữa hai lần đọc

Serializable

Mức cao nhất, mọi transaction được thực hiện như thể chúng chạy tuần tự, không song song.

Không xảy ra dirty read, non-repeatable read, phantom read.

Đảm bảo tính nhất quán tối đa nhưng giảm khả năng thực thi đồng thời

So sánh các mức độ isolation

Mức độ cô lập	Dirty Read	Non-repeatable Read	Phantom Read
Read Uncommitted	Có	Có	Có
Read Committed	Không	Có	Có
Repeatable Read	Không	Không	Có
Serializable	Không	Không	Không

Ưu điểm và nhược điểm

Ưu điểm:

Giúp kiểm soát tính nhất quán dữ liệu, giảm các hiện tượng bất thường như dirty read, non-repeatable read, phantom read.

Tăng tính linh hoạt khi thiết kế ứng dụng, cho phép lựa chọn mức độ nhất quán phù hợp nhu cầu.

Nhược điểm:

Mức cô lập càng cao, chi phí càng lớn do cần nhiều khóa hơn, giảm khả năng thực thi đồng thời.

Một số hệ quản trị không hỗ trợ đầy đủ tất cả các mức cô lập.

Làm tăng độ phức tạp khi thiết kế và bảo trì ứng dụng

Normalize SQL

Tên chuẩn hóa	Tên đầy đủ (Tiếng Anh)	Ý nghĩa chính
1NF	First Normal Form	Mỗi cột chỉ chứa giá trị nguyên tử, không có nhóm lặp, mỗi bản ghi là duy nhất.
2NF	Second Normal Form	Đạt 1NF và mọi thuộc tính không khóa phải phụ thuộc hoàn toàn vào khóa chính.
3NF	Third Normal Form	Đạt 2NF và không có phụ thuộc bắc cầu giữa các thuộc tính không khóa.
BCNF	Boyce-Codd Normal Form	Mở rộng 3NF, mọi phụ thuộc hàm đều có vế trái là khóa ứng viên.
4NF	Fourth Normal Form	Đạt BCNF và không có phụ thuộc đa trị không tầm thường.
5NF	Fifth Normal Form	Đạt 4NF và không thể phân tách bảng thành các bảng nhỏ hơn mà không mất dữ liệu.
6NF	Sixth Normal Form	Chia nhỏ bảng để loại bỏ mọi sự dư thừa phi thời gian (ít dùng thực tế).

Advantages and disadvantages of MongoDB

MongoDB là gì?

MongoDB là một cơ sở dữ liệu NoSQL dạng document, lưu trữ dữ liệu dưới dạng BSON/JSON, rất phổ biến trong các hệ thống web hiện đại nhờ khả năng mở rộng và linh hoạt cao.

Ưu điểm của MongodB

Linh hoạt về cấu trúc dữ liệu: Không cần schema cố định, dễ dàng lưu trữ dữ liệu đa dạng và thay đổi nhanh, rất phù hợp với ứng dụng phát triển nhanh hoặc dữ liệu không đồng nhất.

Mở rộng ngang tốt: Hỗ trợ sharding, dễ dàng scale-out để đáp ứng lượng truy cập lớn hoặc dữ liệu tăng nhanh – điều này rất quan trọng với các nền tảng mạng xã hội như TikTok.

Hiệu năng cao với dữ liệu lớn: Truy vấn nhanh, tối ưu cho các thao tác đọc/ghi lớn, phù hợp với các tính năng như feed, comment, notification.

Dữ liệu trả về dạng JSON: Dễ dàng tích hợp với frontend (React, NextJS, v.v.), giảm thời gian chuyển đổi dữ liệu giữa backend và frontend.

Nhược điểm MongoDB

Không tối ưu cho dữ liệu quan hệ phức tạp: Không hỗ trợ join mạnh mẽ như SQL, khó xử lý các nghiệp vụ cần nhiều mối quan hệ giữa các bảng.

Dễ trùng lặp dữ liệu: Thiếu chuẩn hóa, có thể phát sinh dữ liệu lặp lại, gây tốn dung lượng và khó kiểm soát tính nhất quán.

Tính toàn vẹn dữ liệu thấp hơn SQL: Transaction đa document chưa mạnh như RDBMS, thiếu các ràng buộc như foreign key.

Hiệu suất giảm nếu không tối ưu index: Nếu không thiết kế index tốt, truy vấn sẽ chậm khi dữ liệu lớn.

Liên hệ thực tế với vai trò frontend

Với vai trò frontend, em đánh giá cao MongoDB vì dữ liệu trả về dạng JSON rất thuận tiện cho việc render UI với React/NextJS, giảm thao tác chuyển đổi dữ liệu. Ngoài ra, khả năng mở rộng và hiệu năng của MongoDB giúp backend phục vụ dữ liệu cho các tính năng realtime như feed, comment, notification rất hiệu quả. Tuy nhiên, em cũng nhận thức được rằng nếu ứng dụng có nhiều nghiệp vụ liên quan đến dữ liệu quan hệ phức tạp hoặc cần đảm bảo tính nhất quán cao, thì nên cân nhắc kết hợp thêm SQL hoặc các giải pháp khác

MongoDB optimize database

Sử dụng index hợp lý

Tạo index cho các trường thường xuyên truy vấn, lọc hoặc sắp xếp để tăng tốc độ truy vấn

Sử dụng compound index nếu truy vấn trên nhiều trường, đồng thời xóa bỏ index không dùng để tiết kiệm bộ nhớ và tăng hiếu suất ghi

Viết truy vấn tối ưu

Chỉ lấy các trường cần thiết (projection) thay vì toàn bộ document, giúp giảm băng thông và tăng tốc độ trả về kết quả.

Sử dụng .limit() để giới hạn số lượng bản ghi trả về, đặc biệt quan trọng với các tính năng như infinite scroll hoặc feed.

Phân tích và giám sát truy vấn

Sử dụng .explain() để kiểm tra execution plan, đảm bảo truy vấn sử dụng index hiệu quả, tránh full collection scan.

Theo dõi hiệu suất truy vấn thực tế để điều chỉnh index hoặc cấu trúc dữ liệu phù hợp với pattern sử dụng.

Thiết kế schema hợp lý

Lựa chọn giữa chuẩn hóa và phi chuẩn hóa phù hợp với nhu cầu thực tế, cân nhắc trade-off giữa hiệu suất truy vấn và tính nhất quán dữ liệu.

Tối ưu hóa phân trang

Tránh dùng .skip() cho phân trang sâu, thay vào đó sử dụng phân trang dựa trên giá trị khóa như _id hoặc timestamp để tăng hiệu suất.

Liên hệ thực tế với vai trò frontend

Với vai trò frontend, em đánh giá việc tối ưu hóa database MongoDB rất quan trọng vì nó ảnh hưởng trực tiếp đến tốc độ phản hồi API, từ đó quyết định trải nghiệm người dùng trên UI. Khi backend trả về dữ liệu nhanh, frontend có thể render mượt mà hơn, đặc biệt với các tính năng realtime như feed, comment, notification. Ngoài ra, dữ liệu trả về dạng JSON từ MongoDB cũng giúp frontend dễ dàng xử lý và tích hợp với các framework như React hoặc NextJS.

MongoDB full collection scan

Nếu bạn có collection "users" với 1 triệu document, truy vấn sau sẽ gây ra full collection scan nếu không có index trên trường "address":

javascriptjavascript

1db.users.find({ address: "Hanoi" })

MongoDB sẽ phải duyệt qua toàn bộ 1 triệu document để tìm các document có address là "Hanoi”

Drawback of NoSQL database

NoSQL database mang lại nhiều lợi ích về khả năng mở rộng và linh hoạt, nhưng cũng có một số nhược điểm quan trọng

Thiếu tính nhất quán mạnh (Strong Consistency)

Nhiều NoSQL database ưu tiện hiệu xuất và khả năng mở rộng, nên thường chỉ đảm bảo eventual consistency thay vì strong consistency như SQL. Điều này có thể gây ra các vấn đề về dữ liệu không đồng bộ, nhất là với các ứng dụng cần dữ liệu luôn chính xác

Hỗ trợ hạn chế cho các giao dịch phức tạp

Đa phần NoSQL không hỗ trợ đầy đủ các thuộc tính ACID như SQL, nên không phù hợp với các nghiệp vụ cần transaction phức tạp hoặc toàn vẹn dữ liệu tuyệt đối, ví dụ hệ thống tài chính

Khả năng truy vấn phức tạp và join yếu

NoSQL thường không hỗ trợ tốt các truy vấn phức tạp, join nhiều bảng/tập dữ liệu. Khi cần xử lý các mối quan hệ phức tạp hoặc phân tích dữ liệu, việc này có thể gây khó khăn và phải xử lý ở tầng ứng dụng

Thiếu chuẩn hóa và công cụ quản trị

Mỗi loại NoSQL lại có cách quản lý, truy vấn, và tối ưu khác nhau, thiếu tính chuẩn hóa như SQL. Điều này đòi hỏi đội ngũ phát triển phải học thêm nhiều công nghệ mới và có thể gặp khó khăn khi bảo trì, vận hành hệ thống lớn

Độ trưởng thành và cộng đồng hỗ trợ chưa bằng SQL

So với các hệ quản trị cơ sở dữ liệu quan hệ, nhiều NoSQL database còn khá mới, thiếu tài liệu chuyên sâu và công cụ quản trị mạnh mẽ

Drawback of SQL database

Thứ nhất: SQL database thường khó mở rộng theo chiều ngang, điều này có thể trở thành điểm nghẽn khi xử lý lượng dữ liệu người dùng khổng lồ hoặc lưu lượng truy cập cao

Thứ hai: Việc thay đổi cấu trúc dữ liệu (schema) trong database quan hệ khá phức tạp và tiềm ẩn rủi ro đối với các sản phẩm cần phát triển nhanh, thay đổi liên tục

Thứ ba: SQL database không thực sự hiệu quả khi làm việc với dữ liệu phi cấu trúc hoặc bán cấu trúc, như nội dung do người dùng tạo ra, file media, hoặc metadata linh hoạt

→ Vì vậy, các hệ thống noSQL thường được ưu tiên sử dụng cho những trường hợp cần khả năng mở rộng và linh hoạt cao, mặc dù SQL vẫn là lựa chọn mạnh mẽ khi cần đảm bảo tính nhất quán giao dịch

Loading content...