❄️ Quan Hệ Phức Tạp

An toàn thông tin mạng đang diễn biến phức tạp (Chinhphu.vn) - Tình hình an toàn thông tin mạng ở Việt Nam ngày càng diễn biến phức tạp, tăng mạnh về quy mô, số lượng, mức độ tinh vi và tính chuyên nghiệp của các cuộc tấn công mạng, nhất là tấn công mạng vào hệ thống thông tin các doanh nghiệp lớn. Trên đây chỉ là một số cách mà chấn thương phức tạp có thể làm giảm mối quan hệ của bạn. Có thể có những mối quan hệ vui vẻ, lành mạnh ngay cả khi bạn bị PTSD phức tạp, nhưng không phải cho đến khi bạn xử lý nó và chữa lành. Đối với hai hệ thống truyền tải điện với cùng công suất thực, hệ thống nào có hệ số công suất thấp hơn sẽ có dòng điện xoay chiều lớn hơn vì lý do năng lượng phản kháng bị trả lại nguồn lớn hơn, tạo ra nhiều thất thoát năng lượng và làm giảm hiệu năng truyền tải, làm tăng kích thước dây điện Bà Raimondo cho biết chuyến thăm Đài Loan gây tranh cãi của bà Pelosi hồi tuần trước đã khiến chiến lược của chính phủ Hoa Kỳ với Trung Quốc trở nên "đặc biệt phức tạp" liên quan đến nỗ lực của Tổng thống Joe Biden nhằm gỡ bỏ thuế quan đối với hơn 300 tỷ USD hàng hóa Trung Quốc. Các nền tảng, hệ thống thông tin hiện đại hóa công tác chỉ đạo, điều hành, phục vụ người dân, doanh nghiệp tiếp tục được vận hành, phát triển (hơn 15,2 triệu văn bản điện tử được gửi, nhận giữa các cơ quan hành chính nhà nước các cấp trên Trục liên thông YPRER. Nói ra lời này, Đinh Hi có chút lo lắng nhìn Vương Trạch Vinh. Y đã nghĩ ngoài việc này thì đúng là không thể lấy được chuyện gì đả động được Vương Trạch Vinh. Mình nói chuyện này ra, nếu Vương Trạch Vinh có hứng thú thì coi như mình có thể dựa vào Em gái anh?Vương Trạch Vinh nói câu này xong liền từ từ hút thuốc. Hắn đang suy nghĩ nhanh về quan hệ của việc này. Nếu đối phương nói ra thì nhất định chính là có chuyện người ta không muốn Hi nghe Vương Trạch Vinh nói như vậy liền thở phào nhẹ nhõm. Đinh Hi cười khổ nói- Năm đó khi Phó chủ tịch học đại học thì rất thích em gái tôi. Đúng, em gái tôi là Đinh Thiến Thiến, bây giờ đang làm phó đoàn trưởng Vũ đoàn Trung nhà làm văn hóa. Vương Trạch Vinh thoáng cái hiện ra hình ảnh Đinh Thiến Thiến kia. Đối với người phụ nữ này thì Vương Trạch Vinh cũng thấy trên Tv. Mặc dù đã có tuổi nhưng lại không hề già chút nào, vẫn quyến rũ. Đối với người Đinh gia, Vương Trạch Vinh cũng không hiểu mấy. Có tài nguyên tốt như vậy mà đi làm văn giờ Đinh Hi coi như đã buông ra. Y vốn nghĩ giới văn hóa không phức tạp như chính trị, ai ngờ tiến vào mới biết chẳng đâu trong sạch cả. Y đang định chuyển nghề thì lão gia tử mất đi, mặc dù dựa vào quan hệ bao năm của lão gia tử thì vẫn có thể theo chính trị. Nhưng bọn họ biết năng lực của mình, theo chính trị thì nhất định bị người ta bóp chết, hơn nữa vốn yêu thích văn hóa nên mới ở trong ngành này. Đinh Hi chỉ coi như nửa theo chính trị. Bây giờ chỗ dựa lớn nhất chính là Trịnh Ân Bảo. Nhưng em gái mình không biết như thế nào, sau khi chồng chết lại nuôi con mà không kết hôn, cũng không liên lạc với Trịnh Ân Bảo, khiến y không thể làm gì khác là ám chỉ với Ngô Tán Lâm. Lúc này mới có việc Ngô Tán Lâm tích cực qua lại với nay tiết lộ với Vương Trạch Vinh, đây đúng là vấn đề nhạy cảm đã khiến Vương Trạch Vinh động khi làm rõ quan hệ giữa Đinh Hi và Ngô Tán Lâm, Vương Trạch Vinh mặc dù muốn quan hệ với Đinh Hi thì cũng không muốn nhanh như vậy đã tỏ thái độ- Đúng là việc thú vị, xem ra Bí thư Ngô cũng biết việc Trạch Vinh vừa nói như vậy, Đinh Hi biết mình phải nói ra- Nói vậy Bí thư Vương cũng hiểu các gia tộc Bắc Kinh. Đinh gia chúng tôi trước đây cũng rất tốt, hợp tác tốt với Hạng gia, làm mất lòng nhiều người. Sau khi lão gia tử đi thì Đinh gia rất khó khăn, nếu không phải có Hạng gia giúp thì đã có vấn đề. Không ngờ sau đó Hạng lão gia tử cũng đi, cứ như vậy quan hệ hai bên xa dần. Ở Trung Quốc nếu không có chỗ dựa cực mạnh thì rất khó Trạch Vinh nhớ đến tình hình Hạng gia sau khi lão gia tử qua đời và gật đầu. Nếu xuất hiện vấn đề gì thì đúng là có hậu quả lớn, khó trách các gia tộc đều phí công sức bồi dưỡng người kế nghiệp. Vương Trạch Vinh cũng không cắt ngang lời đối phương, hắn muốn biết tình hình cụ Hi hút một hơi thuốc rồi nói- Em gái tôi lúc học ở trường có không ít người theo đuổi, Phó chủ tịch cũng thích em tôi, hai người lúc ấy đã đến nhà của nhau. Tôi vốn không đồng ý, nhưng hai người kia lại quyết tâm. Cuối cùng không biết sao em tôi uống nhầm thuốc lại lấy một tên ngôi sao ca nhạc rất nổi Đinh Hi, Vương Trạch Vinh coi như hiểu thêm về đám thiếu gia Bắc Kinh. Tình hình lúc ấy có lẽ rất phức tạp. Là người Đinh gia thì sao có thể để ý người không có thế lực lớn chứ. Từ kinh nghiệm của Phó chủ tịch thì có thể thấy ông ta mặc dù có quan hệ nên mới phát triển, nhưng mới đầu không có quan hệ nào mạnh. Đinh Hi có lẽ là người phản đối mạnh Em gái anh về sau không liên lạc với Phó chủ tịch sao? Vương Trạch Vinh nếu xảy ra với người bình thường thì Vương Trạch Vinh không chú ý, nhưng đây là người sắp làm Tổng bí thư, Vương Trạch Vinh có chút hưng phấn nếu tìm ra bí Hi lắc đầu nói- Tôi không biết như thế nào cả, em gái tôi bây giờ vẫn không liên lạc với Phó chủ tịch, nếu không tôi cũng không phải lo lắng cho Đinh gia. Vương Trạch Vinh thầm nghĩ người ta có gặp hay không cũng không nhất định phải nói cho anh. Việc này có vấn thế Vương Trạch Vinh cảm thấy quan hệ với Đinh gia cũng không phải việc Bí thư Ngô cũng là do tôi lộ tin tức này Hi có chút do dự rồi Trạch Vinh cười cười, hắn biết là như vậy. Mặc kệ Đinh Hi có mục đích gì thì dùng việc này để ổn định Đinh gia cũng không phải không thể chấp Trạch Vinh nhìn Đinh Hi, hắn tin đám người xuất thân gia tộc lớn như vậy thì ngu đến đâu cũng lưu lại tay sau. Đinh Hi này nếu muốn thông qua việc này để lợi dụng Ngô Tán Lâm, thì sao không nghĩ đến vấn đề sau khi lợi dụng xong. Hơn nữa Đinh Thiến Thiến kia và Trịnh Ân Bảo có quan hệ không Vương Trạch Vinh nhìn tới đầy ẩn ý, Đinh Hi cười thầm trong lòng. Y đương nhiên biết điểm mấu chốt đã tới, có thể dựa vào Vương Trạch Vinh hay không chính là bây Tôi có chút tài liệu liên quan tới Bí thư Ngô, có lẽ có tác dụng với Bí thư Hi cẩn thận Đinh Hi nói có thứ gì đấy về Ngô Tán Lâm, Vương Trạch Vinh hơi động tâm, sau đó nói ra một câu- Tôi hôm nay tới đây chỉ để thư giãn mà ngờ Vương Trạch Vinh lại bỏ qua nhược điểm về Ngô Tán Lâm, Đinh Hi thoáng cái có chút lo lắng, kết quả này là điều y không ngờ Đinh Hi có chút lo lắng, Vương Trạch Vinh cười nói- Lão Đinh, vừa nãy nghe anh nói Đinh gia và Hạng gia vẫn hợp tác tốt, chúng ta phải duy trì mới Hi đang lo lắng nghe thấy vậy liền vui mừng ra mặt. Y đương nhiên nghe ra Vương Trạch Vinh đồng ý nhận mình nên rất cung kính nói- Bí thư Vương, sau này chỉ cần tôi có thể làm gì, tôi sẽ nghiêm túc đi Trạch Vinh cũng không phải không muốn lấy nhược điểm của Ngô Tán Lâm, nhưng cuối cùng cũng bỏ suy nghĩ mê người này đi. Ngô Tán Lâm dù không cần hắn ra tay cũng xong đời. Ngô Tán Lâm nhất định đã ngã, nếu như vậy mình không cần phải đâm làm gì. Hơn nữa mình sắp vào Bộ Chính trị, đối với hắn thì cố gắng không dùng mưu kế mới có lợi cho sự phát Chuyện Bắc Kinh thì anh cũng biết, thuận thế là rất quan Trạch Vinh cười Hi nghiêm túc nói- Bí thư Vương nói Trạch Vinh không cần không có nghĩa người khác không cần. Câu này của Vương Trạch Vinh đã nói rõ Đinh Hi phải làm gì. Đinh Hi biết Vương Trạch Vinh không muốn dính vào việc này, xem ra mình phải bố trí một Trạch Vinh đang phân tích quan hệ giữa Đinh gia và Trịnh Ân Bảo. Từ lời Đinh Hi, Vương Trạch Vinh cũng phân tích với mình, như vậy Đinh Thiến Thiến nhất định có tình cảm với Trịnh Ân Bảo, quan hệ nam nữ thì cũng rõ. Năm đó Trịnh Ân Bảo có lẽ là thanh niên nhiệt huyết, hai người cãi nhau hoặc xuất hiện nguyên nhân gì đấy nên chia tay. Chẳng qua nhiều năm qua đi ai biết Trịnh Ân Bảo và Đinh Thiến Thiến còn tình cảm không?Vương Trạch Vinh còn một suy nghĩ đó là chồng Đinh Thiến Thiến bị bệnh chết có quan hệ với Trịnh Ân Bảo không?Suy nghĩ này vừa lóe lên làm Vương Trạch Vinh phải giật Lão Đinh, sau này chúng ta phải tăng cường liên lạc. Nam Điền đang phát triển, rất cần các anh đến chỉ đạo về văn Trạch Vinh nói sang chuyện Hi biết bây giờ đã dựa vào Vương Trạch Vinh, ít nhất Vương Trạch Vinh không phản đối việc mình dựa vào. Đương nhiên từng đó là chưa đủ, phải tăng cường thêm Bí thư Vương, việc này dễ làm, chúng tôi lập tức liên lạc với Ban Tuyên giáo Tỉnh ủy Nam Hi liền tỏ thái độ Trạch Vinh cười nói- Hôm nay nói chuyện với anh rất người nói sang chuyện khác rồi cười cười đi về phòng Hồ Húc Đông đang ngồi đó nói chuyện với mọi người, Vương Trạch Vinh đúng là phục năng lực thích ứng của người Bộ trưởng Hồ đúng là nhảy Trạch Vinh cười Vương Trạch Vinh cùng Đinh Hi từ phòng khác đi ra, Hồ Húc Đông mặc dù có chút khó hiểu nhưng vẫn cười nói- Bí thư Vương không ở đây nên tôi mệt chết. Trong quá trình huấn luyện mô hình, chắc hẳn bạn đã gặp trường hợp với vấn đề mô hình dự đoán tốt trên tập train nhưng không dự đoán tốt trên tập test. Đó được hiểu bởi vì do mô hình quá phức tạp nhưng lại được được huấn luyện với lượng dữ liệu có giới hạn khi sử dụng Maximum Likelihood Estimation. Đó là hiện tượng overfitting. Khi đó, chúng ta có thể giảm số lượng tham số của mô hình, tuy nhiên, chúng ta sẽ đối mặt với việc mô hình đơn giản quá không nắm bắt được các xu hướng của dữ liệu. Việc để hiểu rõ lý do tại sao mô hình đưa ra kết quả như vậy, chúng ta phải tìm hiểu hai khái niệm, đó là Bias và Variance. Các thuật toán Machine Learning sử dụng mô hình Xác suất thống kê có hai loại sai số không thể tránh khỏi là avoidable error sai số có thể giảm thiểu được và unavoidable error sai số không thể điều chỉnh được. Unavoidable error là sai số do sự biến thiên tự nhiên trong hệ thống. Trong khi đó, avoidable error được thì lại dễ kiểm soát hơn và có thể tăng độ chính xác trong bài toán. Bias và Variance là các thành phần của sai số có thể giảm thiểu được. Tuy nhiên Bias chỉ có thể giảm đến một mức độ nhất định. Việc giảm được sai số đòi hỏi phải lựa chọn mô hình có độ phức tạp và linh hoạt phù hợp, cũng như bộ dữ liệu train thích hợp. Do đó chúng ta cần phải hiểu được sự khác biệt của Bias cũng như Variance để giảm được độ sai số và xây dựng mô hình chính xác. Mục lục Bias là gì?Variance là gì?Bias-Variance trade offOverfitting và UnderfittingBias và Variance trong bài toán thực tế 1. Bias là gì? Bias hay còn được hiểu là độ lệch, thiên vị, thiên kiến là sai khác giữa giá trị dự đoán và giá trị chính xác ground truth của dự đoán đó. Khi xây dựng mô hình chúng ta mong muốn sẽ tạo ra bias thấp. Điều đó đồng nghĩa với giá trị dự báo sẽ gần với ground truth hơn. Thông thường những mô hình quá đơn giản được huấn luyện trên những bộ dữ liệu lớn sẽ dẫn tới bias lớn. Hiện tượng này còn được gọi là mô hình bị chệch. Nguyên nhân của bị chệch thường là do mô hình quá đơn giản trong khi dữ liệu có mối quan hệ phức tạp hơn và thậm chí nằm ngoài khả năng biểu diễn của mô hình. Vì vậy trong tình huống này để giảm bớt bias thì chúng ta thường sử dụng mô hình phức tạp hơn để tận dụng khả năng biểu diễn tốt hơn của chúng trên những tập dữ liệu kích thước lớn. Định nghĩa Toán học. \text{Bias}\left\hat\theta\right=\text{E}\left\hat\theta\right – \theta Qua đây, chúng ta phần nào cũng hiểu được “lệch/ chệch” của từ bias ở đây nghĩa là gì. Nếu \footnotesize{\text{Bias}\left\hat\theta\right \ne 0} thì ta gọi estimator bị bias biased estimator. Nếu \footnotesize{ \text{Bias}\left\hat\theta\right = 0} thì ta gọi là unbiased estimator. Tất nhiên ở đây, unbiased estimator sẽ tốt hơn so với biased estimator, vì cái dự đoán của chúng ta đúng chính xác so với thực tế. Tuy nhiên câu hỏi đặt ra là phải chăng bias thấp thậm chí là unbiased estimator đang giúp mô hình kết quả chính xác hơn trên tập train, vậy có phải điều này là tốt? Câu trả lời là có, nhưng chưa đủ. Thuật toán tuyến tính thường có bias cao, khiến chúng học nhanh. Trong linear regression, bias đề cập đến sai số được đưa vào bằng cách tính gần đúng một vấn đề trong cuộc sống thực, vấn đề trong cuộc sống có thể rất phức tạp nhưng lại bằng một mô hình đơn giản hơn nhiều. Mặc dù thuật toán tuyến tính có thể tạo ra sự sai lệch, nhưng nó cũng làm cho đầu ra của chúng dễ hiểu hơn. Thuật toán càng đơn giản, nó càng có nhiều khả năng sai lệch. Ngược lại, các thuật toán phi tuyến tính thường có bias thấp. 2. Variance là gì? Variance hay phương sai là khái niệm đặc trưng cho sự phân tán của giá trị dự đoán. Trong mô hình, variance cao được hiểu là hiện tượng mô hình của bạn dự báo ra giá trị có mức độ dao động lớn nhưng thiếu tổng quát. Yếu tố thiếu tổng quát được thể hiện qua việc giá trị dự báo có thể khớp tốt mọi điểm trên tập huấn luyện nhưng rất dao động xung quanh giá trị ground truth trên tập huấn luyện. Những lớp mô hình phức tạp được huấn luyện trên tập huấn luyện nhỏ thường xảy ra hiện tượng phương sai cao và dẫn tới việc học giả mạo thông qua bắt chước dữ liệu hơn là học qui luật tổng quát. Định nghĩa Toán học. \text{Var}\left\hat\theta\right=\text E\left\text{E}\left\hat\theta\right -\hat \theta\right Dưới đây là một số mô hình trong Machine Learning và Bias và Variance tương ứng của nó. Thuật toánBiasVarianceLinear RegressionCaoThấpLogistic RegressionCaoThấpSupport Vector MachineThấpCaoK Nearest NeighborThấpCaoDecision TreeThấpCaoBaggingThấpCao thấp hơn Decision TreeRandom forestThấpCao thấp hơn Decision Tree Bảng 1 3. Bias-Variance trade off Trong ảnh 5 dưới đây, điểm trung tâm là điểm dự đoán tối ưu, cũng chính là giá trị chính xác mà ta đang muốn hướng tới. Các điểm màu xanh là dự đoán mô hình đã đưa ra. Như đã nói ở trên, low bias giúp các điểm dự đoán nằm gần tâm nhất sai số thấp. Tuy nhiên, chỉ mỗi bias thấp thôi là chưa đủ. Nếu mô hình có variance cao, sự phân bố của các điểm dự đoán tản mát ra xung quanh và làm cho một vài dự đoán xa rời tâm hình tròn sai số cao. Bias và Variance có mối quan hệ nghịch trong Machine Learning, không có mô hình nào vừa đạt mức tối thiểu của cả Bias và Variance. Khi một kỹ sư dữ liệu sửa đổi thuật toán ML để phù hợp hơn với một tập dữ liệu nhất định, nó sẽ dẫn đến Bias thấp – nhưng đồng thời nó sẽ làm tăng Variance. Bằng cách này, mô hình sẽ phù hợp với tập dữ liệu đồng thời tăng khả năng đưa ra các dự đoán không chính xác. Điều tương tự cũng áp dụng khi tạo mô hình phương sai thấp với bias cao hơn. Mặc dù nó sẽ giảm nguy cơ dự đoán không chính xác, nhưng mô hình sẽ không khớp đúng với tập dữ liệu. Đó là sự cân bằng tinh tế giữa những bias và phương sai này. Ta sẽ đi xem xét một kết quả tổng quát sau. Giả sử chúng ta có một tập dữ liệu train gồm \footnotesize{n} điểm \footnotesize{D=\left\{x_1,y_1,x_2,y_2,\cdots,x_n,y_n\right\} } và một hàm huấn luyện được ước lượng từ tập huấn luyện là \footnotesize{\hat fx,D} . Ở đây ký hiệu \footnotesize{\hat fx,D} để thể hiện rằng hàm này được hồi quy dựa vào tập dữ liệu \footnotesize{D} huấn luyện. Kỳ vọng của chúng ta là hàm \footnotesize{\hat fx,D} sẽ gần xấp xỉ hàm thực tế là \footnotesize{fx} . Hàm \footnotesize{fx} biểu diễn mối quan hệ thực giữa \footnotesize{x} và \footnotesize{y} . Đồng thời chúng ta chấp nhận một phần sai số nhiễu \footnotesize{\epsilon} giữa hàm \footnotesize{fx} và giá trị ground truth . Đây là phần sai số luôn luôn tồn tại giữa mô hình dự báo và grouth truth. Hay nói cách khác, bất kì mô hình nào cũng sẽ có sai số nếu như dữ liệu là ngẫu nhiên và mối quan hệ giữa đầu vào \footnotesize{x} và đầu ra \footnotesize{y} không được sinh ra bởi một hàm số được chủ định trước. Chính vì không thể tránh khỏi nên sai số này được coi như là một thành phần sai số không thể tránh khỏi unvoidable error. Chúng ta giả định chúng như là thành phần nhiễu có kỳ vọng bằng \footnotesize{0} và phương sai là \footnotesize{\hat\sigma_\epsilon^2} . Như vậy y_i=fx_i+\epsilon_i Khi đó, Mean Squared Error \footnotesize {\text E \left\lefty-\hat fx;D\right^2\right} MSE – Trung bình bình phương sai số được xác định bởi Bias và Variance như sau \text{MSE}=\text{Bias}^2+\text{Variance}+\text{Unvoidable Error} Thật vậy, trước hết ta có nhận xét như sau \begin{matrix} f- \mathrm E\left\hat f\right = \mathrm {const}&1\\ \mathrm E\left\epsilon\right=0,\mathrm E\left\mathrm E\left\hat f\right-\hat f\right=\mathrm E\left\hat f\right-\mathrm E\left\hat f\right=0 & 2 \end{matrix} Bởi vì \footnotesize\hat f và \footnotesize \epsilon độc lập với nhau nên ta có \begin{aligned} \text E\left\lefty-\hat f\right^2\right&=\text E\left\leftf+\epsilon-\hat f\right^2\right \\ & = \text E\left\leftf-\text E\left\hat f\right+\epsilon+ \text E\left\hat f\right -\hat f\right^2\right \\ & = \text E\left\leftf-\text E\left\hat f\right\right^2\right+\text E \left\epsilon^2\right+\text E\left\left\text E\left\hat f\right-\hat f\right^2\right \\& \text{ }+2 \text E\left\leftf-\text E\left\hat f\right\right\epsilon\right +2 \text E\left\left\text E\left\hat f\right-\hat f\right\epsilon\right \\&\text{ }+2 \text E\left\left\text E\left\hat f\right-\hat f\right \leftf-\text E\left\hat f\right\right \right \\&= \leftf-\text E\left\hat f\right\right^2+\text E \left\epsilon^2\right+\text E\left\left\text E\left\hat f\right-\hat f\right^2\right \\&\text{ }+2 \leftf-\text E\left\hat f\right\right\text E\left\epsilon\right+2 \text E\left\left\text E\left\hat f\right-\hat f\right\right\text E\left\epsilon\right \\&\text{ }+2 \text E\left\left\text E\left\hat f\right-\hat f\right \leftf-\text E\left\hat f\right\right \right&\left\text{do } 1 \right\\ &= \leftf-\text E\left\hat f\right\right^2+\text E \left\epsilon^2\right+\text E\left\left\text E\left\hat f\right-\hat f\right^2\right& \left \text{do } 2 \right\\ &= \mathrm{Bias}^2\left\hat f\right + \sigma^2_\epsilon + \mathrm {Var} \left\hat f\right \end{aligned} Ảnh 6 dưới đây minh hoạt về tổng sai số so với Variance và Bias. Qua đó, chúng ta sẽ có cái nhìn rõ hơn vì sao phải đánh đổi giữa bias và variance Ở ảnh 6, chúng ta có thể thấy được độ sai số bias, variance, và tổng sai số liên hệ với độ phức tạp của mô hình model complexity. Nếu như độ phức tạp của mô hình tăng lên thì bias sẽ giảm và variance sẽ tăng. Khi mô hình quá đơn giản hay quá phức tạp thì tổng sai số cũng sẽ cao. Để giảm sai số của mô hình chúng ta cần phải giữ độ phức tạp của mô hình ở mức vừa đủ. 4. Overfitting và Underfitting Overfitting hay quá khớp là hiện tượng khi mô hình xây dựng thể hiện được chi tiết bộ dữ liệu train nhưng không dự đoán đủ tốt trên dữ liệu test. Một mô hình có hiện tượng overfitting đồng nghĩa là nó có high variance. Nguyên nhân bắt nguồn từ việc mô hình có nhiều tham số mô hình quá phức tạp so với lượng dữ liệu train. Điều này khiến mô hình dự đoán tốt trên dữ liệu train này. Tuy nhiên mô hình đã quá khớp vào tập dữ liệu train, kết quả dự đoán trên tập test sẽ không còn tốt hơn. Underfitting hay chưa khớp là hiện tượng khi mô hình xây dựng chưa có độ chính xác cao trong tập dữ liệu huấn luyện cũng như tổng quát hóa với tổng thể dữ liệu. Khi hiện tượng Underfitting xảy ra đồng nghĩa với việc mô hình có high bias. Nguyên nhân bắt nguồn từ việc mô hình có quá ít tham số, nó sẽ dẫn đến sự đơn giản quá mức so với cả dữ liệu train lẫn dữ liệu test. Good fitting vừa khớp là nằm giữa Overfitting và Underfitting. Tức là mô hình cho ra kết quả hợp lý trên cả tập train lẫn với tập test. Good fitting là mục tiêu của mọi bài toán, tuy nhiên, trên thực tế, vấn đề này rất khó thực hiện. Để đạt được good fitting chúng ta phải hiểu và tránh được Overfitting và Underfitting. Một số phương pháp dùng để tránh Overfitting và Underfitting như sau. OverfittingUnderfittingSử dụng giảm chiều dữ liệu và trích xuất đặc trưng Tăng feature cho dữ liệuTăng kích thước cho tập trainTìm kiếm các thuật toán phức tạp hơnSử dụng phương pháp regularizationSử dụng mixture model hoặc essemble learningSử dụng phương pháp BaggingSử dụng phương pháp Boosting Bảng 2 Có thể thấy, để giải quyết được vấn đề Overfitting, chúng ta phải đi giảm variance. Bản chất high variance cho thấy mô hình quá phức tạp so với dữ liệu train. Nên chúng ta cần tăng sự phức tạp của tập train bằng cách tăng kích thước của mô hình hoặc là sử dụng phương pháp Bagging. Hay là chúng ta có thể giảm độ phức tạp của model bằng cách giảm chiều dữ liệu, khi đó số lượng tham số của mô hình của mô hình cũng giảm theo. Chúng ta có thể tăng bias lên bằng cách sử dụng phương pháp regularization. Để giải quyết vấn đề Underfitting, về bản chất, chúng ta phải đi giảm bias. High bias cho thấy mô hình chúng ta đang quá đơn giản so với cả tập train lẫn tập test. Do đó, chúng ta cần tăng sự phức tạp của mô hình bằng cách tìm kiếm các phương pháp phức tạp hơn, sử dụng mixture model, essemble learning hoặc là phương pháp boosting. Việc tăng feature cho dữ liệu, về bản chất nó cũng sẽ tăng sự phức tạp của mô hình, việc tăng chiều dữ liệu sẽ khiến số lượng tham số của mô hình cũng tăng lên, nên từ đó mô hình cũng sẽ trở nên phức tạp hơn. 5. Bias-Variance trade off trong bài toán thực tế Đầu tiên là lấy ví dụ bạn đang trong quá trình hoàn thiện bài viết AI Club Writing để nộp, bạn muốn nhờ người khác lấy ý kiến đánh giá. Nhưng nếu bạn nhờ quá nhiều người, việc này sẽ khiến bạn có nhiều ý kiến khách quan hơn về bài viết. Chứng tỏ rằng mô hình đang có low variance và high bias bởi vì bài viết của bạn sẽ nhận được nhiều ý kiến trái chiều, từ khen cho tới chê, và đôi khi bạn có thể sẽ nhận được thông tin vô nghĩa, không cần thiết. Khi này bạn cần lựa chọn đưa bài viết cho 3 người có các điểm mạnh khác nhau. Bởi vì do những điểm mạnh khác nhau của 3 người này sẽ cho bạn phương sai cao để nhận về bias thấp. Đấy chính là Bias-Variance trade off. Trong trường hợp này, chúng ta có thể chấp nhận phương sai lớn để nhận về bias thấp. Tuy nhiên, không phải bài toán nào chúng ta cũng hướng tới đến bias thấp. Đôi khi chúng ta cần hướng tới sự cân bằng giữa bias và variance. Giả sử bạn đang lấy ý kiến khảo sát về việc người Việt Nam suy nghĩ gì về việc cho học sinh, sinh viên trở lại trường học trong bối cảnh hiện nay. Nếu bạn hỏi quá ít người, chỉ tầm 10 người đến từ các độ tuổi, nơi ở khác nhau. Thì khi đó, ý kiến bạn nhận được sẽ rất khác nhau. Bạn sẽ nhận được về phương sai cao tuy nhiên bias sẽ thấp bởi vì nó sẽ không thể đại diện được cho tổng thể được toàn bộ người dân Việt Nam. Để giải quyết vấn đề đó, bạn sẽ cần phải hỏi 5000 người. Tuy nhiên, nếu bạn hỏi 5000 học sinh đến từ Hồ Chí Minh để khái quát cho toàn bộ người Việt Nam ở tất các các độ tuổi và ở tất cả các vùng miền. Ở đây bạn đã có variance thấp nhưng bias lớn. Bạn cần khảo sát cả những người ở những độ tuổi và các nơi ở khác. Lúc này chúng ta sẽ có cân bằng được bias và variance. Lời kết Thông qua bài viết trên, vậy là chúng ta đã cùng nhau đi tìm hiểu về hai khái niệm quan trọng để giúp chúng ta cải thiện mô hình. Hy vọng với những mình chia sẻ mọi người sẽ có cái nhìn khái quát hơn về việc cải thiện mô hình. Cảm ơn mọi người đã ghé thăm Tutorial của CLB UIT-AI. Mọi ý kiến đóng góp bài viết, xin hãy để lại bình luận dưới bài viết. Tài liệu tham khảo Master in Data Science – Difference between bias and varianceVIBLO – The bias variance decompositiontowardsdatascience – Two important machine learning concepts to impove every modelPiMA – Bias và Variance Trí tuệ nhân tạo – Vấn đề Overfitting & Underfitting trong Machine Learning Wikipedia – Bias–variance tradeoffphamdinhkhanh – Độ chệch bias và phương sai variancephamdinhkhanh – Sự đánh đổi giữa độ chệch và phương saiLinh nghiem – Đánh đổi thiên vị và phương sai trong cuộc sống Nay nhóm MBA đăng loạt bài về mô hình SEM của tác giả Phạm Đức Kỳ – Nguồn để cung cấp thêm kiến thức cho các bạn học viên quan tâm. Loạt bài này gồm 5 phần. Phần thứ 1 1. Giới thiệu tổng quan mô hình mạng SEM Một trong những kỹ thuật phức hợp và linh hoạt nhất sử dụng để phân tích mối quan hệ phức tạp trong mô hình nhân quả là mô hình mạng SEM Structural Equation Modeling. Mô hình SEM đã được sử dụng rộng rãi trong các lĩnh vực nghiên cứu như tâm lý học Anderson & Gerbing,1988; Hansell và White, 1991, xã hội học Lavee, 1988; Lorence và Mortimer, 1985, nghiên cứu sự phát triển của trẻ em Anderson, 1987; Biddle và Marlin,1987 và trong lĩnh vực quản lý Tharenou, Latimer và Conroy,1994. Đặc biệt mô hình này cũng được ứng dụng trong rất nhiều mô hình thỏa mãn khách hàng như ngành dịch vụ thông tin di động tại Hàn Quốc Kim et al. / Telecommunications Policy 28 2004 145–159, Mô hình nghiên cứu sự trung thành của khách hàng Dịch vụ thông tin di động tại Việt nam Phạm Đức Kỳ, Bùi Nguyên Hùng, 2007… Mô hình SEM là sự mở rộng của mô hình tuyến tính tổng quát GLM cho phép nhà nghiên cứu kiểm định một tập hợp phương trình hồi quy cùng một lúc. SEM có thể cho một mô hình phức hợp phù hợp với dữ liệu như các bộ dữ liệu khảo sát trong dài hạnlongitudinal, phân tích nhân tố khẳng định CFA, các mô hình không chuẩn hoá,cơ sở dữ liệu có cấu trúc sai số tự tương quan, dữ liệu với các biến số không chuẩnNon-Normality , hay dữ liệu bị thiếu missing data. Đặc biệt, SEM sử dụng để ước lượng các mô hình đo lường Mesurement Model và mô hình cấu trúc Structure Model của bài toán lý thuyết đa biến. Mô hình đo lường chỉ rõ quan hệ giữa các biến tiềm ẩn Latent Variables và các biến quan sát observed variables.Nó cung cấp thông tin về thuộc tính đo lường của biến quan sát độ tin cậy, độ giá trị. Mô hình cấu trúc chỉ rõ mối quan hệ giữa các biến tiềm ẩn với nhau. Các mối quan hệ này có thể mô tả những dự báo mang tính lý thuyết mà các nhà nghiên cứu quan tâm. Mô hình SEM phối hợp được tất cả các kỹ thuật như hồi quy đa biến, phân tích nhân tố và phân tích mối quan hệ hỗ tương giữa các phần tử trong sơ đồ mạng để cho phép chúng ta kiểm tra mối quan hệ phức hợp trong mô hình. Khác với những kỹ thuật thống kê khác chỉ cho phép ước lượng mối quan hệ riêng phần của từng cặp nhân tố phần tử trong mô hình cổ điển mô hình đo lường, SEM cho phép ước lượng đồng thời các phần tử trong tổng thể mô hình, ước lượng mối quan hệ nhân quả giữa các khái niệm tiềm ẩn Latent Constructs qua các chỉ số kết hợp cả đo lường và cấu trúc của mô hình lý thuyết, đo các mối quan hệ ổn định recursive và không ổn định non-recursive, đo các ảnh hưởng trực tiếp cũng như gián tiếp, kể cả sai số đo và tương quan phần dư. Với kỹ thuật phân tích nhân tố khẳng định CFA mô hình SEM cho phép linh động tìm kiếm mô hình phù hợp nhất trong các mô hình đề nghị. Công dụng và lợi thế của mô hình mạng SEM Kiểm định các giả thuyết về các quan hệ nhân quả có phù hợp FIT với dữ liệu thực nghiệm hay không. Kiểm định khẳng định Confirmating các quan hệ giữa các biến. Kiểm định các quan hệ giữa các biến quan sát và không quan sát biến tiềm ẩn Là phương pháp tổ hợp phương pháp hồi quy, phương pháp phân tích nhân tố, phân tích phương sai. Ước lượng độ giá trị khái niệm cấu trúc nhân tố của các độ đo trước khi phân tích sơ đồ đường path analysis Cho phép thực hiện đồng thời nhiều biến phụ thuộc nội sinh. Cung cấp các chỉ số độ phù hợp cho các mô hình kiểm định. Cho phép cải thiện các mô hình kém phù hợp bằng cách sử dụng linh hoạt các hệ số điều chỉnh MI Modification Indices. SEM cung cấp các công cụ có giá trị về thống kê, khi dùng thông tin đo lường để hiệu chuẩn các quan hệ giả thuyết giữa các biến tiềm ẩn. SEM giúp giả thuyết các mô hình, kiểm định thống kê chúng vì EFA và hồi quy có thể không bền vững nhất quán về mặt thống kê SEM thường là một phức hợp giữa một số lượng lớn các biến quan sát và tiềm ẩn, các phần dư và sai số. SEM giả định có một cấu trúc nhân quả giữa các biến tiềm ẩn có thể là các tổ hợp tuyến tính của các biến quan sát, hoặc là các biến tham gia trong một chuỗi nhân quả. Ngoài ra nhóm hotrospss có các dịch vụ sau – Tư vấn mô hình/bảng câu hỏi/ traning trực tiếp về phân tích hồi quy, nhân tố, cronbach alpha… trong SPSS, và mô hình SEM, CFA, AMOS – Thu thập/Xử lý số liệu khảo sát để chạy ra kết quả có ý nghĩa thống kê. Xem thêm Giả định của hồi quy nhị phân logit Hệ số tương quan pearson, cách thao tác phân tích tương quan trong SPSS Quan hệ chỉ số -2LL và R bình phương trong hồi quy nhị thức logit Các loại thang đo trong SPSS Scale, Ordinal, Nominal Quan hệ giữa Eigenvalues và số lượng nhân tố được tạo thành khi phân tích nhân tố EFA Độ phức tạp đặc trưng cho hành vi của một hệ thống hoặc mô hình có các thành phần tương tác theo nhiều cách và tuân theo các quy tắc cục bộ, có nghĩa là không có hướng dẫn cao hơn hợp lý để xác định các tương tác khác nhau có thể có.[1] Thuật ngữ này thường được sử dụng để mô tả một cái gì đó với nhiều phần trong đó các phần đó tương tác với nhau theo nhiều cách, đỉnh điểm là thứ tự xuất hiện cao hơn lớn hơn tổng của các phần của nó. Nghiên cứu về các mối liên kết phức tạp này ở các quy mô khác nhau là mục tiêu chính của lý thuyết hệ thống phức tạp. Tính đến năm 2010 khoa học có một số cách tiếp cận để mô tả sự phức tạp; Zayed et al. [2] phản ánh nhiều cách tiếp cận trong số này. Neil Johnson nói rằng "ngay cả trong số các nhà khoa học, không có định nghĩa phức tạp nào duy nhất - và khái niệm khoa học đã được truyền đạt bằng cách sử dụng các ví dụ cụ thể..." Cuối cùng Johnson chấp nhận định nghĩa "khoa học phức tạp" là "nghiên cứu về các hiện tượng. xuất hiện từ một tập hợp các đối tượng tương tác với nhau".[3]

quan hệ phức tạp