Saturday, February 20, 2016

Phân tích gian lận thế hệ mới: Machine Learning trên Hadoop

Gian lận đại diện cho sự mất mát lớn nhất đối với các ngân hàng, chiếm trên 1.744 tỷ đô thua lỗ hàng năm. Các ngành công nghiệp ngân hàng dành hàng triệu đô mỗi năm cho các công nghệ nhằm giảm gian lận và giữ chân khách hàng, nhưng lại phải chi tiêu không ít trong việc bảo vệ các ngân hàng. Hãy tập trung vào lý do tại sao các phương pháp phát hiện gian lận hiện nay không làm việc tốt như mong muốn và cách học máy giúp đỡ thế nào trên nguồn dữ liệu lớn.


Hầu hết các phương pháp tiếp cận hiện tại để phát hiện gian lận phần lớn là dạng tĩnh và dựa trên các mẫu chữ ký và bắt nguồn từ một tập hợp con của các giao dịch trước đó. Các ngân hàng thường sử dụng mô hình toán học phức tạp được tạo ra từ gian lận lịch sử đã biết để xác định liệu một giao dịch xảy ra trong thời gian thực là gian lận hay không. Rất ít hoặc nếu có, phải được chú ý nhằm phát hiện gian lận trong lần đầu tiên, trong khi không có chữ ký đã biết. Hơn nữa, chữ ký thu được cũng không đủ toàn diện như nó được tạo ra từ một tập hợp con của dữ liệu. Kết quả là, các ngân hàng luôn chơi đuổi bắt và gian lận lần đầu tiên thường vượt qua và không bị phát hiện.






Một vấn đề khác là tần số mà các mô hình đang được cập nhật. Trong nhiều trường hợp, các mô hình sử dụng để phát hiện các mô hình gian lận chỉ được cập nhật mỗi năm một lần do những khó khăn về chi phí, thời gian cần thiết để tạo mô hình chính xác và triển khai chúng. Một kế hoạch giao dịch gian lận có thể không bị phát hiện trong nhiều tháng, trước khi được phân loại chính xác ở mô hình cập nhật sau này.



Cuối cùng, việc xem xét quan trọng nhất đối với các ngân hàng là sự cân bằng giữa việc gắn cờ bị nghi ngờ là giao dịch gian lận với các tác động tiêu cực đến sự hài lòng của khách hàng khi giao dịch, phải giảm được sự nhầm lẫn. Giảm số lượng các sai sót tích cực liên quan trực tiếp đến độ chính xác của phát hiện các hoạt động gian lận. Việc thiếu hụt các kỹ thuật hiện đại, mà dựa trên các mẫu có nguồn gốc từ các tập con của các giao dịch lịch sử, cung cấp cơ hội để tạo ra mô hình mới với độ chính xác cao hơn dự đoán.


Bởi vậy, giải pháp tốt hơn để thực hiện một cách tiếp cận toàn diện phát hiện gian lận có thể phát hiện cả hai trường hợp đã biết và trường hợp mới của gian lận khi chúng xảy ra trong thời gian thực, với một mức độ chính xác cao hơn. Vậy làm thế nào để bạn xây dựng một giải pháp phân tích gian lận hiện đại mà làm việc tốt hơn trong việc phát hiện các giao dịch bất hợp pháp trong khi giảm thiểu các báo động nhầm lẫn quấy rầy khách hàng? Câu trả lời là máy học về dữ liệu lớn (machine learning on big data).


Sự xuất hiện của dữ liệu lớn, trên phân phối dựa trên nền tảng Hadoop như MapR , đã làm cho nó có thể kinh tế và hiệu quả hơn trong lưu trữ và xử lý lượng lớn dữ liệu. Điều này cho phép các doanh nghiệp sử dụng dữ liệu giao dịch lịch sử toàn diện để phát hiện chữ ký giả mạo không được biết trước đó. Bằng cách tăng số lượng dữ liệu có sẵn để phân tích toàn diện, độ chính xác của hệ thống phát hiện gian lận có thể được tăng lên rất nhiều. Thách thức đó để tìm các công cụ và kỹ thuật có thể phân tích dữ liệu trên một quy mô rất lớn trong thời gian thực, và để phát hiện các hoạt động gian lận lần đầu tiên mà không có bất cứ dấu hiệu nào đã biết với độ chính xác cao.

Một ví dụ về một platform cung cấp một cách giải quyết mới để phân tích vấn đề gian lận là Skytree, nền tảng học máy đầu tiên được xây dựng từ mặt đất lên để làm việc trên các tập dữ liệu lớn ở hiệu suất cao với độ chính xác tốt nhất bên trong lớp. Nó vốn chạy trên cụm MapR Hadoop và hỗ trợ một tập lớn các phương pháp học có giám sát và không giám sát. Những kỹ thuật này có thể phát hiện gian lận dựa trên mô hình và chữ ký cũng như phát hiện gian lận lần đầu tiên dựa trên phát hiện giao dịch bất thường. Ngoài ra, mô hình tự động độc lập và kỹ thuật tham số lựa chọn của Skytree làm cho nó dễ dàng lặp thông qua nhiều phương pháp trên các tập dữ liệu lớn, làm cho mô hình thường xuyên có thể cập nhật và cho kết quả chính xác nhất.





Giai đoạn tiến triển nhất hệ thống phát hiện gian lận cần phải thích nghi, nhanh chóng và chính xác. Điều này đòi hỏi phân tích sâu về phát triển liên tục bộ dữ liệu và tiếp tục cập nhật các mô hình sản xuất . Máy học hiệu suất cao trên Hadoop sử dụng cả hai phương pháp học có giám sát và không giám sát để phát hiện gian lận. Nó đẩy mạnh khả năng phát hiện chính xác và kịp thời của sự lặp lại và gian lận lần đầu. Với máy móc tiên tiến học tập trên dữ liệu lớn, không bao lâu nữa gian lận cần phải trả giá trong kinh doanh.

Đọc thêm bài đăng khác: 

No comments:

Post a Comment

Followers