Là khoa học dữ liệu và dữ liệu lớn hadoop giống nhau? Có sự khác biệt nào giữa chúng hay cả hai đều có nghĩa giống nhau?


Câu trả lời 1:

Không chắc chắn không.

Hãy thảo luận vấn đề này thành ba phần:

Khoa học dữ liệu là một chuyên ngành để giải quyết các vấn đề khác nhau bằng các phương pháp khác nhau từ Thống kê, Kết hợp, Toán học và Khoa học máy tính, v.v.)

Dữ liệu lớn: Dữ liệu lớn trong chế độ xem rộng là khái niệm xử lý dữ liệu khổng lồ (Thuật ngữ khổng lồ là tương đối) bên ngoài các phương pháp truyền thống.

Hadoop: Hadoop là một khung hoặc chúng ta có thể nói một môi trường có thể được sử dụng để quản lý và phân tích các bộ dữ liệu khổng lồ bằng các công cụ khác nhau (PIG, HIVE, Scoop, Fume, v.v.)

Người giới thiệu :

Hướng dẫn Hadoop

Khoa học dữ liệu

Dữ liệu lớn


Câu trả lời 2:

Tôi cho rằng bạn nghĩ rằng dữ liệu khoa học và dữ liệu lớn Hadoop, là hai thứ khác nhau nhưng thực ra chúng là ba thứ. Khoa học dữ liệu, Dữ liệu lớn và Hadoop có ý nghĩa khác nhau.

Giả sử bạn là học sinh lớp 10. Bạn đã được giao một công việc tìm điểm trung bình trong mỗi môn học được ghi bởi các bạn cùng lớp. Bạn có 50 học sinh trong lớp học mỗi môn 5 môn. Tìm trung bình là không có khoa học tên lửa, vì vậy bạn làm tất cả trong một bảng excel. Bây giờ giáo viên của bạn yêu cầu bạn thực hiện phép tính tương tự cho tất cả các phần A, B và C, của khoảng 150 Học sinh. Bảng Excel là đủ một lần nữa. Bây giờ bạn muốn biết điểm trung bình nào cho môn Khoa học được ghi bởi các học sinh lớp 10 trên cả nước, đó là vào khoảng 14,31,861 học sinh năm 2016. Bạn không thể lưu trữ nhiều dữ liệu đó trong một bảng excel để bạn có thể lưu trữ nó trong một cơ sở dữ liệu như MySQL hoặc Oracle. Bạn chạy một truy vấn SQL để tìm mức trung bình. Bây giờ bạn tò mò muốn biết xu hướng trung bình đã di chuyển như thế nào kể từ 20 năm qua trong Khoa học cho lớp 10, khoảng 3000000 hồ sơ. Nếu bạn tìm thấy trung bình của cả 5 môn học và không chỉ khoa học, bạn sẽ xử lý 30000000 x 5 hồ sơ. Bây giờ dữ liệu rất lớn, còn được gọi là Dữ liệu Lớn Lớn.

Dữ liệu lớn - các tập dữ liệu cực lớn có thể được phân tích tính toán để tiết lộ các mô hình, xu hướng và liên kết, đặc biệt liên quan đến hành vi và tương tác của con người.- Từ Wikipedia

Bạn có thể không nên lưu trữ quá nhiều dữ liệu trong MySQL hoặc Oracle và chạy truy vấn SQL của bạn trên hàng triệu bản ghi. Tôi chưa bao giờ xử lý quá nhiều dữ liệu trong cơ sở dữ liệu SQL vì vậy sẽ không nhận xét về hiệu suất của nó nhưng tôi đã sử dụng Hadoop để xử lý số lượng lớn bộ dữ liệu, lớn hơn nhiều so với cơ sở dữ liệu sinh viên mà chúng ta đang nói đến. Hadoop là một khung phân phối dữ liệu thành nhiều hệ thống để tất cả các hệ thống có thể thực hiện tính toán song song, do đó làm tăng tốc độ tính toán tổng thể, còn được gọi là Tính toán phân tán. Hadoop có hệ thống tệp riêng là hệ thống lưu trữ dữ liệu cho Dữ liệu lớn.

Khoa học dữ liệu theo thuật ngữ giáo dân là một khoa học để hiểu phải làm gì với dữ liệu, dù lớn hay nhỏ. Cho đến bây giờ chúng tôi chỉ cố gắng tìm điểm trung bình nhưng một nhà khoa học dữ liệu sẽ vượt xa và tìm cách để tìm ra những gì có thể được thực hiện với mức trung bình. Đối với một tổ chức, anh ta sẽ giúp họ đưa ra quyết định kinh doanh và tìm ra các mô hình giúp các ông chủ đưa ra quyết định tốt hơn và phân bổ nguồn lực để tăng lợi nhuận. Hầu hết các nhà khoa học dữ liệu thậm chí có thể không sử dụng Hadoop nếu họ không xử lý Dữ liệu lớn, họ thường sử dụng R lang hoặc Python để họ tính toán.

Dữ liệu lớn là một khái niệm.Hadoop là một công cụ. Khoa họcata là một lĩnh vực của khoa học máy tính.


Câu trả lời 3:

Tôi cho rằng bạn nghĩ rằng dữ liệu khoa học và dữ liệu lớn Hadoop, là hai thứ khác nhau nhưng thực ra chúng là ba thứ. Khoa học dữ liệu, Dữ liệu lớn và Hadoop có ý nghĩa khác nhau.

Giả sử bạn là học sinh lớp 10. Bạn đã được giao một công việc tìm điểm trung bình trong mỗi môn học được ghi bởi các bạn cùng lớp. Bạn có 50 học sinh trong lớp học mỗi môn 5 môn. Tìm trung bình là không có khoa học tên lửa, vì vậy bạn làm tất cả trong một bảng excel. Bây giờ giáo viên của bạn yêu cầu bạn thực hiện phép tính tương tự cho tất cả các phần A, B và C, của khoảng 150 Học sinh. Bảng Excel là đủ một lần nữa. Bây giờ bạn muốn biết điểm trung bình nào cho môn Khoa học được ghi bởi các học sinh lớp 10 trên cả nước, đó là vào khoảng 14,31,861 học sinh năm 2016. Bạn không thể lưu trữ nhiều dữ liệu đó trong một bảng excel để bạn có thể lưu trữ nó trong một cơ sở dữ liệu như MySQL hoặc Oracle. Bạn chạy một truy vấn SQL để tìm mức trung bình. Bây giờ bạn tò mò muốn biết xu hướng trung bình đã di chuyển như thế nào kể từ 20 năm qua trong Khoa học cho lớp 10, khoảng 3000000 hồ sơ. Nếu bạn tìm thấy trung bình của cả 5 môn học và không chỉ khoa học, bạn sẽ xử lý 30000000 x 5 hồ sơ. Bây giờ dữ liệu rất lớn, còn được gọi là Dữ liệu Lớn Lớn.

Dữ liệu lớn - các tập dữ liệu cực lớn có thể được phân tích tính toán để tiết lộ các mô hình, xu hướng và liên kết, đặc biệt liên quan đến hành vi và tương tác của con người.- Từ Wikipedia

Bạn có thể không nên lưu trữ quá nhiều dữ liệu trong MySQL hoặc Oracle và chạy truy vấn SQL của bạn trên hàng triệu bản ghi. Tôi chưa bao giờ xử lý quá nhiều dữ liệu trong cơ sở dữ liệu SQL vì vậy sẽ không nhận xét về hiệu suất của nó nhưng tôi đã sử dụng Hadoop để xử lý số lượng lớn bộ dữ liệu, lớn hơn nhiều so với cơ sở dữ liệu sinh viên mà chúng ta đang nói đến. Hadoop là một khung phân phối dữ liệu thành nhiều hệ thống để tất cả các hệ thống có thể thực hiện tính toán song song, do đó làm tăng tốc độ tính toán tổng thể, còn được gọi là Tính toán phân tán. Hadoop có hệ thống tệp riêng là hệ thống lưu trữ dữ liệu cho Dữ liệu lớn.

Khoa học dữ liệu theo thuật ngữ giáo dân là một khoa học để hiểu phải làm gì với dữ liệu, dù lớn hay nhỏ. Cho đến bây giờ chúng tôi chỉ cố gắng tìm điểm trung bình nhưng một nhà khoa học dữ liệu sẽ vượt xa và tìm cách để tìm ra những gì có thể được thực hiện với mức trung bình. Đối với một tổ chức, anh ta sẽ giúp họ đưa ra quyết định kinh doanh và tìm ra các mô hình giúp các ông chủ đưa ra quyết định tốt hơn và phân bổ nguồn lực để tăng lợi nhuận. Hầu hết các nhà khoa học dữ liệu thậm chí có thể không sử dụng Hadoop nếu họ không xử lý Dữ liệu lớn, họ thường sử dụng R lang hoặc Python để họ tính toán.

Dữ liệu lớn là một khái niệm.Hadoop là một công cụ. Khoa họcata là một lĩnh vực của khoa học máy tính.