15 Feb

khai thác dữ liệu và ứng dụng

một. Định nghĩa Big Data

Như đã nói ở trên, Big Data (“dữ liệu lớn”) với là tụ hội dữ liệu mang dung lượng vượt mức gánh vác của những vận dụng và dụng cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính tới năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho tới phổ biến petabyte (1 petabyte = 1024 terabyte) chỉ cho 1 tập hợp dữ liệu mà thôi.

Vào năm 2001, nhà phân tích Doug Laney của hãng META Group (bây giờ chính là đơn vị nghiên cứu Gartner) đã kể rằng những thách thức và cơ hội nằm trong việc lớn mạnh dữ liệu với thể được biểu đạt bằng ba chiều: nâng cao về lượng (volume), tăng về vận tốc (velocity) và tăng về chủng cái (variety). Giờ đây, Gartner cùng sở hữu phổ biến đơn vị và tổ chức khác trong ngành nghề công nghệ thông tin tiếp tục tiêu dùng mô phỏng “3V” này để định nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba thuộc tính trên thì còn phải “cần đến các dạng xử lí mới để viện trợ việc đưa ra quyết định, khám phá sâu vào sự vật/sự việc và tối ưu hóa các trật tự làm việc”.

Chúng ta có thể lấy những thể nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu khiến ví dụ cho Big Data. lúc những thí điểm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến sở hữu nhiệm vụ truyền chuyên chở dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là giả dụ LHC ghi nhận hết kết quả trong khoảng mọi cảm biến thì luồng dữ liệu sẽ phát triển thành vô cùng lớn, mang thể đạt tới 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày, cao hơn 200 lần so có hồ hết những nguồn dữ liệu khác trên toàn cầu gộp chiếc.

Đây là kết quả mô hình của 1 vụ va chạm giữa những hạt sơ cấp trong máy gia tốc LHC, sở hữu rất hầu hết thông báo cần phải ghi nhận trong mỗi vụ chạm như thế này

Trong mỗi giây như thế lại có tới khoảng 600 triệu vụ va chạm giữa những hạt vật chất diễn ra, nhưng sau khi lựa chọn lại từ khoảng 99,999% các luồng dữ liệu đấy, chỉ mang tầm 100 vụ va chạm là được những nhà công nghệ quan tâm. Điều này sở hữu tức là cơ quan chủ quản LHC phải sắm những biện pháp mới để điều hành và xử lí hết mớ dữ liệu đồ sộ này.

một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm Quan sát vũ trụ đặt tại New Mexico, khởi đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà lĩnh vực thiên văn chương đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt tới hơn 140 terabyte. Đài Quan sát LSST để thay thế cho SDSS dự kiến khánh thành trong năm 2016 thì sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày.

Hoặc như công tác giải mã di truyền của con người chả hạn. Trước đây công việc này mất tới 10 năm để xử lí, còn hiện giờ người ta chỉ cần một tuần là đã hoàn thành. Còn trung tâm giả lập khí hậu của NASA thì đang cất 32 petabyte dữ liệu về quan trắc thời tiết và fake lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của khách hàng cũng cấu thành 1 tập hợp Big Data to.

Hoạt động của người dùng Wikipedia được mô hình hóa và có kích thước hàng terabyte, đây cũng mang thể được xem là 1 dạng Big Data

2. Vài thông tin về tình hình Big Data hiện nay

Theo tài liệu của Intel vào tháng 9/2013, hiện nay toàn cầu đang tạo ra một petabyte dữ liệu trong mỗi 11 giây và nó tương đương mang 1 đoạn video HD dài 13 năm.

Bản thân các công ty, đơn vị cũng đang mang Big Data của riêng mình, chẳng hạn như trang bán hàng trực tuyến eBay thì sử dụng hai trung tâm dữ liệu mang dung lượng lên đến 40 petabyte để đựng các truy nã, kiếm tìm, đề nghị cho khách hàng cũng như thông báo về hàng hóa của mình.

Nhà bán buôn online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như những đề xuất từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống Linux và hồi năm 2005, họ từng với ba cơ sở dữ liệu Linux lớn nhất toàn cầu mang dung lượng là 7,8TB, 18,5TB và 24,7TB.

tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh trong khoảng người mua chuyển vận lên, YouTube hay Google thì phải lưu lại hết các lượt tróc nã và video của các bạn cộng phổ thông mẫu thông báo khác với can dự.

Còn theo tập đoàn SAS, chúng ta với một đôi số liệu thú vị về Big Data như sau:

  • các hệ thống RFID (một dạng kết nối tầm sắp, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ tiêu dùng trong thẻ mở cửa khách sạn) tạo ra lượng dữ liệu lớn hơn 1.000 lần so sở hữu mã vạc truyền thống
  • Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, shop Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, nghĩa là khoản 5.000 giao diện mỗi giây.
  • nhà sản xuất chuyển phát UPS nhận khoảng 39,5 triệu đề nghị trong khoảng người dùng của mình mỗi ngày
  • dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi
  • Trên Twitter với 500 triệu dòng tweet mới mỗi ngày, Facebook thì mang một,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…

3. Công nghệ tiêu dùng trong Big Data

Big Data là nhu cầu đang vững mạnh to tới nỗi Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỉ USD cho các đơn vị chuyên về quản lí và phân tích dữ liệu. Năm 2010, ngành công nghiệp Big Data sở hữu trị giá hơn 100 tỉ đô la Mỹ và đang tăng nhanh với tốc độ 10% mỗi năm, nhanh gấp đôi so với tổng ngành nghề phần mềm đại quát.

1 số đơn vị với tham gia vào ngành nghề Big Data

Như đã nhắc ở trên, Big Data cần đến những kĩ thuật khai thác thông báo rất đặc biệt do tính chất đồ sộ và phức tạp của nó. Năm 2011, tập đoàn phân tách McKinsey đề xuất những kỹ thuật với thể dùng với Big Data bao gồm crowsourcing (tận dụng nguồn lực trong khoảng phổ thông thiết bị điện toán trên toàn cầu để cộng nhau xử lí dữ liệu), những thuật toán về gen và di truyền, những giải pháp machine learning (ý chỉ những hệ thống với khả năng học hỏi trong khoảng dữ liệu, một nhánh của trí não nhân tạo), xử lí ngôn ngữ bỗng dưng (giống như Siri hay Google Voice Search, nhưng cao cấp hơn), xử lí dấu hiệu, mô phỏng, phân tích chuỗi thời kì, mô hình hóa, phối hợp những server mạnh lại có nhau... Những kĩ thuật này rất phức tạp nên chúng ta không đi sâu nhắc về chúng.

Bình luận
* Các email sẽ không được công bố trên trang web.
I BUILT MY SITE FOR FREE USING