DỮ LIỆU LỚN (BIG DATA) TRONG MÔI TRƯỜNG HỆ THỐNG THÔNG TIN ĐIA LÝ (GIS)

14/12/2022

Trong ngành khoa học máy tính thì dữ liệu lớn (Big Data) là một thành phần quan trọng và được rất nhiều ngành nghề cũng như các cấp chính quyền quan tâm trong một vài năm trở lại đây. Cơ sở dữ liệu lớn được sử dụng rộng khắp mọi lĩnh vực trên thế giới và mang đến những giá trị lớn cho người sử dụng. Việc ứng dụng dữ liệu lớn trong môi trường hệ thống thông tin địa lý (GIS) cũng là vấn đề cấp thiết hiện nay do các dữ liệu này cần kết nối với các dữ liệu không gian. Trong bài viết này, tác giả muốn đưa ra các hiểu biết cơ bản về hệ thống thông tin địa lý (GIS), dữ liệu lớn và tìm hiểu mối liên hệ giữa Dữ liệu lớn và GIS

1. Hệ thống thông tin địa lý

Hệ thống thông tin địa lí (GIS) là một phần của công nghệ thông tin, đã hình thành từ những năm 1960[1], lần đầu tiên được phổ biến rộng rãi cho các nhà địa lý vào những năm 1980, của thế kỉ trước và phát triển rất mạnh trong những năm gần đây.

Hệ thống thông tin địa lí (GIS)  được sử dụng nhằm xử lí đồng bộ các lớp thông tin không gian (bản đồ) gắn với các thông tin thuộc tính, phục vụ nghiên cứu, qui hoạch và quản lý và rất nhiều các ngành nghề khác ở các quy mô khác nhau.

Hệ thống thông tin địa lí (GIS) là công cụ dùng để thu thập, lưu trữ, biến đổi, hiển thị các thông tin không gian nhằm thực hiện các mục đích cụ thể, Hệ thống thông tin địa lí (GIS) cũng là phần mềm làm việc với các thông tin không gian, phi không gian, thiết lập quan hệ không gian giữa các đối tượng. Có thể nói các chức năng phân tích không gian đã tạo ra diện mạo riêng cho Hệ thống thông tin địa lí (GIS)[2]. Hệ thống thông tin địa lí (GIS) có khả năng trợ giúp các cơ quan chính phủ, các nhà quản lý, các doanh nghiệp, các cá nhân v.v... đánh giá được hiện trạng của các quá trình, các thực thể tự nhiên, kinh tế - xã hội thông qua các chức năng thu thập, quản lý, truy vấn, phân tích và tích hợp các thông tin được gắn với một nền bản đồ số thống nhất trong một hệ tọa độ trên cơ sở toạ độ của các dữ liệu bản đồ đầu vào. 

Ngày nay, ở nhiều quốc gia trên thế giới, GIS đã trở thành công cụ trợ giúp quyết định trong hầu hết các hoạt động kinh tế - xã hội, an ninh, quốc phòng, đối phó với thảm hoạ thiên tai v.v... Đã có nhiều phần mềm GIS được dùng trong cả thương mại và mã nguồn mở, hai phần mềm được sử dụng nhiều nhất là ArcGIS và QGIS.

Hệ thống ArcGIS là sản phẩm của hãng ESRI (Environmental System Research Institute), Mỹ là một trong những hãng tiên phong trong lĩnh vực hệ thống thông tin địa lý (GIS). ArcGIS là một hệ thống phần mềm cung cấp một giải pháp tổng thể về hệ thống thông tin địa lý, bao gồm nhiều modul khác nhau, đáp ứng nhu cầu cho mọi tổ chức, từ những người sử dụng đơn lẻ cho đến hệ thống có tính toàn cầu. ArcGIS có ba cấp độ khác nhau (cơ bản, tiêu chuẩn và nâng cao) và có thể được mua thêm các các gói modul bổ sung khác. Để có 1 giấy phép sử dụng chi phí dao động từ vài nghìn usd đến hơn 10 ngàn usd. Ngoài chi phí cấp phép phần mềm, ArcGIS chỉ phù hợp với hệ điều hành Windows; vì vậy nếu thiết bị môi trường làm việc chỉ dành cho máy Mac, thì việc mua một PC chạy Windows sẽ tăng thêm chi phí, đây cũng chính là một trong những hạn chế của ArcGIS.

Phần mềm QGIS: tên gọi trước đây là Quantum GIS là một phần mềm GIS mã nguồn mở được bắt đầu xây dựng từ năm 2002 và được phát triển nhanh chóng với một cộng đồng phát triển lớn trên cơ sở tự nguyện. Đây là phần mềm tương đối mạnh và dễ sử dụng, chạy được trên các hệ điều hành: Windows, Mac OS X, Linux, BSD và Android. QGIS cũng tạo lập, chỉnh sửa, hiển thị, phân tích và xuất bản thông tin địa không gian; là phần mềm miễn phí, các tính năng luôn được thường xuyên bổ sung và hoàn thiện, QGIS có thể là lựa chọn thay thế đối với các ứng dụng GIS ở quy mô vừa và nhỏ hoặc là giải pháp bổ trợ sử dụng kết hợp với các phần mềm thương mại như ArcGIS.

2. Dữ liệu lớn (Big Data)

Là các tập dữ liệu có khối lượng lớn và phức tạp, một cơ sở dữ liệu không ngừng tăng lên theo cấp số nhân với thời gian, đến mức không thể xử lý hoặc phân tích bằng các kỹ thuật xử lý dữ liệu thông thường. Dữ liệu lớn ngoài việc lưu trữ thì nó còn bao gồm khai thác dữ liệu, phân tích dữ liệu, chia sẻ dữ liệu và trực quan hóa dữ liệu.

2.1. Loại dữ liệu và đặc điểm của dữ liệu lớn           

Dữ liệu lớn được chia thành ba loại chính: dữ liệu có cấu trúc, phi cấu trúc và bán cấu trúc[5]. 

Có cấu trúc: là những loại dữ liệu lớn có thể được xử lý, lưu trữ và truy xuất ở một định dạng cố định. Có thể truy cập dễ dàng, liền mạch và truy cập từ cơ sở dữ liệu bằng các thuật toán công cụ tìm kiếm đơn giản.Ví dụ: như bảng thông về kiến trúc cảnh quan của một khu phố sẽ được cấu trúc chi tiết về từng ô thửa, chủ ô thửa, có sổ đỏ hay ko, có bao nhiêu người trong một hộ, bao nhiêu tầng, sơn màu gì, chất liệu xây dựng v.v., dữ liệu hiển thị một cách có tổ chức.

Không có cấu trúc: Dữ liệu phi cấu trúc đề cập đến dữ liệu mà không theo bất kỳ hình thức hoặc cấu trúc cụ thể nào. Điều này làm cho việc xử lý và phân tích dữ liệu phi cấu trúc rất khó khăn và tốn thời gian, ví dụ email là loại dữ liệu phi cấu trúc. 

Bán cấu trúc: Dữ liệu bán cấu trúc liên quan đến dữ liệu chứa cả hai định dạng được đề cập ở trên, tức là dữ liệu có cấu trúc và dữ liệu phi cấu trúc. 

2.2. Đặc điểm của dữ liệu

Cơ sở dữ liệu như thế nào thì được gọi là dữ liệu lớn còn đang là câu hỏi ngỏ, tuy nhiên một dữ liệu sẽ có các đặc điểm chính sau[6]: 

Kích thước: Kích thước của dữ liệu đóng một vai trò rất quan trọng trong việc xác định giá trị của dữ liệu. Một dữ liệu cụ thể có thực sự được coi là Dữ liệu lớn hay không còn phụ thuộc vào kích thước dữ liệu. 

Tính đa dạng: Dữ liệu đến từ nhiều nguồn khác nhau, các định dạng khác nhau, tính không đồng nhất về bản chất dữ liệu, hay loại dữ liệu bán cấu trúc, hiện nay các nguồn dữ liệu dưới dạng email, ảnh, video, thiết bị giám sát, PDF, âm thanh, v.v. cũng đang được xem xét trong các ứng dụng phân tích dữ liệu. 

Vận tốc: Tốc độ dữ liệu được tạo và xử lý để đáp ứng nhu cầu của người xây dựng và sử dụng dữ liệu.

Độ chính xác: Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ chính xác của dữ liệu. Công tác phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là vấn đề đáng quan tâm khi xây dựng dữ liệu lớn.

Giá trị thông tin: Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Các tổ chức cần phải xác định rõ thông tin cần đưa vào cơ sở dữ liệu là loại thông tin nào, điều này cho thấy vai cho của các chuyên gia trong việc xây dựng cơ sở dữ liệu là rất quan trọng. 

Dữ liệu lớn đã ảnh hưởng đáng kể đến mọi ngành nghề, nó là dữ liệu trong GIS có ý nghĩa quan trọng đối với cách tiếp cận của nhiều lĩnh vực khác nhau khi thu nhận và tận dụng thông tin thuộc tính được kết nối với thông tin không gian. 

3. Dữ liệu lớn trong môi trường GIS 

Đã có các thống kê về tìm hiểu cách các tổ chức, ngành nghề đang sử dụng hệ thống thông tin địa lý (bao gồm công nghệ thông tin và công nghệ bản đồ) trên thế giới cho thấy việc sử dụng hai công nghệ tích hợp này đang được mở rộng nhanh chóng. Trước kia việc sử dụng hay đầu tư xây dựng một cơ sở dữ liệu mà  gán với không gian địa lý thường là các bộ ngành của chính phủ thì hiện nay GIS đã được áp dụng rộng rãi trong lĩnh vực kinh doanh, trong các tổ chức có quy mô lớn. 

Trong khoảng 10 năm trở lại đây, sức lan tỏa của GIS đã có những kết quả đáng kể, chính phủ và các bộ ban ngành đã cho triển khai các công trình nghiên cứu ứng dụngGIS cho các ngành địa phương trong nhiều lĩnh vực như giám sát tài nguyên thiên nhiên và môi trường phòng tránh và giảm nhẹ thiên tai, phát triển nông nghiệp và nông thôn, phát triển du lịch, quản lý đô thị, quản lý quy hoạch và đầu tư, quy hoạch nuôi trồng thủy sản.Trong các nghiên cứu thì còn nhiều các nghiên cứu không ứng dụng được, nhưng cũng nhiều công trình nghiên cứu và ứng dụng đã được triển khai thực hiện có những kết quả nhất định. Tuy nhiên, khi xây dựng dữ liệu lớn trong môi trường GIS vẫn gặp những bất cập về kỹ thuật cũng như tài chính. Một trong những khó khăn lớn nhất khi xây dựng cơ sở dữ liệu lớn đó là chúng ta chưa sự liên kết đa ngành, xuyên ngành, mỗi tổ chức và cá nhân được giao trách nhiệm nắm giữ các loại thông tin, dữ liệu khác nhau và không có sự kết nối. Tiếp đến là trong công nghệ thông tin và GIS chưa có các tiêu chuẩn tiêu chí (chuẩn về thông tin, dữ liệu), quy trình chuẩn và không có quy định buộc phải áp dụng chuẩn do các bộ chủ quản hay Nhà nước ban hành. Chính các khó khăn này đã không thể ghép nối được cơ sở dữ liệu từ các ngành, địa phương với nhau để có thể tạo ra cơ sở dữ liệu lớn cho một ngành, một đô thị, điều đó sẽ làm giảm ý nghĩa của bộ cơ sở dữ liệu lớn, không thể chia sẻ được.           

Có thể thấy khi khắc phục các khó khăn và đưa dữ liệu lớn tiếp cận với GIS cho phép phân tích và ra quyết định có độ tin cậy cao từ các bộ dữ liệu khổng lồ, bằng cách sử dụng các thuật toán, xử lý truy vấn và khai thác dữ liệu không gian. Nói một cách khác, chúng ta triết xuất thông tin một cách tối đa từ nhiều nguồn sử dụng các thuật toán có sẵn hoặc thiết lập thêm cho người dùng.          

Việc xây dựng dữ liệu lớn trong môi trường GIS cũng cần phải có quy trình, có các tiêu chuẩn, tiêu chí xây dựng dữ cho từng ngành nghề trên cơ sở liên thông được các dữ liệu với nhau, các quy định về kỹ thuật và quy định lựa chọn phần mềm cũng cần phải làm và bàn đến. 

Sự phát triển về cơ sở hạ tầng công nghệ phần cứng và phần mềm đã cho phép xây dựng và xử lý các tập dữ liệu khổng lồ. Điều này đã tạo ra một cú hích lớn và hướng đi mới cho những ngành công nghiệp đã bị hủy hoại bởi khả năng xử lý dữ liệu chậm. Vì thế xây dựng cơ sở dữ liệu lớn trong môi trường GIS là một hướng đi mới và phù hợp với bối cảnh ở Việt Nam. 

Phương thức mà GIS hoạt động với dữ liệu lớn là sử dụng các công cụ GIS tìm kiếm, sàng lọc và phân tích dữ liệu từ nhiều nguồn cơ sở dữ liệu khác nhau từ đó sẽ giúp cho việc phân tích không gian đạt kết quả cao hơn và thể hiện kết quả dưới dạng bản đồ, biểu đồ[7]. 

Trong quá trình thu thập, phân tích dữ liệu lớn trong môi trường GIS với các phần mềm khác có thể diễn ra ở hình thức liên kết lỏng và liên kết chặt. Liên kết lỏng có thể truyền tập tin dữ liệu giữa phần mềm GIS sang các phần mềm khác và ngược lại ví dụ dữ liệu GIS có thể xuất sang được sang exel và ngược lại. Liên kết chặt là từ một giao diện người dùng có thể sử dụng chức năng của phần mềm GIS và chức năng đến từ phần mềm khác như GIS có thể có các công cụ mô phỏng về các vấn đề trong môi trường. 

Các tổ chức sử dụng GIS để tổ chức cơ sở dữ liệu lớn, áp dụng các công cụ phân tích đáp ứng chính xác nhu cầu, sử dụng giải pháp đám mây có khả năng mở rộng cao, làm cho nền tảng dữ liệu lớn trong GIS và các lĩnh vực khác có thể truy cập được cho hầu hết mọi người. Việc sử dụng các chuyên gia GIS là cần thiết vì họ biết sử dụng khối lượng lớn dữ liệu từ nhiều nguồn khác nhau và đề xuất cách  giải pháp kỹ thuật để tận dụng các nguồn dữ liệu mới. 

4. Kết luận 

Trong mục tiêu của chương trình công nghệ thông tin từ cấp quốc gia đến các ngành, các cấp, các hệ thống thông tin, hệ thống cơ sở dữ liệu dùng chung, được xây dựng theo chuẩn thống nhất, phù hợp với chuẩn quốc tế nhằm chia sẻ, trao đổi được trong phạm vi quốc gia và quốc tế, tích hợp được vào hệ thống chung toàn quốc. Có thể thấy dữ liệu lớn trong môi trường GIS là một xu hướng mới hiện đại, phù hợp với quy định và bối cảnh phát triển tại Việt Nam, hỗ trợ cho Chính phủ, các bộ ngành trong công tác quản lý, ra quyết định chính xác do thông tin được phân tích đa ngành, xuyên ngành và trực quan. Việc gán toàn bộ thông tin lên dữ liệu không gian giúp cho việc xây dựng mô hình hay phỏng đoán, dự đoán các diễn biến trong tương lai thì việc tích hợp dữ liệu lớn trong môi trường GIS hoàn toàn đáp ứng được. 

Các quan điểm ở đây chủ yếu là về bản chất kỹ thuật, ngoài ra cũng cần xem xét khía cạnh khi đặt những câu hỏi nghiêm túc về đạo đức khoa học vì đặc thù của dữ liệu lớn đến từ nhiều nguồn khác nhau và có khả năng sẽ có những nguồn không được kiểm định, không có độ tin cậy cao đặc biệt là về quyền riêng tư khi mà dữ liệu được kích hoạt theo vị trí địa lý. 

Diêm Thị Thùy

(https://fit-hau.edu.vn)