Nguồn dữ liệu lớn trong y học

by Kevin Hwang, MD, MPH; Đánh giá bởi Richard N. Fogoros, MD

Một định nghĩa đơn giản về dữ liệu lớn trong y học là “toàn bộ dữ liệu liên quan đến chăm sóc sức khỏe của bệnh nhân và sức khỏe” (Raghupathi 2014). Nhưng chính xác những loại dữ liệu này là gì và chúng đến từ đâu?

Sau đây là tổng quan rộng về các loại và nguồn dữ liệu quan tâm lớn đối với các nhà cung cấp dịch vụ chăm sóc sức khỏe, nhà nghiên cứu, người trả tiền, nhà hoạch định chính sách và ngành.

Các danh mục này không loại trừ lẫn nhau, vì cùng một dữ liệu có thể bắt nguồn từ nhiều nguồn khác nhau.

Danh sách này cũng không đầy đủ, bởi vì ứng dụng thực tế của các phân tích dữ liệu lớn chắc chắn sẽ tiếp tục mở rộng.

Hệ thống thông tin lâm sàng

Đây là những nguồn dữ liệu lâm sàng truyền thống mà các nhà cung cấp dịch vụ chăm sóc sức khỏe quen với việc xem.

Hồ sơ y tế điện tử (EHRs) thu thập, lưu trữ và hiển thị thông tin như nhân khẩu học, tiền sử bệnh, các vấn đề y tế, chủng ngừa, dị ứng, thuốc, dấu hiệu quan trọng, kết quả từ các xét nghiệm X quang và xét nghiệm, báo cáo bệnh lý, ghi chú tiến độ được tạo ra bởi chăm sóc sức khỏe nhà cung cấp và tài liệu hành chính và tài chính
Hồ sơ y tế điện tử (EMRs) không giống với EHR và thường liên quan đến dữ liệu được lưu trữ với một bác sĩ cụ thể.
Trao đổi thông tin y tế đóng vai trò trung tâm giữa các hệ thống thông tin lâm sàng khác nhau

Đăng ký bệnh nhân, được duy trì bởi các tổ chức chăm sóc sức khỏe trên bệnh nhân của họ, thường được liên kết với EHR. Các cơ quan đăng ký khác theo dõi chủng ngừa, ung thư, chấn thương và các vấn đề sức khỏe cộng đồng khác trên phạm vi địa lý rộng hơn.

Cổng thông tin bệnh nhân cho phép bệnh nhân truy cập thông tin sức khỏe cá nhân được lưu trữ trong EHR của tổ chức chăm sóc sức khỏe. Một số cổng thông tin bệnh nhân cũng cho phép người dùng yêu cầu nạp thuốc theo toa và trao đổi tin nhắn điện tử an toàn với nhóm chăm sóc sức khỏe.

Kho dữ liệu lâm sàng tổng hợp dữ liệu cấp bệnh nhân từ nhiều hệ thống thông tin lâm sàng, chẳng hạn như EHR và các nguồn khác được liệt kê ở trên

Yêu cầu dữ liệu từ người trả tiền

Những người trả tiền công (ví dụ như Medicare) và những người trả tiền tư nhân có các kho dữ liệu yêu cầu lớn về những người thụ hưởng của họ. Một số công ty bảo hiểm y tế hiện nay cũng cung cấp các khuyến khích để chia sẻ dữ liệu sức khỏe của bạn.

Nghiên cứu

Cơ sở dữ liệu nghiên cứu chứa thông tin về những người tham gia nghiên cứu, phương pháp điều trị thử nghiệm và kết cục lâm sàng. Các nghiên cứu lớn thường được tài trợ bởi các công ty dược phẩm hoặc cơ quan chính phủ. Một ứng dụng của y học cá nhân là để phù hợp với bệnh nhân cá nhân với phương pháp điều trị hiệu quả, dựa trên các mẫu trong dữ liệu thử nghiệm lâm sàng.

Cách tiếp cận này vượt ra ngoài việc áp dụng các nguyên tắc y học dựa trên bằng chứng, theo đó một nhà cung cấp dịch vụ chăm sóc sức khỏe xác định xem bệnh nhân có chung đặc điểm (ví dụ tuổi tác, giới tính, chủng tộc, tình trạng lâm sàng) không. Với phân tích dữ liệu lớn, có thể chọn một điều trị dựa trên thông tin chi tiết hơn, chẳng hạn như thông tin di truyền về ung thư của bệnh nhân (xem bên dưới).

Các hệ thống hỗ trợ quyết định lâm sàng (CDSS) cũng đã phát triển nhanh chóng và bây giờ là một phần lớn của trí tuệ nhân tạo (AI) trong y học.

Họ sử dụng dữ liệu bệnh nhân để hỗ trợ các bác sĩ lâm sàng với quyết định của họ và thường được kết hợp với EHR.

Cơ sở dữ liệu di truyền

Kho lưu trữ thông tin di truyền của con người tiếp tục tích lũy với tốc độ nhanh. Kể từ khi dự án Genome của con người được hoàn thành vào năm 2003, chi phí cho trình tự DNA của con người đã giảm đi một triệu lần. Dự án Genome cá nhân (PGP), được đưa ra vào năm 2005 bởi Trường Y Harvard, tìm kiếm trình tự và công khai hóa bộ gen hoàn chỉnh của 100.000 tình nguyện viên từ khắp nơi trên thế giới. Bản thân PGP là một ví dụ chính của dự án dữ liệu lớn do khối lượng tuyệt đối và nhiều loại dữ liệu.

Một bộ gen cá nhân chứa khoảng 100 gigabyte dữ liệu. Ngoài việc giải trình tự bộ gen, PGP cũng thu thập dữ liệu từ EHR, khảo sát và hồ sơ microbiome.

Một số công ty cung cấp giải trình tự di truyền trực tiếp tới người tiêu dùng cho sức khỏe, đặc điểm cá nhân và dược động học trên cơ sở thương mại.

Thông tin cá nhân này có thể bị gián đoạn với các phân tích dữ liệu lớn. Ví dụ, 23andMe đã ngừng cung cấp báo cáo di truyền liên quan đến sức khỏe cho khách hàng mới kể từ ngày 22 tháng 11 năm 2013, để tuân thủ Cơ quan quản lý dược phẩm và thực phẩm Hoa Kỳ. Tuy nhiên, trong năm 2015, công ty bắt đầu cung cấp một số thành phần y tế của xét nghiệm nước bọt di truyền của họ một lần nữa, lần này với sự chấp thuận của FDA.

Hồ sơ công khai

Chính phủ lưu giữ hồ sơ chi tiết về các sự kiện liên quan đến sức khỏe, chẳng hạn như nhập cư, kết hôn, sinh và tử vong. Cuộc Tổng điều tra của Hoa Kỳ đã thu thập một lượng thông tin khổng lồ sau 10 năm kể từ năm 1790. Trang web thống kê của Tổng điều tra dân số năm 2007 có 370 tỷ ô, với khoảng 11 tỷ người được bổ sung hàng năm.

Tìm kiếm trên web

Thông tin tìm kiếm trên web được Google thu thập và các nhà cung cấp dịch vụ tìm kiếm trên web khác có thể cung cấp thông tin chi tiết theo thời gian thực liên quan đến sức khỏe của người dân. Tuy nhiên, giá trị của dữ liệu lớn từ các mẫu tìm kiếm trên web có thể được cải thiện bằng cách kết hợp nó với các nguồn dữ liệu y tế truyền thống.

Truyền thông xã hội

Facebook, Twitter và các nền tảng truyền thông xã hội khác tạo ra nhiều dữ liệu phong phú trên đồng hồ, cho phép xem các vị trí, hành vi sức khỏe, cảm xúc và tương tác xã hội của người dùng. Việc áp dụng các phương tiện truyền thông xã hội lớn dữ liệu cho sức khỏe cộng đồng đã được gọi là phát hiện bệnh kỹ thuật số hoặc dịch tễ học kỹ thuật số. Twitter, ví dụ, đã được sử dụng để phân tích dịch bệnh cúm trong dân số nói chung.

Dự án Phát triển Thế giới đã bắt đầu tại Đại học Pennsylvania là một ví dụ khác về nghiên cứu phương tiện truyền thông xã hội để hiểu kinh nghiệm và sức khỏe của mọi người tốt hơn. Dự án tập hợp các nhà tâm lý học, thống kê và các nhà khoa học máy tính, người phân tích ngôn ngữ được sử dụng khi tương tác trực tuyến, ví dụ, khi viết các cập nhật trạng thái trên Facebook và Twitter. Các nhà khoa học đang quan sát cách ngôn ngữ của người dùng liên quan đến sức khỏe và hạnh phúc của họ. Những tiến bộ trong việc xử lý ngôn ngữ tự nhiên và học máy là giúp đỡ với những nỗ lực của họ. Một ấn phẩm gần đây của Đại học Pennsylvania đã tìm cách tiên đoán bệnh tâm thần bằng cách phân tích phương tiện truyền thông xã hội. Có vẻ như các triệu chứng trầm cảm và các tình trạng sức khỏe tâm thần khác có thể được phát hiện bằng cách nghiên cứu việc sử dụng Internet của chúng tôi. Các nhà khoa học hy vọng trong tương lai những phương pháp này sẽ có thể xác định tốt hơn và hỗ trợ những cá nhân có nguy cơ cao.

Internet of Things (IoT)

Hàng loạt thông tin liên quan đến sức khỏe cũng được thu thập và lưu trữ trên thiết bị di động và gia đình .

Điện thoại thông minh : Hàng nghìn ứng dụng mHealth nắm bắt thông tin về hoạt động thể chất của người dùng, lượng dinh dưỡng, mẫu giấc ngủ, cảm xúc và các thông số khác. Các ứng dụng điện thoại di động gốc (ví dụ: GPS, email, nhắn tin) cũng có thể đưa ra manh mối về tình trạng sức khỏe của một cá nhân.
Màn hình và thiết bị đeo được: Máy đo bước sóng, gia tốc kế, kính, đồng hồ và chip nhúng dưới da cũng thu thập thông tin liên quan đến sức khỏe và cũng có thể gửi chúng vào đám mây.
Các thiết bị Telemedicine cho phép các nhà cung cấp dịch vụ chăm sóc sức khỏe theo dõi các thông số của bệnh nhân như huyết áp, nhịp tim, nhịp hô hấp, oxy hóa, nhiệt độ, vết ECG và trọng lượng.

Giao dịch tài chính

Các giao dịch thẻ tín dụng của bệnh nhân được bao gồm trong các mô hình tiên đoán được sử dụng bởi Hệ thống Carolinas HealthCare để xác định những bệnh nhân có nguy cơ cao bị đưa vào bệnh viện. Các nhà cung cấp chăm sóc sức khỏe dựa trên Charlotte sử dụng dữ liệu lớn để chia bệnh nhân thành nhiều nhóm khác nhau, ví dụ, dựa trên bệnh tật và vị trí địa lý.

Ý nghĩa đạo đức và quyền riêng tư

Cần phải nhấn mạnh rằng, trong một số trường hợp, có thể có những tác động quan trọng về đạo đức và quyền riêng tư khi thu thập và truy cập dữ liệu trong chăm sóc sức khỏe. Các nguồn dữ liệu lớn mới có thể cải thiện sự hiểu biết của chúng ta về những gì tác động đến sức khỏe cá nhân và dân số, tuy nhiên, các rủi ro khác nhau cần phải được xem xét và giám sát cẩn thận. Nó bây giờ cũng đã được công nhận rằng dữ liệu trước đây được coi là vô danh, có thể được tái xác định. Ví dụ, Giáo sư Latanya Sweeney của Phòng thí nghiệm Dữ liệu Riêng tư của Harvard đã xem xét 1.130 tình nguyện viên tham gia vào Dự án Hệ gen Cá nhân. Cô và nhóm của cô đã có thể đặt tên chính xác 42% người tham gia dựa trên thông tin họ chia sẻ (mã ZIP, ngày sinh, giới tính). Kiến thức này có thể làm tăng nhận thức của chúng tôi về những rủi ro tiềm ẩn và giúp chúng tôi đưa ra quyết định chia sẻ dữ liệu tốt hơn.

> Nguồn:

> Conway M, O'Connor D. Phương tiện truyền thông xã hội, dữ liệu lớn và sức khỏe tâm thần: những tiến bộ hiện tại và ý nghĩa đạo đức. Ý kiến hiện tại về Tâm lý học năm 2016; 9: 77-82.

> Fernandes L, O'Connor M, Weaver V. Dữ liệu lớn, kết quả lớn hơn. Tạp chí của Hiệp hội quản lý thông tin sức khỏe Mỹ năm 2012, 83 (10): 38-43

> Guntuku S, Yaden D, Kern M, Ungar L, Eichstaedt J. Phát hiện trầm cảm và bệnh tâm thần trên truyền thông xã hội: một đánh giá tích hợp . Ý kiến hiện tại trong khoa học hành vi 2017; 18: 43-49.

> Lazer D, Kennedy R, King G, Vespignani A. Câu chuyện ngụ ngôn về cúm của Google: Bẫy trong phân tích dữ liệu lớn . Khoa học 2014; 343 (6176): 1203-1205.

> Raghupathi W, Raghupathi V. Phân tích dữ liệu lớn về chăm sóc sức khỏe: lời hứa và potenti al. Khoa học và Hệ thống Thông tin Y tế 2014; 2: 3.

> Sweeney L, Abu A, Winn J. Xác định những người tham gia trong dự án bộ gen cá nhân theo tên . Đại học Harvard. Lab bảo mật dữ liệu. Giấy trắng 1021-1. Ngày 24 tháng 4 năm 2013.