Số hóa tài liệu lưu trữ và yêu cầu thực tiễn đặt ra cho ngành lưu trữ – P2 – Số Hóa Dữ Liệu

Xem phần 1: Số hóa tài liệu lưu trữ và yêu cầu thực tiễn đặt ra cho ngành lưu trữ – P1

II. Các bước số hóa tài liệu lưu trữ

Do mục tiêu số hóa tài liệu khác nhau, mà có thể đặt ra các bước số hóa tài liệu khác nhau phù hợp đối với từng cơ quan, tổ chức. Cục Văn tthư và Lưu trữ Nhà nước đặt ra quy trình số hóa tài liệu lưu trữ gồm 12 bước theo Quyết định số 176/QĐ-VTLTNN ngày 21/10/2011 với yêu cầu phân loại ảnh và sao lưu ảnh. Nhưng nếu với yêu cầu phổ thông, quá trình thực hiện số hóa tài liệu lưu trữ chỉ giản đơn có 5 bước là:

Bước 1: Nhận tài liệu lưu trữ đã được lựa chọn để thực hiện số hóa

Việc lựa chọn này là cần thiết, vì không có một cơ quan, tổ chức nào lại có thể số hóa một lần cả kho lưu trữ của mình. Tiêu chuẩn để số hóa tùy thuộc vào mục tiêu của chủ sở hữu tài liệu lưu trữ mà các dịch vụ scan tài liệu ngoài sẽ thay đổi theo. Ví dụ, số hóa để bảo hiểm tài liệu lưu trữ, thì tài liệu được chọn phải là tài liệu thuộc diện quý, hiếm theo quy định của pháp luật.

Bước 2: Chuẩn bị tài liệu.

Công việc bao gồm:

– Lấy ra các bìa cứng, ghim kẹp; làm phẳng các trang tài liệu;

– Phân loại TL, tách riêng những TL rách, hư hỏng, nếu việc số hóa áp dụng cho các hồ sơ lưu trữ và dùng kỹ thuật scan từng tờ tài liệu. Nếu việc số hóa các tư liệu lưu trữ dạng đóng quyển, thì có thể áp dụng công nghệ mới tiến bộ hơn như Bookscan cho việc số hóa tài liệu lưu trữ.

Bước 3: Thiết lập hệ thống

Scan và thiết lập hệ thống ảnh; đặt tên file; đặt định dạng; đóng, ghim lại theo tổ chức tài liệu ban đầu; tạo siêu siêu dữ liệu (metadata).

Đây là bước quyết định nhất để chuyển đổi tài liệu truyền thống sang tài liệu số hóa. Danh mục tài liệu số hóa được lập và nhúng (gắn) và tài liệu thông qua một phần mềm ứng dụng và tạo ra metadata. Đồng thời, tài liệu được đặt định dạng theo sự lựa chọn được định trước.

Bước 4: Kiểm tra tài liệu

Kiểm tra chất lượng tài liệu đã được số hóa và làm lại những ảnh không đạt yêu cầu.

Bước 5: Nghiệm thu, bàn giao tài liệu lưu trữ

Công việc bao gồm bàn giao tài liệu số hóa và bàn giao tài liệu gốc. Nếu tài liệu số hóa là tài liệu lưu trữ của một Lưu trữ lich sử thì với những văn bản không đóng quyển trong một hồ sơ, việc bàn giao phải được kiểm tra chặt chẽ từng trang tài liệu để bảo đảm đầy đủ như tài liệu ban đầu đã nhận ở bước 1.

III. MỘT SỐ CÔNG VIỆC PHẢI THỰC HIỆN ĐỒNG THỜI KHI THỰC HIỆN SỐ HÓA TÀI LIỆU LƯU TRỮ

1. Chọn định dạng các file ảnh.

Định dạng file là những phần mở rộng ở cuối một tên file (đuôi file), biểu thị file đó thuộc định dạng nào.Thông tin đuôi file được hệ điều hành sử dụng để mở ra chương trình phù hợp. Ví dụ: *.txt là loại file chữ viết và được xử lý bằng một chương trình văn bản tương ứng.Các định dạng file ảnh khác nhau mang lại dung lượng ổ đĩa, cũng như chất lượng ảnh khác nhau.Các định dạng phổ biến được áp dụng cho file dữ liệu ảnh là: JPEG, TIFF, GIF, PNG, RAW… Mỗi định dạng này đều có những ưu thế và những hạn chế riêng. Tính năng và cách lựa chọn một định dạng cho một khối tài liệu số hóa, đề nghị độc giả tự nghiên cứu, vì lý do hạn chế trang viết của một bài báo, nên chúng tôi xin không viết ra ở đây.

Chọn định dạng các file ảnh

2. Chọn vật mang tin để quản lý tài liệu số hóa.

Vật mang tin là các phương tiện lưu giữ và truyền đạt thông tin trên mọi chất liệu từ khi có chữ viết đến nay như đất nung, đá, vỏ, lá cây, lụa, mai rùa, tre, giấy… Với sự tiến bộ của khoa học và công nghệ, đã xuất hiện thêm tài liệu công nghệ mới, tài liệu nghe nhìn hiện đại, như đĩa CD, CD-ROM, DVD, băng từ, video, vi phim, vi phiếu, ổ cứng máy tính, v.v…thì điều quan tâm nhất của công tác lưu trữ tài liệu là độ bền của từng loại vật mang tin.

Với khả của cơ quan là chủ sở hữu tài liệu, mỗi một dự án số hóa tài liệu đều chọn vật mang tin thích hợp để quản lý các dữ liệu số của mình.

Sau đây chúng ta tham khảo kết quả nghiên cứu sơ bộ của Dự án bảo hiểm tài liệu lưu trữ của Cục Văn thư và Lưu trữ Nhà nước kết hợp với kết quả nghiên cứu của tác giả là:

  • Đĩa CD: có tuổi thọ 5 năm;
  • Đĩa DVD: (Digital Versatile Disc) là đĩa lưu trữ dữ liệu, cung cấp dung lượng lớn xấp xỉ 7 lần so với đĩa CD) có tuổi thọ 8 năm;
  • Ổ cứng (HDD): có tuổi thọ 10 năm;
  • Thiết bị lưu trữ mạng – NAS (Network Attached Storage): có tuổi thọ 20 năm;
  • Băng từ: có tuổi thọ 25 năm;
  • Giấy công nghiệp (chưa khử axit): có tuổi thọ 50 – 60 năm;
  • Giấy dó: có tuổi thọ 200-400 năm;
  • Microfilm: có tuổi thọ 500 năm;
  • Giấy chuyên dụng lưu trữ: có tuổi thọ 500-1.000 năm, hoặc lâu hơn…

3. Thiết lập hệ thống siêu dữ liệu

Siêu dữ liệu (Metadata) là thông tin mô tả nội dung của tài liệu số hóa, mà người làm lưu trữ vẫn quen gọi là thông tin cấp II tài liệu lưu trữ. Siêu dữ liệu là dữ liệu để mô tả dữ liệu, hoặc dữ liệu về dữ liệu. Khi dữ liệu được cung cấp cho người dùng cuối, Siêu dữ liệu sẽ cung cấp những thông tin cho phép người quản lý tin và dùng tin hiểu rõ hơn bản chất của dữ liệu mà họ đang có. Cụ thể, những thông tin này giúp cho người dùng tin tìm ra được tài liệu mà họ đang cần và giúp họ hiểu những thông tin khác có liên quan. Với sự tối ưu của Siêu dữ liệu, nên có độc giả còn nói là “bể chứa thông tin về dữ liệu”. Thông qua Siêu dữ liệu, độc giả có thể nhận biết từng chi tiết kỹ thuật như: kích thước cơ bản của cơ sở dữ liệu, danh mục nghiệp vụ của những loại dữ liệu khác nhau. Những mô tả này hướng dẫn người dùng tin tìm đúng loại dữ liệu, qua đó, giúp họ hiểu được ý nghĩa của dữ liệu và phương pháp tiếp cận chúng.

Thiết lập hệ thống siêu dữ liệu

Nhìn chung, Siêu dữ liệu bao gồm một số loại thông tin cơ bản như: thông tin mô tả về bản thân dữ liệu của Siêu dữ liệu; thông tin về dữ liệu mà Siêu dữ liệu mô tả và thông tin về cơ quan, tổ chức và cá nhân liên quan đến dữ liệu mà Siêu dữ liệu đã mô tả.

Nhưng đặc điểm chính và sự tối ưu của Siêu dữ liệu không phải chỉ dừng lại ở đó. Vì nếu chỉ có như thế (như mô tả trên), thì với công cụ truyền thống, chúng ta cũng có thể làm được, thông qua việc biên mục chi tiết các Bộ thẻ thư viện, Mục lục hồ sơ lưu trữ, Sách hướng dẫn các phông lưu trữ…

Giá trị mà chúng tôi coi là quan trọng nhất của việc số hóa tài liệu lưu trữ có thể là tìm tin tự động thông qua kỹ thuật nhúng (gắn) thông tin của Siêu dữ liệu vào dữ liệu số hóa nhờ một phần mềm chuyên dụng. Chính một trong những phức tạp cần giải quyết của một Dự án số hóa tài liệu lưu trữ cũng nằm đây.

Mối liên hệ, vị trí giữa Siêu dữ liệu và tài nguyên thông tin mà nó mô tả được thể hiện ở một trong hai cách sau:

Với công cụ tra cứu truyền thống, phần tử của thông tin cấp II được chứa trong một biểu ghi, hoặc ở công cụ tra cứu khác nằm tách biệt bên ngoài đối tượng mô tả. Như vậy, thông tin mô tả để quan lý và tra tìm tài liệu được lưu trữ bên ngoài bên ngoài đối tượng mô tả.

Với cơ sở dữ liệu được số hóa thành tài liệu điện tử, các phần tử Siêu dữ liệu có khả năng nhúng (gắn) vào bên trong tài nguyên mà nó mô tả, để quản lý và tra tìm tài liệu tự động hóa. Chính sự tối ưu này tạo ra độ phức tạp cho lao động số hóa. Từ đó chúng ta, người làm lưu trữ không thể hiểu số hóa tài liệu lưu trữ một cách giản đơn chỉ là scan, hoặc chụp tài liệu để lưu vào máy tính, vì đó chỉ là lao động kỹ thuật của các nhân viên.

Việc nhúng (gắn) vào bên trong tài nguyên mà nó mô tả cần một chuẩn mô tả thông dụng hiện nay là “Dublin Core Metadata”, “MARC21/UNIMARC, ISO-2709”… mà chúng ta không cần viết ra ở đây, vì tốn khá nhiều giấy, mực và để dành cho các bài viết chuyên đề khác.

Tìm hiểu ngay công ty cung cấp giải pháp số hóa tài liệu tốt nhất cho doanh nghiệp bạn Tại đây

Sưu tầm:http://my.opera.com/duongvankham/blog/show.dml/59069102