Chủ Nhật, 16 tháng 1, 2011

Tiếng Việt "giàu" nhưng có còn "đẹp" trên mạng thông-tin toàn-cầu?

Tác-giả: Vũ-Xuân-Lương – Trung-tâm Từ-điển-học

(Tạp-chí Ngôn-ngữ & Đời-sống, 2002)
Internet đang ngày càng tác-động sâu-rộng đến đời-sống, tình-cảm và thói-quen văn-hoá của toàn nhân-loại. Dù muốn hay không, dù nhiều hay ít, cuối-cùng thì tất-cả chúng-ta cũng đều bị cuốn đi theo nó một cách vô-hình. Xu-hướng hiện-nay của kĩ-nghệ phần-mềm là đều tập-trung vào phát-triển và phổ-biến các sản-phẩm dựa trên nền Internet. Công-nghệ Internet thực-sự đã tạo-nên được một "thế-giới ảo" về "cuộc-sống thực" mà chúng-ta đang sống.

Internet là nơi biểu-hiện nhiều nét đặc-trưng ngôn-ngữ và văn-hoá của nhiều nước trên thế-giới. Kho tri-thức chung khổng-lồ của nhân-loại được luân-chuyển từng giây, từng phút trên mạng thông-tin toàn-cầu này đang đặt ra nhiều thách-thức mới cho nhiều quốc-gia, trong đó có Việt-Nam chúng-ta. Sự phát-triển nhanh-chóng về mặt năng-lực tính-toán của cá-nhân đòi-hỏi phải có những công-cụ xử-lí thông-tin sao-cho phù-hợp, đồng-thời giúp làm tăng năng-lực tính-toán lên cao hơn nữa và giúp cho quá-trình phổ-cập thông-tin đến cho mọi-người cùng được thụ-hưởng.

Từ thực-tế đó, một xu-hướng đa-ngôn-ngữ quốc-tế đã được hình-thành. Tuy-nhiên, do lí-do về văn-hoá, địa-lí, và nhiều lí-do khác, xu-hướng này chưa được quan-tâm đúng-mức tại nước ta. Trong nhiều năm qua, việc trao-đổi và sử-dụng thông-tin đa-ngôn-ngữ, thậm-chí trên cùng một ngôn-ngữ như tiếng Việt, cũng đã gặp không ít khó-khăn, trở-ngại. Vậy thì trong những năm qua, "diện-mạo" tiếng Việt ra-sao trong xu-hướng đa-ngôn-ngữ này, và chúng-ta đã chuẩn-bị những gì cho sự "trình-làng" của tiếng Việt trong tương-lai? Nội-dung của bài-viết mà chúng-tôi sẽ trình-bày sau đây nhằm trả-lời cho câu-hỏi trên.

I. Giới-thiệu
Tiếng Việt được thể hiện qua hai dạng chữ viết, chữ Nôm và chữ quốc ngữ. Các vấn đề nghiên cứu để biểu diễn chữ Nôm trong công nghệ thông tin mới được nghiên cứu và gần đây đã thu được những thành công bước đầu. Mối quan tâm chính của giới công nghệ thông tin trong những năm qua là tập trung nghiên cứu chữ quốc ngữ để biểu diễn bên trong máy tính. Kết quả của quá trình nghiên cứu là đã công bố được một bảng mã tiêu chuẩn cho tiếng Việt, viết tắt là TCVN-5712 (1993). Cùng với bảng mã TCVN-5712 là sự ra đời của bộ font chữ ABC, được quy định là tiêu chuẩn quốc gia. Tuy nhiên, do còn nhiều hạn chế mà bảng mã TCVN-5712 không được sự ủng hộ của giới làm phần mềm, và kết quả là trên lãnh thổ Việt Nam cũng như ở nước ngoài sản sinh rất nhiều bộ mã cho chữ Việt, dẫn đến một tình trạng hỗn độn chữ Việt trên thị trường công nghệ thông tin. Chúng tôi xin điểm qua một số bảng mã dưới đây.

1. Mã chữ Việt 1 byte
Do hạn chế về mặt biểu diễn các mã chữ trong máy tính, nên lúc đầu người ta định ra bảng mã 8 bit để mã hoá chữ viết. Bảng mã 8 bit cho phép chỉ có thể bố trí tối đa 256 kí tự, trong đó có 128 kí tự không được phép xâm phạm, gồm các kí tự điều khiển, các kí tự thể hiện con chữ trong bảng chữ cái Latin (a, b, c, d, e, ..., z), các kí tự toán học và các kí tự khác như @, $, &, *, v.v. Như vậy, chỉ còn lại 128 kí tự để mã hoá chữ viết cho nhiều ngôn ngữ khác nhau. Với các ngôn ngữ có chữ viết theo hệ Latin như tiếng Anh, tiếng Pháp... thì không có vấn đề gì, nhưng với các ngôn ngữ có chữ viết tượng hình như tiếng Hán, tiếng Nhật... thì lại thành vấn đề lớn. Tiếng Việt, tuy chữ viết thuộc hệ Latin, nhưng là chữ viết có thanh điệu nên cũng không tránh khỏi những khó khăn nhất định. Để cho rõ hơn, chúng ta có thể hình dung như sau:

Tiếng Việt có 20 con chữ ghi phụ âm (du nhập thêm F, J, W, Z) và 5 con chữ ghi nguyên âm (a, e, i, o, u) đã được mã hoá trong máy tính có mã giống nhau cho cả chữ hoa và chữ thường, và thuộc vùng 128 kí tự không được xâm phạm. Còn lại 134 con chữ đặc thù tiếng Việt (ăĂ, âÂ, đĐ, ằẰ ... ặẶ, ..., ỳỲ... ỵỴ) muốn thể hiện đầy đủ buộc phải vi phạm vị trí đã được mã hoá của 6 kí tự trong số 128 kí tự không được phép xâm phạm. Điều này thì không thể được, vì nếu 6 kí tự đã được mã hoá bị mất, sẽ dẫn đến sự mất tương ứng 1-1 giữa kí tự hiển thị với kí tự đã được bố trí sẵn trên bàn phím máy tính. Do vậy, các nhà công nghệ thông tin chọn giải pháp chỉ sử dụng 67 kí tự để mã hoá chữ Việt viết thường (ă, â, đ, ê, ô, ơ, ư, à, ả, ã, á, ạ, ..., ỳ, ỷ, ỹ, ý, ỵ), còn chữ viết hoa sẽ được thể hiện bằng font khác, thường có đuôi là U hoặc H. Đó cũng là nội dung mà bảng mã TCVN-5712 thể hiện. Như vậy, chữ hoa và chữ thường trong bảng mã TCVN-5712 có mã giống nhau, chỉ khác nhau về tên font. Điều này không chỉ gây bất tiện trong khi sử dụng (phải chọn font khác nhau cho chữ hoa và chữ thường), mà còn gây cản trở rất lớn cho việc xử lí thông tin (do không thể phân biệt được chữ hoa với chữ thường).Tiêu biểu cho font chữ Việt 1 byte bảng mã TCVN-5712 có font ABC, là font chữ tiêu chuẩn quốc gia như đã nêu ở trên, được quy định dùng bắt buộc trong các cơ quan nhà nước. Font chữ này cũng được một số mạng cung cấp dịch vụ Internet như VNN, Netnam, FPT, ViNet... sử dụng. Tuy nhiên, font ABC chỉ được dùng phổ biến ở miền Bắc, còn ở miền Trung và miền Nam hầu như không được sử dụng. Trên thực tế, bảng mã TCVN-5712 vẫn chiếm mất một số kí tự quan trọng trong các phần mềm chế bản điện tử, hay soạn thảo văn bản, v.v. Chẳng hạn: chiếm mất mã 182 vốn được quy định cho việc hiển thị dấu cách để thể hiện cho chữ "ã", mã 183 hiển thị dấu ngắt đoạn để thể hiện cho chữ "ả", mã 172 là kí tự điều khiển để thể hiện cho chữ "ơ", v.v. 

Ngoài font ABC còn có font VietKey, do nhóm VietKey phát triển, được nhiều người ưa dùng (xem thông tin chi tiết tại địa chỉ www.vietkey.com), font TCVN2 của tiến sĩ Nguyễn Văn Hiệp, Trường đại học Bách khoa thành phố Hồ Chí Minh, và font VISCII, do nhóm Việt Kiều ở Mĩ Viet-Std (Vietnamese Standardization Working Group) phát triển, v.v.

2. Mã chữ Việt 2 byte
Thực chất font chữ Việt 2 byte chỉ áp dụng để mã hoá cho các con chữ mang thanh điệu của tiếng Việt. Cụ thể là, với con chữ nguyên âm có thanh điệu sẽ được mã hoá bằng 2 byte, byte đầu tiên thể hiện con chữ trong bảng chữ cái Latin, byte thứ 2 thể hiện cho thanh điệu. Trên lí thuyết, tiếng Việt có 6 thanh điệu, nhưng chỉ có 5 thanh được thể hiện ra bằng đường nét nên chỉ cần 19 kí tự (14 kí tự cho các con chữ ăĂ, âÂ, đĐ, êÊ, ôÔ, ơƠ, ưƯ và 5 kí tự cho dấu thanh) là có thể mã hoá được cho 134 con chữ đặc thù tiếng Việt viết thường và viết hoa. Do các font được thiết kế theo bảng mã 2 byte cho phép thể hiện và phân biệt được các chữ thường và chữ hoa trên cùng 1 font nên ít gây trở ngại cho người dùng. Tuy nhiên, các chữ mang thanh điệu của font 2 byte thường hiển thị không cân đối, khi in ra trông không được đẹp. Hơn nữa, trong các chương trình soạn thảo văn bản, ta phải ấn phím Backspace, hoặc phím mũi tên 2 lần mới xoá hoặc di chuyển qua được một con chữ nguyên âm mang thanh điệu.Tiêu biểu cho font chữ Việt 2 byte có font VNI, do công ty Vietnam International ở Mĩ phát triển và font BK-TPHCM2, do Trường đại học Bách khoa thành phố Hồ Chí Minh phát triển. Hai font chữ VNI và BK-TPHCM2 ít được sử dụng ở miền Bắc mà chủ yếu được sử dụng ở miền Nam và miền Trung, đặc biệt font VNI được đa số Việt Kiều ở Mĩ sử dụng. 

Ngoài hai bảng mã thông dụng nêu trên, hiện nay vẫn tồn tại rất nhiều bảng mã khác nhau. Tiêu biểu trong số đó có: 1) Bảng mã chữ Việt VIQR (Vietnamese Quoted Readable Specifications), dùng kí hiệu có sẵn trên bàn phím để thể hiện chữ Việt (ví dụ câu "Việt Nam đất nước ta ơi" sẽ được hiển thị là "Vie^.t Nam dda^ ' t nu+o+ ' c ta o+i"), bảng mã này cũng do nhóm Viet-Std phát triển. 2) Bảng mã tổ hợp, xử lí chữ Việt tương tự như mã tiếng Việt 2 byte, tức là tổ hợp giữa chữ cái Latin và dấu tiếng Việt, quá trình tổ hợp được thực hiện ngay khi gõ, thông qua chương trình quản lí font riêng biệt đã được cài đặt trên Windows 95 bằng tiếng Việt (Windows 95 Vietnamese).

II. Hình-ảnh của chữ Việt

Do sự hạn chế của bảng mã 8 bit, vốn lúc đầu được dùng chủ yếu để mã hoá chữ viết tiếng Anh trong máy tính, nên việc thể hiện sao cho đầy đủ con chữ tiếng Việt mà không gây ra những vi phạm hoặc những nhược điểm là hoàn toàn không thể. Vì vậy mà "hình ảnh" của chữ Việt đã bị những hạn chế về mặt kĩ thuật làm cho méo mó, hoặc những ứng dụng xử lí ngôn ngữ khi áp dụng cho chữ Việt đã không còn giá trị (sắp xếp theo ABC, chuyển đổi dữ liệu qua lại giữa các hệ cơ sở dữ liệu và các hệ soạn thảo văn bản, v.v.).

1. Thời mà Internet chưa phổ biến ở Việt Nam, có ý kiến nêu tại Hội thảo khoa học của Tuần lễ tin học VIII, tháng 10-1998 (Có thể "đa âm tiết hoá" chữ Việt nhằm đáp ứng yêu cầu phát triển tiếng Việt và công nghệ thông tin. Vũ Duy Phú. Hiệp hội Doanh nghiệp Điện tử Việt Nam. Tuần lễ tin học VIII, Hà Nội, 10-1998) là nên cải tiến chữ Việt bằng cách "đa âm tiết hoá", với mục đích là tiết kiệm không gian lưu trữ thông tin bằng chữ Việt, làm tăng hiệu suất truyền tải thông tin trên các phương tiện truyền tin. Tác giả nêu cụ thể các nguyên tắc như sau (xin trích nguyên văn, kể cả những chỗ viết liền âm tiết):1) Những từ gồm hai hoặc ba âmtiết, thì ghépliền. Vídụ: nhândân, hợptácxã

2) Những từ trên ba âmtiết thì ghép thành tổhợp con, hai hoặc ba âmtiết một. Vídụ: Luật đổimới Doanhgiệp, lữngtha lữngthững, đãhoànthành xong, tiềntưbản chủnghĩa, Nướccộnghoà Ghinê Bítxao;3) Những từ phiênâm, vay mượn từ tiếng nướcngoài, thì bỏ gạchnối và viếtliền, không hạnchế sốlượng âmtiết. Vídụ: Luânđôn. 

Ngoài ra, tác giả còn nêu việc cải tiến một số trường hợp như: bỏ chữ "h" trong "gh", "ngh" (người nghèo → ngườingèo, cai nghiện → caingiện, ghé thăm → géthăm...); bỏ dấu sắc trong các âm tiết có "c, t, ch" đứng cuối (bắc → băc, tắt → tăt, ngoắt → ngoăt...), bỏ những phụ âm lặp lại đứng cạnh nhau ở từ đa tiết (phát triển → phátriển, công nghiệp → cônghiệp, ngôn ngữ → ngôngữ, bên ngoài → bêngoài...), v.v. Các giải pháp mà tác giả đưa ra đã biến chữ Việt thành những kí hiệu vô hồn, đôi khi dẫn đến buồn cười, vô nghĩa. Chẳng hạn, với từ "thú y" thành "thúy", "cắt tóc" thành "cắtóc" (đọc là cắt óc), "bản gốc" thành "bảngốc" (đọc là bả ngốc hay bảng ốc), v.v. Mặt khác, tác giả cũng không thể phân biệt được ranh giới giữa các đơn vị từ vựng trong tiếng Việt, dẫn đến việc viết phép các âm tiết một cách tuỳ tiện trong bài viết. Nói chung, phương án này hoàn toàn xa lạ với thói quen viết chữ Việt cũng như cách phát âm tiếng Việt. Rất may là nó chỉ nằm lại trên "giấy" mà không được đưa ra "thử nghiệm" nên rất ít người biết đến, và cho đến nay thì hầu như đã bị lãng quên.

2. Khi Internet được phổ biến ở Việt Nam và nhu cầu gửi và nhận thư điện tử (e-mail) tăng nhanh cùng với sự thay đổi phiên bản (version) liên tục của các chương trình duyệt Web (chủ yếu là Internet Explorer của Microsoft), thì bộ mặt chữ Việt mới thực sự có bước "trình làng" đầy gian nan. Do dùng quá nhiều font chữ cũng như bảng mã tiếng Việt khác nhau mà việc trao đổi thông tin giữa các máy tính của cộng đồng người Việt luôn luôn không có "tiếng nói chung". Chẳng có gì bực mình và bất tiện hơn khi nhận được một văn bản hoặc e-mail của người khác mà không thể đọc được, vì máy tính của mình không có font chữ tương thích. Ngay cả khi có font chữ tương thích thì tình hình cũng chẳng khá hơn là bao. Ai cũng biết, một vài năm qua chữ Việt khi hiện trên các trang Web (qua trình duyệt Internet Explorer), hoặc trong các chương trình gửi nhận e-mail thì bị mất chữ "ư", và gây ra rất nhiều phiền phức cho người đọc. Ngay trong dịp Tết Nhâm Ngọ 2002 này, tại Site "Ước nguyện giao thừa" của mạng Internet VDC, vấn đề chữ "ư" vẫn còn tồn tại. Xin trích nguyên văn như sau:

- Một user name có bí danh "SB" viết:

"Hà nội từ mấy hôm nay tràn ngập không khí Tết. Ma Xuân bay bay, phố xá đông đúc, đó đây những ngời bán hoa đào... Những cây mai vàng từ phơng Nam đã vợt đờng xa ra vui Tết với ngời Hà nội." (Ma xuân = Mưa xuân, ngời = người, phơng = phương, đờng = đường)

- Một user name có bí danh "Valentin" viết:

"Mồng 3 Tết năm nay trùng ngày Valentin, không biết mọi ngời đã có ai nhớ đến cha? Chúc ai cha yêu sẽ gặp một nửa của mình." (ngời = người, cha = chưa)

Việc mất chữ "ư" không chỉ làm cho câu văn trở nên ngây ngô, buồn cười, mà tai hại hơn, còn làm cho nội dung thông báo bị sai lệch đi, tác động tiêu cực đến tình cảm của người tiếp nhận. Chẳng hạn, với ngữ đoạn "cưu mang đàn em nhỏ", khi mất chữ "ư" thành "cu mang đàn em nhỏ", v.v.

3. Để tránh những phiền toái do việc mất chữ "ư" gây ra, số đông người sử dụng Internet, nhất là sử dụng e-mail, đều quay sang viết chữ Việt không có dấu. Với tiếng Việt, sự giàu có về từ vựng, ngữ nghĩa là ở chỗ có thanh điệu. Khi được viết không có dấu, chữ Việt đã trở thành "thương tật", người tiếp nhận thông tin muốn hiểu như thế nào là tuỳ ý. Thế mới nảy sinh nhiều câu chuyện hiểu nhầm đến nực cười, chẳng hạn:- Với câu "Em dang o truong, anh den nhanh len nhe", có thể hiểu "Em đang ở trường, anh đến nhanh lên nhé", hoặc "Em đang ở truồng, anh đến nhanh lên nhé". 

- Với câu "Vo anh ta dam dang lam", có thể hiểu "Vợ anh ta đảm đang lắm", hoặc "Vợ anh ta dâm đãng lắm". Tại Đà Nẵng, tác giả Trần Triết Tâm, một người lập trình không chuyên, đã có một ý tưởng rất độc đáo là xây dựng một chương trình có tên "AutoMark" (tự động đánh dấu), nhằm mục đích giúp đọc các văn bản tiếng Việt không có dấu, thường là e-mail gửi qua Internet. Chương trình dựa vào một bộ từ điển lưu trữ những từ có dấu tương ứng với những từ không có dấu để làm căn cứ cho việc chuyển đổi. Việc chuyển đổi này, theo tác giả, là "... không bao giờ đạt kết quả 100%. Theo thực tế sử dụng, chương trình chỉ chuyển đổi đúng được khoảng 95%.", nhưng theo kiểm chứng của chúng tôi thì không hẳn như vậy. Chẳng hạn, khi gõ:

"Em muon lam roi, anh den ngay di" thì chương trình đổi thành "Em muốn làm rồi, anh đến ngay đi" (đúng là: Em muộn lắm rồi, anh đến ngay đi). v.v.

4. Chữ Việt không có dấu thực sự đã gây trở ngại cho việc diễn đạt cũng như tiếp nhận thông tin. ý tưởng tạo ra một bảng mã chữ Việt có tính tương thích cao, có thể sử dụng các font chữ tiếng Anh sẵn có để thể hiện chữ Việt trong mọi hệ điều hành máy tính, mọi chương trình ứng dụng mà không cần phải có các thiết bị đi kèm đã được cụ thể hoá bằng sự ra đời của bảng mã tiếng Việt VIQR (nêu ở mục "I, 2"). Do tính tương thích cao nên bảng mã VIQR thường được dùng để gửi nhận e-mail trong cộng đồng người Việt ở nước ngoài, bất kể trong máy tính có hay không có font chữ tiếng Việt. Thực chất của giải pháp chữ Việt VIQR là dùng các kí hiệu có sẵn trên bàn phím máy tính để thể hiện chữ Việt, nên có thể áp dụng để nhập chữ Việt cho các font mã 1 byte hoặc 2 byte mà không cần bất cứ chương trình hỗ trợ bàn phím nào. Các phím chữ tiếng Việt trong bảng mã VIQR được quy ước như sau:

` = dấu huyền; ? = dấu hỏi; ~ = dấu ngã; ' = dấu sắc; . = dấu nặng; ^ = dấu mũ, trong chữ â, ê, ô; + = dấu móc, trong chữ ư, ơ; ( = dấu trăng, trong chữ ă; dd = chữ đ.

Có thể dùng kiểu gõ VIQR để gõ chữ Việt, ví dụ: tru+o+`ng ho.c = trường học; DDa(.ng Tie^ ' n DDo^ng = Đặng Tiến Đông.

Một số chương trình gõ chữ Việt như UniKey, VietKey... đều hỗ trợ bảng mã này bằng kiểu gõ TELEX hoặc VNI, tuỳ theo thói quen của người sử dụng. Nhìn đại thể, chữ Việt thể hiện bằng mã VIQR là tương đối khó đọc, mất mĩ quan vì nó "mọc thêm nhiều u bướu", đấy là chưa kể những trường hợp bất hợp lí, kiểu như "Ma`y co ' ddi kho^ng ha??" (Mày có đi không hả?), v.v.Như vậy, từ chỗ bất hợp lí của bảng mã TCVN-5712, hay nói đúng hơn là do sự lệ thuộc vào những hạn chế của kĩ thuật trong một thời điểm nhất định nào đó, nên đã kéo theo nhiều giải pháp cho chữ Việt, làm cho chữ Việt mất đi nét đặc thù riêng là chữ viết ghi âm. Nét chữ Việt thân thuộc của chúng ta đã bị công nghệ mổ xẻ, làm cho méo mó, què cụt, và cho đến hôm nay vẫn chưa được lành lặn. Điều đó không phải là do bản chất của ngôn ngữ. 

III. Tiếng Việt trong xu-thế đa-ngôn-ngữ

Tiếng Việt đang xuất hiện trên hệ thống thông tin toàn cầu chẳng tương xứng một chút nào với những gì mà nó tiềm ẩn trong tâm tư, tình cảm của mỗi người Việt Nam chúng ta. Dù sao, do lợi thế thuộc hệ chữ cái Latin nên ít nhiều chúng ta vẫn nhận ra được "hình hài" của tiếng Việt thân yêu. Điều này khả quan hơn rất nhiều so với khi nhìn thấy những kí tự loằng ngoằng của các ngôn ngữ khác như tiếng Hán, tiếng Nhật, tiếng Hàn, tiếng Arập, tiếng Thái, tiếng Nga, v.v. Lí do là trình duyệt Web (Web Browser) không hiểu những ngôn ngữ này, vì không có font chữ tương thích. Để đọc được thông tin bằng các thứ tiếng này, kể cả tiếng Việt, có nhiều giải pháp mã hoá bảng chữ cái đang được dùng, khiến cho những ai muốn vừa đọc thông tin bằng tiếng Anh, vừa đọc thông tin bằng tiếng Hán, tiếng Nga, tiếng Việt... thì phải có các bộ font chữ cùng các chương trình phần mềm ứng dụng đặc thù được cài đặt trong máy tính. Đến một ngày nào đó, máy tính của chúng ta sẽ đầy ắp những font chữ, làm cho hệ thống xử lí chậm chạp. Trên một văn bản thường không thể sử dụng đồng thời các ngôn ngữ trong cùng một font chữ. Thậm chí, khi có đầy đủ các font chữ thì cũng không thể hiển thị đầy đủ các ngôn ngữ trong một văn bản, do các phần mềm ứng dụng tranh chấp lẫn nhau. Điều này gây tốn kém và bất tiện cho người dùng.

Để khắc phục những nhược điểm nói trên, sự ra đời của bộ mã đa ngôn ngữ 16 bit Unicode/ISO 10646, do tập đoàn Unicode (Unicode Consortium) và Tổ chức Tiêu chuẩn Quốc tế (ISO) thống nhất ban hành, là rất kịp thời và đã được nhiều quốc gia trên thế giới chấp nhận. Các công ti hàng đầu trong lĩnh vực công nghệ thông tin như Microsoft, Adobe, Novell, Lotus, Sun, IBM... đều hỗ trợ Unicode trong các sản phẩm của mình. Đây thực sự là một bộ mã vạn năng để mã hoá chữ viết cho mọi ngôn ngữ trên thế giới. Xu thế đa ngôn ngữ trong một bộ mã và một bộ font chữ càng được khẳng định, khi mà ngành công nghiệp phần cứng cũng như phần mềm máy tính đã có những bước tiến nhảy vọt trong việc khắc phục những rào cản về kĩ thuật.

Unicode là bộ mã kí tự 16 bit, cung cấp 65.536 kí tự, có thể mở rộng cho phép mã hoá tới 1 triệu kí tự, quá nhiều để mô tả cho hầu hết các con chữ của mọi ngôn ngữ trên thế giới. Trong khi bộ mã 8 bit, hiện đang được áp dụng cho tiếng Việt, chỉ cung cấp 256 kí tự cho việc mô tả các con chữ của các ngôn ngữ khác nhau. Tiếng Việt do thuộc hệ Latin nên được thể hiện sẵn trong hầu hết các font chữ Unicode, điều mà một số ngôn ngữ khác như tiếng Hán, tiếng Nhật, tiếng Thái... không có được. Các ngôn ngữ không thuộc hệ Latin chỉ được thể hiện ở một vài font Unicode. Unicode cũng dùng 2 byte để mã hoá chữ Việt, nhưng khác với các bảng mã 2 byte do Việt Nam tự xây dựng trước đây. Sự khác nhau ở chỗ, mỗi kí tự trong bảng mã Unicode đều có độ dài 16 bit (2 byte), trong khi ở bảng mã 8 bit chỉ có những chữ nguyên âm mang thanh điệu mới có độ dài 16 bit. Mặt khác, Unicode là bộ mã chuẩn quốc tế nên được các hệ điều hành máy tính, các chương trình ứng dụng hỗ trợ và được tích hợp sẵn trong Windows 2000, WindowsXP, Office 97, Office 2000, Ms Publisher 2000, v.v.

Tiếng Việt được mã hoá trong các font Unicode bao gồm 42 mã ghi chữ phụ âm viết thường và viết hoa (bB, cC, dD, đĐ... zZ), 134 mã ghi chữ nguyên âm có dấu viết thường và viết hoa (àÀ...ạẠ, ăĂ...ặẶ, ..., ơƠ...ợỢ, ..., ỳỲ...ỵỴ), 10 mã ghi chữ nguyên âm không có dấu viết thường và viết hoa (aA, eE, iI, oO, uU), tổng cộng có 186 mã chữ. Ngoài ra còn có mã cho 5 dấu thanh để tạo ra các chữ Việt ở dạng tổ hợp. Như vậy, Unicode đã chứa sẵn các con chữ, hoặc có đủ chỗ để mã hoá chữ viết cho mọi ngôn ngữ trên thế giới, trong đó có chữ quốc ngữ (sắp tới có thể cả chữ Nôm) của Việt Nam. Unicode thực sự làm cho mọi dân tộc trên thế giới xích lại gần nhau hơn trong một thế giới điện toán mà tất cả các ngôn ngữ đều có vai trò ngang nhau.

Bộ mã vạn năng Unicode đang được vận hành, và đã trở thành chuẩn mực trong thế giới công nghệ thông tin. Sử dụng Unicode để thể hiện chữ Việt là giải pháp hiệu quả nhất, không chỉ làm thay đổi hình ảnh méo mó của chữ Việt vẫn còn ẩn hiện đâu đó trên mạng Internet, mà còn đưa tiếng Việt hoà nhập trong một thế giới mới, thế giới đa ngôn ngữ. Do thấy được tầm quan trọng của Unicode nên hiện nay, một số Website Việt Nam đã chuyển sang dùng mã Unicode thay cho mã TCVN-5712. Và cụ thể hơn, ngày 24-9-2001, Bộ Khoa học Công nghệ và Môi trường đã ban hành bộ mã chữ Việt 16 bit tiêu chuẩn nhà nước TCVN 6909:2001, dựa trên bộ mã Unicode/ISO 10646. Hiện nay, một số cơ quan cũng đã lên kế hoạch chuyển toàn bộ cơ sở dữ liệu của mình sang mã Unicode, trước khi Chính phủ ban hành những quy định chính thức.

Tài-liệu tham-khảo

1. Đặc tả các vấn đề tiếng Việt trong công nghệ thông tin. Báo cáo của Nhóm công tác mã hoá tổ hợp. Tham khảo trên mạng Internet của FPT.

2. Các xu hướng hiện nay của kĩ nghệ phần mềm. Trần Lưu Chương, Ngô Trung Việt. Tiểu ban chuẩn, Ban chỉ đạo Chương trình quốc gia về Công nghệ thông tin. Tuần lễ tin học VIII, Hà Nội, 10-1998.

3. Tiếng Việt và bộ mã Unicode. Đặng Minh Tuấn. Tham khảo tại địa chỉ: http://www.pclehoan.com/suutam/99/thds/tvunico.htm

4. Unicode và vấn đề chuẩn tiếng Việt. Hoàng Nam Hải. Tham khảo tại địa chỉ: http://www.pclehoan.com/suutam/98/pcworld/unicode.htm

5. Unicode - chuẩn hoá tiếng Việt. TS Nguyễn Văn Hiệp. Thế giới vi tính, số 111 tháng 1-2002.

6. Sử dụng Unicode trong các sản phẩm của Microsoft. Thế giới vi tính, Số 112 tháng 2-2002.

7. Thống nhất đất nước trong trao đổi thông tin. Diệu Quyên. Báo Khoa học và Đời sống. Số 11, 25-2-2002.
(Nguồn: Tạp-chí Ngôn-ngữ & Đời-sống, 2002)

Không có nhận xét nào:

Đăng nhận xét