Nguyễn Tiến Hải

Thông báo: Từ vựng tiếng Hàn thường gặp nhất từ 301 trở đi có tính phí. Vui lòng xem hướng dẫn bên góc phải. Notice: 6000 most common Korean words with sample sentences and explanations from 301 are not free. Please contact us at nguyentienhai@gmail.com for more details. Website for learning Korean language effectively in shortest time, fast learning Korean, 6000 most common Korean words, basic Korean words with sample sentences,

Chủ Nhật, 16 tháng 1, 2011

Tiếng Việt "giàu" nhưng có còn "đẹp" trên mạng thông-tin toàn-cầu?

Tác-giả: Vũ-Xuân-Lương – Trung-tâm Từ-điển-học

(Tạp-chí Ngôn-ngữ & Đời-sống, 2002)

Internet đang ngày càng tác-động sâu-rộng đến đời-sống, tình-cảm và thói-quen văn-hoá của toàn nhân-loại. Dù muốn hay không, dù nhiều hay ít, cuối-cùng thì tất-cả chúng-ta cũng đều bị cuốn đi theo nó một cách vô-hình. Xu-hướng hiện-nay của kĩ-nghệ phần-mềm là đều tập-trung vào phát-triển và phổ-biến các sản-phẩm dựa trên nền Internet. Công-nghệ Internet thực-sự đã tạo-nên được một "thế-giới ảo" về "cuộc-sống thực" mà chúng-ta đang sống.

Internet là nơi biểu-hiện nhiều nét đặc-trưng ngôn-ngữ và văn-hoá của nhiều nước trên thế-giới. Kho tri-thức chung khổng-lồ của nhân-loại được luân-chuyển từng giây, từng phút trên mạng thông-tin toàn-cầu này đang đặt ra nhiều thách-thức mới cho nhiều quốc-gia, trong đó có Việt-Nam chúng-ta. Sự phát-triển nhanh-chóng về mặt năng-lực tính-toán của cá-nhân đòi-hỏi phải có những công-cụ xử-lí thông-tin sao-cho phù-hợp, đồng-thời giúp làm tăng năng-lực tính-toán lên cao hơn nữa và giúp cho quá-trình phổ-cập thông-tin đến cho mọi-người cùng được thụ-hưởng.

Từ thực-tế đó, một xu-hướng đa-ngôn-ngữ quốc-tế đã được hình-thành. Tuy-nhiên, do lí-do về văn-hoá, địa-lí, và nhiều lí-do khác, xu-hướng này chưa được quan-tâm đúng-mức tại nước ta. Trong nhiều năm qua, việc trao-đổi và sử-dụng thông-tin đa-ngôn-ngữ, thậm-chí trên cùng một ngôn-ngữ như tiếng Việt, cũng đã gặp không ít khó-khăn, trở-ngại. Vậy thì trong những năm qua, "diện-mạo" tiếng Việt ra-sao trong xu-hướng đa-ngôn-ngữ này, và chúng-ta đã chuẩn-bị những gì cho sự "trình-làng" của tiếng Việt trong tương-lai? Nội-dung của bài-viết mà chúng-tôi sẽ trình-bày sau đây nhằm trả-lời cho câu-hỏi trên.

I. Giới-thiệu
Tiếng Việt được thể hiện qua hai dạng chữ viết, chữ Nôm và chữ quốc ngữ. Các vấn đề nghiên cứu để biểu diễn chữ Nôm trong công nghệ thông tin mới được nghiên cứu và gần đây đã thu được những thành công bước đầu. Mối quan tâm chính của giới công nghệ thông tin trong những năm qua là tập trung nghiên cứu chữ quốc ngữ để biểu diễn bên trong máy tính. Kết quả của quá trình nghiên cứu là đã công bố được một bảng mã tiêu chuẩn cho tiếng Việt, viết tắt là TCVN-5712 (1993). Cùng với bảng mã TCVN-5712 là sự ra đời của bộ font chữ ABC, được quy định là tiêu chuẩn quốc gia. Tuy nhiên, do còn nhiều hạn chế mà bảng mã TCVN-5712 không được sự ủng hộ của giới làm phần mềm, và kết quả là trên lãnh thổ Việt Nam cũng như ở nước ngoài sản sinh rất nhiều bộ mã cho chữ Việt, dẫn đến một tình trạng hỗn độn chữ Việt trên thị trường công nghệ thông tin. Chúng tôi xin điểm qua một số bảng mã dưới đây.

1. Mã chữ Việt 1 byte

Do hạn chế về mặt biểu diễn các mã chữ trong máy tính, nên lúc đầu người ta định ra bảng mã 8 bit để mã hoá chữ viết. Bảng mã 8 bit cho phép chỉ có thể bố trí tối đa 256 kí tự, trong đó có 128 kí tự không được phép xâm phạm, gồm các kí tự điều khiển, các kí tự thể hiện con chữ trong bảng chữ cái Latin (a, b, c, d, e, ..., z), các kí tự toán học và các kí tự khác như @, $, &, *, v.v. Như vậy, chỉ còn lại 128 kí tự để mã hoá chữ viết cho nhiều ngôn ngữ khác nhau. Với các ngôn ngữ có chữ viết theo hệ Latin như tiếng Anh, tiếng Pháp... thì không có vấn đề gì, nhưng với các ngôn ngữ có chữ viết tượng hình như tiếng Hán, tiếng Nhật... thì lại thành vấn đề lớn. Tiếng Việt, tuy chữ viết thuộc hệ Latin, nhưng là chữ viết có thanh điệu nên cũng không tránh khỏi những khó khăn nhất định. Để cho rõ hơn, chúng ta có thể hình dung như sau:

Tiếng Việt có 20 con chữ ghi phụ âm (du nhập thêm F, J, W, Z) và 5 con chữ ghi nguyên âm (a, e, i, o, u) đã được mã hoá trong máy tính có mã giống nhau cho cả chữ hoa và chữ thường, và thuộc vùng 128 kí tự không được xâm phạm. Còn lại 134 con chữ đặc thù tiếng Việt (ăĂ, âÂ, đĐ, ằẰ ... ặẶ, ..., ỳỲ... ỵỴ) muốn thể hiện đầy đủ buộc phải vi phạm vị trí đã được mã hoá của 6 kí tự trong số 128 kí tự không được phép xâm phạm. Điều này thì không thể được, vì nếu 6 kí tự đã được mã hoá bị mất, sẽ dẫn đến sự mất tương ứng 1-1 giữa kí tự hiển thị với kí tự đã được bố trí sẵn trên bàn phím máy tính. Do vậy, các nhà công nghệ thông tin chọn giải pháp chỉ sử dụng 67 kí tự để mã hoá chữ Việt viết thường (ă, â, đ, ê, ô, ơ, ư, à, ả, ã, á, ạ, ..., ỳ, ỷ, ỹ, ý, ỵ), còn chữ viết hoa sẽ được thể hiện bằng font khác, thường có đuôi là U hoặc H. Đó cũng là nội dung mà bảng mã TCVN-5712 thể hiện. Như vậy, chữ hoa và chữ thường trong bảng mã TCVN-5712 có mã giống nhau, chỉ khác nhau về tên font. Điều này không chỉ gây bất tiện trong khi sử dụng (phải chọn font khác nhau cho chữ hoa và chữ thường), mà còn gây cản trở rất lớn cho việc xử lí thông tin (do không thể phân biệt được chữ hoa với chữ thường).Tiêu biểu cho font chữ Việt 1 byte bảng mã TCVN-5712 có font ABC, là font chữ tiêu chuẩn quốc gia như đã nêu ở trên, được quy định dùng bắt buộc trong các cơ quan nhà nước. Font chữ này cũng được một số mạng cung cấp dịch vụ Internet như VNN, Netnam, FPT, ViNet... sử dụng. Tuy nhiên, font ABC chỉ được dùng phổ biến ở miền Bắc, còn ở miền Trung và miền Nam hầu như không được sử dụng. Trên thực tế, bảng mã TCVN-5712 vẫn chiếm mất một số kí tự quan trọng trong các phần mềm chế bản điện tử, hay soạn thảo văn bản, v.v. Chẳng hạn: chiếm mất mã 182 vốn được quy định cho việc hiển thị dấu cách để thể hiện cho chữ "ã", mã 183 hiển thị dấu ngắt đoạn để thể hiện cho chữ "ả", mã 172 là kí tự điều khiển để thể hiện cho chữ "ơ", v.v.

Ngoài font ABC còn có font VietKey, do nhóm VietKey phát triển, được nhiều người ưa dùng (xem thông tin chi tiết tại địa chỉ www.vietkey.com), font TCVN2 của tiến sĩ Nguyễn Văn Hiệp, Trường đại học Bách khoa thành phố Hồ Chí Minh, và font VISCII, do nhóm Việt Kiều ở Mĩ Viet-Std (Vietnamese Standardization Working Group) phát triển, v.v.

2. Mã chữ Việt 2 byte

Thực chất font chữ Việt 2 byte chỉ áp dụng để mã hoá cho các con chữ mang thanh điệu của tiếng Việt. Cụ thể là, với con chữ nguyên âm có thanh điệu sẽ được mã hoá bằng 2 byte, byte đầu tiên thể hiện con chữ trong bảng chữ cái Latin, byte thứ 2 thể hiện cho thanh điệu. Trên lí thuyết, tiếng Việt có 6 thanh điệu, nhưng chỉ có 5 thanh được thể hiện ra bằng đường nét nên chỉ cần 19 kí tự (14 kí tự cho các con chữ ăĂ, âÂ, đĐ, êÊ, ôÔ, ơƠ, ưƯ và 5 kí tự cho dấu thanh) là có thể mã hoá được cho 134 con chữ đặc thù tiếng Việt viết thường và viết hoa. Do các font được thiết kế theo bảng mã 2 byte cho phép thể hiện và phân biệt được các chữ thường và chữ hoa trên cùng 1 font nên ít gây trở ngại cho người dùng. Tuy nhiên, các chữ mang thanh điệu của font 2 byte thường hiển thị không cân đối, khi in ra trông không được đẹp. Hơn nữa, trong các chương trình soạn thảo văn bản, ta phải ấn phím Backspace, hoặc phím mũi tên 2 lần mới xoá hoặc di chuyển qua được một con chữ nguyên âm mang thanh điệu.Tiêu biểu cho font chữ Việt 2 byte có font VNI, do công ty Vietnam International ở Mĩ phát triển và font BK-TPHCM2, do Trường đại học Bách khoa thành phố Hồ Chí Minh phát triển. Hai font chữ VNI và BK-TPHCM2 ít được sử dụng ở miền Bắc mà chủ yếu được sử dụng ở miền Nam và miền Trung, đặc biệt font VNI được đa số Việt Kiều ở Mĩ sử dụng.

Ngoài hai bảng mã thông dụng nêu trên, hiện nay vẫn tồn tại rất nhiều bảng mã khác nhau. Tiêu biểu trong số đó có: 1) Bảng mã chữ Việt VIQR (Vietnamese Quoted Readable Specifications), dùng kí hiệu có sẵn trên bàn phím để thể hiện chữ Việt (ví dụ câu "Việt Nam đất nước ta ơi" sẽ được hiển thị là "Vie^.t Nam dda^ ' t nu+o+ ' c ta o+i"), bảng mã này cũng do nhóm Viet-Std phát triển. 2) Bảng mã tổ hợp, xử lí chữ Việt tương tự như mã tiếng Việt 2 byte, tức là tổ hợp giữa chữ cái Latin và dấu tiếng Việt, quá trình tổ hợp được thực hiện ngay khi gõ, thông qua chương trình quản lí font riêng biệt đã được cài đặt trên Windows 95 bằng tiếng Việt (Windows 95 Vietnamese).

II. Hình-ảnh của chữ Việt

Do sự hạn chế của bảng mã 8 bit, vốn lúc đầu được dùng chủ yếu để mã hoá chữ viết tiếng Anh trong máy tính, nên việc thể hiện sao cho đầy đủ con chữ tiếng Việt mà không gây ra những vi phạm hoặc những nhược điểm là hoàn toàn không thể. Vì vậy mà "hình ảnh" của chữ Việt đã bị những hạn chế về mặt kĩ thuật làm cho méo mó, hoặc những ứng dụng xử lí ngôn ngữ khi áp dụng cho chữ Việt đã không còn giá trị (sắp xếp theo ABC, chuyển đổi dữ liệu qua lại giữa các hệ cơ sở dữ liệu và các hệ soạn thảo văn bản, v.v.).

1. Thời mà Internet chưa phổ biến ở Việt Nam, có ý kiến nêu tại Hội thảo khoa học của Tuần lễ tin học VIII, tháng 10-1998 (Có thể "đa âm tiết hoá" chữ Việt nhằm đáp ứng yêu cầu phát triển tiếng Việt và công nghệ thông tin. Vũ Duy Phú. Hiệp hội Doanh nghiệp Điện tử Việt Nam. Tuần lễ tin học VIII, Hà Nội, 10-1998) là nên cải tiến chữ Việt bằng cách "đa âm tiết hoá", với mục đích là tiết kiệm không gian lưu trữ thông tin bằng chữ Việt, làm tăng hiệu suất truyền tải thông tin trên các phương tiện truyền tin. Tác giả nêu cụ thể các nguyên tắc như sau (xin trích nguyên văn, kể cả những chỗ viết liền âm tiết):1) Những từ gồm hai hoặc ba âmtiết, thì ghépliền. Vídụ: nhândân, hợptácxã;

2) Những từ trên ba âmtiết thì ghép thành tổhợp con, hai hoặc ba âmtiết một. Vídụ: Luật đổimới Doanhgiệp, lữngtha lữngthững, đãhoànthành xong, tiềntưbản chủnghĩa, Nướccộnghoà Ghinê Bítxao;3) Những từ phiênâm, vay mượn từ tiếng nướcngoài, thì bỏ gạchnối và viếtliền, không hạnchế sốlượng âmtiết. Vídụ: Luânđôn.

Ngoài ra, tác giả còn nêu việc cải tiến một số trường hợp như: bỏ chữ "h" trong "gh", "ngh" (người nghèo → ngườingèo, cai nghiện → caingiện, ghé thăm → géthăm...); bỏ dấu sắc trong các âm tiết có "c, t, ch" đứng cuối (bắc → băc, tắt → tăt, ngoắt → ngoăt...), bỏ những phụ âm lặp lại đứng cạnh nhau ở từ đa tiết (phát triển → phátriển, công nghiệp → cônghiệp, ngôn ngữ → ngôngữ, bên ngoài → bêngoài...), v.v. Các giải pháp mà tác giả đưa ra đã biến chữ Việt thành những kí hiệu vô hồn, đôi khi dẫn đến buồn cười, vô nghĩa. Chẳng hạn, với từ "thú y" thành "thúy", "cắt tóc" thành "cắtóc" (đọc là cắt óc), "bản gốc" thành "bảngốc" (đọc là bả ngốc hay bảng ốc), v.v. Mặt khác, tác giả cũng không thể phân biệt được ranh giới giữa các đơn vị từ vựng trong tiếng Việt, dẫn đến việc viết phép các âm tiết một cách tuỳ tiện trong bài viết. Nói chung, phương án này hoàn toàn xa lạ với thói quen viết chữ Việt cũng như cách phát âm tiếng Việt. Rất may là nó chỉ nằm lại trên "giấy" mà không được đưa ra "thử nghiệm" nên rất ít người biết đến, và cho đến nay thì hầu như đã bị lãng quên.

2. Khi Internet được phổ biến ở Việt Nam và nhu cầu gửi và nhận thư điện tử (e-mail) tăng nhanh cùng với sự thay đổi phiên bản (version) liên tục của các chương trình duyệt Web (chủ yếu là Internet Explorer của Microsoft), thì bộ mặt chữ Việt mới thực sự có bước "trình làng" đầy gian nan. Do dùng quá nhiều font chữ cũng như bảng mã tiếng Việt khác nhau mà việc trao đổi thông tin giữa các máy tính của cộng đồng người Việt luôn luôn không có "tiếng nói chung". Chẳng có gì bực mình và bất tiện hơn khi nhận được một văn bản hoặc e-mail của người khác mà không thể đọc được, vì máy tính của mình không có font chữ tương thích. Ngay cả khi có font chữ tương thích thì tình hình cũng chẳng khá hơn là bao. Ai cũng biết, một vài năm qua chữ Việt khi hiện trên các trang Web (qua trình duyệt Internet Explorer), hoặc trong các chương trình gửi nhận e-mail thì bị mất chữ "ư", và gây ra rất nhiều phiền phức cho người đọc. Ngay trong dịp Tết Nhâm Ngọ 2002 này, tại Site "Ước nguyện giao thừa" của mạng Internet VDC, vấn đề chữ "ư" vẫn còn tồn tại. Xin trích nguyên văn như sau:

- Một user name có bí danh "SB" viết:

"Hà nội từ mấy hôm nay tràn ngập không khí Tết. Ma Xuân bay bay, phố xá đông đúc, đó đây những ngời bán hoa đào... Những cây mai vàng từ phơng Nam đã vợt đờng xa ra vui Tết với ngời Hà nội." (Ma xuân = Mưa xuân, ngời = người, phơng = phương, đờng = đường)

- Một user name có bí danh "Valentin" viết:

"Mồng 3 Tết năm nay trùng ngày Valentin, không biết mọi ngời đã có ai nhớ đến cha? Chúc ai cha yêu sẽ gặp một nửa của mình." (ngời = người, cha = chưa)

Việc mất chữ "ư" không chỉ làm cho câu văn trở nên ngây ngô, buồn cười, mà tai hại hơn, còn làm cho nội dung thông báo bị sai lệch đi, tác động tiêu cực đến tình cảm của người tiếp nhận. Chẳng hạn, với ngữ đoạn "cưu mang đàn em nhỏ", khi mất chữ "ư" thành "cu mang đàn em nhỏ", v.v.

3. Để tránh những phiền toái do việc mất chữ "ư" gây ra, số đông người sử dụng Internet, nhất là sử dụng e-mail, đều quay sang viết chữ Việt không có dấu. Với tiếng Việt, sự giàu có về từ vựng, ngữ nghĩa là ở chỗ có thanh điệu. Khi được viết không có dấu, chữ Việt đã trở thành "thương tật", người tiếp nhận thông tin muốn hiểu như thế nào là tuỳ ý. Thế mới nảy sinh nhiều câu chuyện hiểu nhầm đến nực cười, chẳng hạn:- Với câu "Em dang o truong, anh den nhanh len nhe", có thể hiểu "Em đang ở trường, anh đến nhanh lên nhé", hoặc "Em đang ở truồng, anh đến nhanh lên nhé".

- Với câu "Vo anh ta dam dang lam", có thể hiểu "Vợ anh ta đảm đang lắm", hoặc "Vợ anh ta dâm đãng lắm". Tại Đà Nẵng, tác giả Trần Triết Tâm, một người lập trình không chuyên, đã có một ý tưởng rất độc đáo là xây dựng một chương trình có tên "AutoMark" (tự động đánh dấu), nhằm mục đích giúp đọc các văn bản tiếng Việt không có dấu, thường là e-mail gửi qua Internet. Chương trình dựa vào một bộ từ điển lưu trữ những từ có dấu tương ứng với những từ không có dấu để làm căn cứ cho việc chuyển đổi. Việc chuyển đổi này, theo tác giả, là "... không bao giờ đạt kết quả 100%. Theo thực tế sử dụng, chương trình chỉ chuyển đổi đúng được khoảng 95%.", nhưng theo kiểm chứng của chúng tôi thì không hẳn như vậy. Chẳng hạn, khi gõ:

"Em muon lam roi, anh den ngay di" thì chương trình đổi thành "Em muốn làm rồi, anh đến ngay đi" (đúng là: Em muộn lắm rồi, anh đến ngay đi). v.v.

4. Chữ Việt không có dấu thực sự đã gây trở ngại cho việc diễn đạt cũng như tiếp nhận thông tin. ý tưởng tạo ra một bảng mã chữ Việt có tính tương thích cao, có thể sử dụng các font chữ tiếng Anh sẵn có để thể hiện chữ Việt trong mọi hệ điều hành máy tính, mọi chương trình ứng dụng mà không cần phải có các thiết bị đi kèm đã được cụ thể hoá bằng sự ra đời của bảng mã tiếng Việt VIQR (nêu ở mục "I, 2"). Do tính tương thích cao nên bảng mã VIQR thường được dùng để gửi nhận e-mail trong cộng đồng người Việt ở nước ngoài, bất kể trong máy tính có hay không có font chữ tiếng Việt. Thực chất của giải pháp chữ Việt VIQR là dùng các kí hiệu có sẵn trên bàn phím máy tính để thể hiện chữ Việt, nên có thể áp dụng để nhập chữ Việt cho các font mã 1 byte hoặc 2 byte mà không cần bất cứ chương trình hỗ trợ bàn phím nào. Các phím chữ tiếng Việt trong bảng mã VIQR được quy ước như sau:

` = dấu huyền; ? = dấu hỏi; ~ = dấu ngã; ' = dấu sắc; . = dấu nặng; ^ = dấu mũ, trong chữ â, ê, ô; + = dấu móc, trong chữ ư, ơ; ( = dấu trăng, trong chữ ă; dd = chữ đ.

Có thể dùng kiểu gõ VIQR để gõ chữ Việt, ví dụ: tru+o+`ng ho.c = trường học; DDa(.ng Tie^ ' n DDo^ng = Đặng Tiến Đông.

Một số chương trình gõ chữ Việt như UniKey, VietKey... đều hỗ trợ bảng mã này bằng kiểu gõ TELEX hoặc VNI, tuỳ theo thói quen của người sử dụng. Nhìn đại thể, chữ Việt thể hiện bằng mã VIQR là tương đối khó đọc, mất mĩ quan vì nó "mọc thêm nhiều u bướu", đấy là chưa kể những trường hợp bất hợp lí, kiểu như "Ma`y co ' ddi kho^ng ha??" (Mày có đi không hả?), v.v.Như vậy, từ chỗ bất hợp lí của bảng mã TCVN-5712, hay nói đúng hơn là do sự lệ thuộc vào những hạn chế của kĩ thuật trong một thời điểm nhất định nào đó, nên đã kéo theo nhiều giải pháp cho chữ Việt, làm cho chữ Việt mất đi nét đặc thù riêng là chữ viết ghi âm. Nét chữ Việt thân thuộc của chúng ta đã bị công nghệ mổ xẻ, làm cho méo mó, què cụt, và cho đến hôm nay vẫn chưa được lành lặn. Điều đó không phải là do bản chất của ngôn ngữ.

III. Tiếng Việt trong xu-thế đa-ngôn-ngữ

Tiếng Việt đang xuất hiện trên hệ thống thông tin toàn cầu chẳng tương xứng một chút nào với những gì mà nó tiềm ẩn trong tâm tư, tình cảm của mỗi người Việt Nam chúng ta. Dù sao, do lợi thế thuộc hệ chữ cái Latin nên ít nhiều chúng ta vẫn nhận ra được "hình hài" của tiếng Việt thân yêu. Điều này khả quan hơn rất nhiều so với khi nhìn thấy những kí tự loằng ngoằng của các ngôn ngữ khác như tiếng Hán, tiếng Nhật, tiếng Hàn, tiếng Arập, tiếng Thái, tiếng Nga, v.v. Lí do là trình duyệt Web (Web Browser) không hiểu những ngôn ngữ này, vì không có font chữ tương thích. Để đọc được thông tin bằng các thứ tiếng này, kể cả tiếng Việt, có nhiều giải pháp mã hoá bảng chữ cái đang được dùng, khiến cho những ai muốn vừa đọc thông tin bằng tiếng Anh, vừa đọc thông tin bằng tiếng Hán, tiếng Nga, tiếng Việt... thì phải có các bộ font chữ cùng các chương trình phần mềm ứng dụng đặc thù được cài đặt trong máy tính. Đến một ngày nào đó, máy tính của chúng ta sẽ đầy ắp những font chữ, làm cho hệ thống xử lí chậm chạp. Trên một văn bản thường không thể sử dụng đồng thời các ngôn ngữ trong cùng một font chữ. Thậm chí, khi có đầy đủ các font chữ thì cũng không thể hiển thị đầy đủ các ngôn ngữ trong một văn bản, do các phần mềm ứng dụng tranh chấp lẫn nhau. Điều này gây tốn kém và bất tiện cho người dùng.

Để khắc phục những nhược điểm nói trên, sự ra đời của bộ mã đa ngôn ngữ 16 bit Unicode/ISO 10646, do tập đoàn Unicode (Unicode Consortium) và Tổ chức Tiêu chuẩn Quốc tế (ISO) thống nhất ban hành, là rất kịp thời và đã được nhiều quốc gia trên thế giới chấp nhận. Các công ti hàng đầu trong lĩnh vực công nghệ thông tin như Microsoft, Adobe, Novell, Lotus, Sun, IBM... đều hỗ trợ Unicode trong các sản phẩm của mình. Đây thực sự là một bộ mã vạn năng để mã hoá chữ viết cho mọi ngôn ngữ trên thế giới. Xu thế đa ngôn ngữ trong một bộ mã và một bộ font chữ càng được khẳng định, khi mà ngành công nghiệp phần cứng cũng như phần mềm máy tính đã có những bước tiến nhảy vọt trong việc khắc phục những rào cản về kĩ thuật.

Unicode là bộ mã kí tự 16 bit, cung cấp 65.536 kí tự, có thể mở rộng cho phép mã hoá tới 1 triệu kí tự, quá nhiều để mô tả cho hầu hết các con chữ của mọi ngôn ngữ trên thế giới. Trong khi bộ mã 8 bit, hiện đang được áp dụng cho tiếng Việt, chỉ cung cấp 256 kí tự cho việc mô tả các con chữ của các ngôn ngữ khác nhau. Tiếng Việt do thuộc hệ Latin nên được thể hiện sẵn trong hầu hết các font chữ Unicode, điều mà một số ngôn ngữ khác như tiếng Hán, tiếng Nhật, tiếng Thái... không có được. Các ngôn ngữ không thuộc hệ Latin chỉ được thể hiện ở một vài font Unicode. Unicode cũng dùng 2 byte để mã hoá chữ Việt, nhưng khác với các bảng mã 2 byte do Việt Nam tự xây dựng trước đây. Sự khác nhau ở chỗ, mỗi kí tự trong bảng mã Unicode đều có độ dài 16 bit (2 byte), trong khi ở bảng mã 8 bit chỉ có những chữ nguyên âm mang thanh điệu mới có độ dài 16 bit. Mặt khác, Unicode là bộ mã chuẩn quốc tế nên được các hệ điều hành máy tính, các chương trình ứng dụng hỗ trợ và được tích hợp sẵn trong Windows 2000, WindowsXP, Office 97, Office 2000, Ms Publisher 2000, v.v.

Tiếng Việt được mã hoá trong các font Unicode bao gồm 42 mã ghi chữ phụ âm viết thường và viết hoa (bB, cC, dD, đĐ... zZ), 134 mã ghi chữ nguyên âm có dấu viết thường và viết hoa (àÀ...ạẠ, ăĂ...ặẶ, ..., ơƠ...ợỢ, ..., ỳỲ...ỵỴ), 10 mã ghi chữ nguyên âm không có dấu viết thường và viết hoa (aA, eE, iI, oO, uU), tổng cộng có 186 mã chữ. Ngoài ra còn có mã cho 5 dấu thanh để tạo ra các chữ Việt ở dạng tổ hợp. Như vậy, Unicode đã chứa sẵn các con chữ, hoặc có đủ chỗ để mã hoá chữ viết cho mọi ngôn ngữ trên thế giới, trong đó có chữ quốc ngữ (sắp tới có thể cả chữ Nôm) của Việt Nam. Unicode thực sự làm cho mọi dân tộc trên thế giới xích lại gần nhau hơn trong một thế giới điện toán mà tất cả các ngôn ngữ đều có vai trò ngang nhau.

Bộ mã vạn năng Unicode đang được vận hành, và đã trở thành chuẩn mực trong thế giới công nghệ thông tin. Sử dụng Unicode để thể hiện chữ Việt là giải pháp hiệu quả nhất, không chỉ làm thay đổi hình ảnh méo mó của chữ Việt vẫn còn ẩn hiện đâu đó trên mạng Internet, mà còn đưa tiếng Việt hoà nhập trong một thế giới mới, thế giới đa ngôn ngữ. Do thấy được tầm quan trọng của Unicode nên hiện nay, một số Website Việt Nam đã chuyển sang dùng mã Unicode thay cho mã TCVN-5712. Và cụ thể hơn, ngày 24-9-2001, Bộ Khoa học Công nghệ và Môi trường đã ban hành bộ mã chữ Việt 16 bit tiêu chuẩn nhà nước TCVN 6909:2001, dựa trên bộ mã Unicode/ISO 10646. Hiện nay, một số cơ quan cũng đã lên kế hoạch chuyển toàn bộ cơ sở dữ liệu của mình sang mã Unicode, trước khi Chính phủ ban hành những quy định chính thức.

Tài-liệu tham-khảo

1. Đặc tả các vấn đề tiếng Việt trong công nghệ thông tin. Báo cáo của Nhóm công tác mã hoá tổ hợp. Tham khảo trên mạng Internet của FPT.

2. Các xu hướng hiện nay của kĩ nghệ phần mềm. Trần Lưu Chương, Ngô Trung Việt. Tiểu ban chuẩn, Ban chỉ đạo Chương trình quốc gia về Công nghệ thông tin. Tuần lễ tin học VIII, Hà Nội, 10-1998.

3. Tiếng Việt và bộ mã Unicode. Đặng Minh Tuấn. Tham khảo tại địa chỉ: http://www.pclehoan.com/suutam/99/thds/tvunico.htm

4. Unicode và vấn đề chuẩn tiếng Việt. Hoàng Nam Hải. Tham khảo tại địa chỉ: http://www.pclehoan.com/suutam/98/pcworld/unicode.htm

5. Unicode - chuẩn hoá tiếng Việt. TS Nguyễn Văn Hiệp. Thế giới vi tính, số 111 tháng 1-2002.

6. Sử dụng Unicode trong các sản phẩm của Microsoft. Thế giới vi tính, Số 112 tháng 2-2002.

7. Thống nhất đất nước trong trao đổi thông tin. Diệu Quyên. Báo Khoa học và Đời sống. Số 11, 25-2-2002.

(Nguồn: Tạp-chí Ngôn-ngữ & Đời-sống, 2002)

Nguồn: http://www.vietlex.com/ngon-ngu-hoc/45

Nguyễn Tiến Hải

Chủ Nhật, 16 tháng 1, 2011

Tiếng Việt "giàu" nhưng có còn "đẹp" trên mạng thông-tin toàn-cầu?

Không có nhận xét nào:

Đăng nhận xét

Thời trang Mỹ phẩm Korea

The Ordinary