JAET

GB 18030関連情報

Line

Line

はじめに

中華人民共和国の文字コード、GB(=国家標準。日本のJISに相当)18030(通称 GBK2K)は、1バイト、2バイト、4バイトの可変長コードであり、既存の中国国家標準規格(GB、GBK)との上位互換を保ちつつ、拡張漢字を含むUnicodeの文字を完全に収録しそれを拡張できるような仕組みになっている。中国がこの拡張コードを制定する背景には、Unicodeという国際標準を受け容れつつ、自国内で必要な少数民族の文字をすべて収録したいという意図が見え隠れする。GB 18030の大まかな構成は以下の通り:

ASCII互換領域 128文字
GBK互換領域 23,940文字
Unicode BMP 互換領域 50,400文字
Unicode 1-16面 互換領域 1,058,400文字
その他の将来拡張 478,800文字

この規格を看過できないのは、その技術的な点もさることながら、2001年元旦より「(中華人民共和国)国内のあらゆる文字情報処理製品が」この規格を「採用するよう義務づけ」られるという報道がなされたことによる(その後、日米のメーカーの要請により、8月31日まで猶予期間が延長された)。このため漢字文献情報処理研究会内の文字コード関連会議室では、2000年7月以降活発な情報交換と議論がなされてきた。しかしながら、日本国内においてGB 18030に対する関心はまだ低いと言わざるを得ない。本サイトは、日本国内における情報交換を促進するべく、研究会内で蓄積された情報を研究会外に広く公開された。識者のご教導を乞いたい。

なお、ここにリンクされているドキュメント類の著作権等は、すべてリンク先ドキュメントの著者に帰し、またその内容について漢字文献情報処理研究会は一切の責任を負わない。利用に際しては留意されたい。

規格書

日本国内では、東京・内山書店(東京都千代田区神田神保町1-15、TEL:03-3294-0671、FAX:03-3294-0417)にて取り扱うとのこと。

オンラインで入手可能な基本資料

Unicode と GB 18030と間での変換は、アルゴリズムによるものではなく変換テーブルを用いるものである。UnicodeとGBKの重複部分については、後者を優先するような措置がとられているため、テーブルによる変換以外は不可能であろう。

その変換テーブルには規格票発行後、大幅な変更が加えられた。改訂版の変換テーブルは、IBMによりXML形式で公開されている。

解説

GB 18030に関するレポートの類は、早くからインターネット上で読むことができた。レポートの中には、規格のバグや問題点を指摘することで規格の制定に大きな影響を与えたものもある。以下のサイトを参照されたし。

報道

実装情報

Windows

GB18030 Support Package (簡体中文版)

Windows 2000は上記パッケージによってGB 18030に対応する。Windows 98/MeはGB 18030に対応する予定はないが、中国当局とMicrosoftの話し合いの結果、前者はこれまでの実績を考慮して販売を継続、後者は販売を中止するとのことである。

Linux

紅旗・藍点・Turboなどの主要ディストリビューションが対応

→Kanhoo!東洋学サーチ Unix、LinuxとBSD カテゴリ

ワープロ

WPS 2001(中国・金山公司〔KINGSOFT〕)が対応

→Kanhoo!東洋学サーチ 多言語対応ワープロ  カテゴリ

→千田大介「WPS Office β1 & GB18030フォント テストレポート」

フォント

中易・北大方正・ダイナフォントなどが、当局の認可を受けたとのこと。GB18030 Support Package (簡体中文版)に含まれる「SimSun18030.ttc」は中易製、WPS 2001のβ版に含まれていた方正黒体・方正宋一フォントは北大方正製。

Adobe-GB1-4 Character Collection for CID-Keyed Fonts

→Kanhoo!東洋学サーチ フォント / CJK・Unicode・GB18030フォント および 簡体字フォント  カテゴリ

→参照:北大方正「蘭亭苑」から翻訳紹介 2001.02-03(ライン・ラボ)

コンバータ

Windows、MS-DOS、FreeBSD用のシェアウェア「iTec(International Text Encoding Converter)」がバージョン2.51でGB 18030に対応
「2000-nov-30付けのMarkus Scherer氏の情報を元に、ここで紹介されているgbkuni30.txtとgbmake4を使ってGB18030とUnicodeの対応テーブルを作成し、4バイト部分はそれを使用、2バイト部分はgbkuni30.txtと、unicode.orgで公開されているテーブルを参考にしています。とりあえず仕様変更が再度発生したら、そのときはその時でまた追随することでしょう」との由(2月19日の開発日記参照)。

針谷壮一氏作のGB18030対応 「RTFコンバータ」 β版(Windows 95/98/Me および Windows NT/2000用)
Unicode⇔GB 18030に関するソースコードも公開されています。

GB18030 Support Package (簡体中文版)所収の「bunicnv.exe」
Unicode⇔GB 18030コンバータらしいが、動作が不完全?

漢情研BBSの関連発言へのリンク(会員用)

漢情研BBSのGB 18030関連の議論については、BBSダイジェストトップ/文字コードを語ろう/その他ローカルコードを参照されたい。

BBS本体の会員以外の閲覧はできない。趣意書・規約を読んで入会されたい。

Line

Line

このページの最初の公開: 2001/02/04 by Shigeki Moro
最近の改訂: 2001/10/03 by Shigeki Moro