――――Japan Association for East Asian Text Processing(JAET)―――― △▼△▼△▼△ 漢 字 文 献 情 報 処 理 研 究 会 △▼△▼△▼△ ▽▲▽▲▽▲▽ メ ー ル マ ガ ジ ン ▽▲▽▲▽▲▽ ―――――――――――― http://www.jaet.gr.jp/ ――――――――――― ========== 東洋学研究・教育の電子化と電脳漢字処理の最新情報 ========== ■□ 2002.2.1 □■ ■□ 第二号 □■ ―[PR]―――――――――――――――――――――――――――――――― ★☆★☆★ Windows中国語処理と電脳東洋学研究の最新マニュアル★☆★☆★ ★☆★☆★ 『電脳中国学II』(本会編、好文出版)絶賛発売中! ★☆★☆★ 詳細は、http://jaet.gr.jp/denchu2/ 東方書店、2001年12月の売り上げ第三位! ---------------------------------------------------------------------- ◇◆◇◆ 機関誌『漢字文献情報処理研究』(好文出版)好評発売中 ◆◇◆◇ 詳細は、http://jaet.gr.jp/jj/ ――――――――――――――――――――――――――――――――――― ・メーラーを等幅フォントに設定してください。 ・バックナンバーの閲覧・検索は、http://jaet.gr.jp/mag/ でどうぞ。 ――――――――――――――――――――――――――――――――――― ====================================================================== 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ JAET か ら の お 知 ら せ ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ――――――― ■会員向け情報 ――――――― ○会費納入のお願い 2001年度・2002年度会費が未納の方は、出来るだけ早くお振り込みくださ い。 ○名簿を発行します 本年三月を目途に、名簿を発送します。住所変更があった方は、入会申し 込みフォームにてご連絡ください。 ○新入会員(2002.1.11〜2002.1.25) 2名の方が新たにJAETに入会されました。 ====================================================================== 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ JAET-BBS ダ イ ジ ェ ス ト・2002.1.11〜1.25 ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ・漢情研会員はリンクをクリックするとJAET-BBSの当該発言を閲覧できます。 ――――――― ■イベント情報 ――――――― ○句読点研究会第7回例会 と き:2002.2.17(日)午後1時から6時まで ところ:小石川後楽園「涵徳亭」(JR飯田橋駅東口徒歩8分、地下鉄大江 戸線飯田橋駅後楽園口下車徒歩4分、庭園入場料は「涵徳亭」利 用と名乗れば無料) 詳 細:http://www.linelabo.com/kutouten.htm ○連続公開シンポジウム「21世紀の東方学」第三回「東方学の再構築」 主 催:京都大学人文科学研究所 と き:2002.3.16(土) ところ:京都大学京大会館 詳 細:http://www.zinbun.kyoto-u.ac.jp/symposium/announce.html 第一回目の模様をまとめた冊子(PDF化)が、上記Webページから 閲覧可能。 ○EBTIとPNCほかの合同大会 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=546&area=1-1000 EBTI(Electronic Buddhist Text Initiative)とPNC(Pacific Neighborhood Consortium)ほかの合同大会が、9月に大阪で開催予定。 東洋学のコンピュータ利用に関する一大会議。会場など、詳細は未定。 詳 細:PNC http://www.pnclink.org/ EBTI http://www.human.toyogakuen-u.ac.jp/~acmuller/ebti/ ――――――――――――――――――― ■雑談 <電脳・社会・学界をめぐって> ――――――――――――――――――― ○「復刊ドットコム」でシャノン『コミュニケーションの数学的理論』が登場 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=407&area=1-1000 Nグラムの原典であるシャノン『コミュニケーションの数学的理論』の邦訳 書が「復刊ドットコム」に登場。 関係URL:http://www.fukkan.com/vote.php3?no=3318 ○百種語文小叢書 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=ac2&mes=414&area=1-1000 大陸の語文出版社から、「中国語豆知識」的な全100冊のシリーズ『百種語 文小叢書』が発刊。コンピュータや文字コード関連の冊もあり。 ―――――――――――――――――――――― ■電脳情報 <Webサイト・ソフトウエア etc.> ―――――――――――――――――――――― ○Mac OS Xの多言語対応 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=547&area=1-1000 Mac OS 10.1のランゲージサポートで、繁体字と簡体字のそれぞれのアップ デートファイルが公開。「MS Office v.X (for Mac OS 10.1)」で利用可能。 ○北京政府MSを却下 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=543&area=1-1000 北京市政府が中国の政府機関としてはじめて、使用PCを完全正規版ソフト化 する宣言を行い、昨年12/28に採用するソフトウェアが最終決定。 Officeアプリケーションは、MS OfficeではなくWPS Officeを選択。 ○南京大虐殺ゲーム http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=533&area=1-1000 中国で南京大虐殺ゲームの海賊版CD-ROMが流通。中国政府当局が調査を開始。 ○北京故宮がWebサイトを開設 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=544&area=1-1000 北京故宮の公式サイト。内容は、故宮と明清の宮廷に関する百科事典。 Flash等を使っているので重い。日本語解説文あり。 ○本田英夫編『中国のコンピュータ産業』 http://jaet.gr.jp/JAET-BBS/contents.cgi?room=web2&mes=542&area=1-1000 ハードウェア関連記事が中心。 2001年5月発行 晃洋書房 ISBN:4-7710-1257-1 ―――――――――――――――――――――― ■文字処理情報 <テキスト処理と文字コード> ―――――――――――――――――――――― ○JIS改訂の「考え方案」公開レビュー http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=199&area=1-1000 新JCS委員会が、JIS文字コードと表外漢字字体表との対応案を公開レビュー。 コメントも募集中とのこと。 ○Mac OS 10.1はExt.B対応? http://jaet.gr.jp/JAET-BBS/contents.cgi?room=code2&mes=206&area=1-1000 Mac OS10.1は符号化方式としてutf-16を利用しており、一応Ext.Bも利用可能 なようだが、実際にはExt.Bに対応したフォントが用意されていないので、今 のところは利用できない。 ―気まぐれコラム――――――――――――――――――――――――――― 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 ◆◇ 漢籍電子文献の外字 ◇◆ 〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜 山田 崇仁@睡人亭 http://www.ritsumei.ac.jp/kic/~tyv07679/ ●はじめに 昨年来、『四庫全書』や『四部叢刊』のような一大叢書がCD-ROMで供給される ようになってはいますが、まだまだ台湾の中央研究院漢籍電子文献を利用される 方も多いかと思います。 前回では千田さんが中国学系電子テキストの歴史を解説されていましたが、漢 籍電子文献の公開によって、中華文化網のようなテキスト抽出&公開Webサイトが 生まれ、更にそのデータを再利用したWebサイトも乱立する事態となり、電子テキ ストの系統にも大きな影響を与えました。おそらく、現在Webサイトで公開されて いる電子テキストの多くは、漢籍電子文献系と言っても過言ではないでしょう。 さて、そのように多くのWebサイトで(表か裏かは問わず)公開されている、 漢籍電子文献系の電子テキストですが、入力がBIG5で行われ、BIG5未収録の文字 に関しては外字が利用されている事は既に読者の方がご存じの通りです。今回は、 その外字について少し書いてみる事にしました。 ●漢籍電子文献外字の特徴と問題点 外字というわけですから、「利用している文字集合に存在しない字を、特定の コードポイントと対応させ、なおかつ文字のグリフを定める。」という手続きが 一文字毎に行われます。漢籍電子文献もそのような手続きの元に、数千字にもな る外字集合が作られているわけですが、必ずしも統一した体型の元に構築されて いるわけではないようです。 外字一覧を見るとすぐにわかりますが、この外字は「入力中に見つかった順に 登録」されています。この辺りは個人レベルでの外字作成と変わらないかと思い ます。筆者が以前作成に関わった某文献データベースでも同じでした。 漢籍電子文献外字の特徴は「作字の際に文字のグリフを統一しない点」にある と思われます。通常外字を作成する場合、既存の字書やフォントなどを参考に文 字のグリフを決定する事が多いかと思いますが、調査した限りにおいて、漢籍電 子文献外字の場合は「入力元版本の文字グリフに忠実」というのが基本であるよ うに見受けられます。従って、複数の異なる系統の版本を利用している以上、そ こにはどうしても「同じ文字でも文字のグリフが異なってしまう」という事態が 避けられません。また、同じ書物の中でも、活字や印刷の具合によって生ずる微 妙な差異まで区別しようとする傾向が見受けられます。 幾つか例を挙げてみましょう。 ■同じ箇所で版本が異なる例 ○爾雅 卷八 釋草 ・開明書局版(活字) 朮.山薊. ・阮元『十三經注疏』(木版) 山薊 &#*****; → Unicodeの外字領域のコードポイント。SGML実体参照形式10進数表記 @***** → 『大漢和辭典』及び「今昔文字鏡」の漢字番号 以下同じ この場合は、木版と活字のデザイン差をそのまま反映したと思われます。 ■同版本で異なる例 ○『史記』韓世家 秦太后弟@28428戎 ○『史記』穰侯列傳 宣太后二弟…同父弟曰戎 文脈上、何れも@28428に従うのが正しいのですが、原本(中華書局標点本のリプ リント)で、両字がそのように表記されているためだと思われます。 ※この様な例は、「」と「棘」等が当てはまります。 同じ文字を別字としているだけではなく、別な字を一つの外字でまとめてしま っている場合もあります。 ■ これに割り当てられている文字は、次の二文字です。 ・@14343の音は「はん」。『禮記』王制等で使われる。 ・@29291の音は「ふん」。人名の田[月分]等で使われる。 さらには、(ありがちな話ですが)コードポイントの割り当てミス! という のも見受けられます。 ■ 字形の見た目は@38725に似ていますが、このコードポイントには、別な字が (@33410の異体字と思われます)が原本上では割り当てられています。 煩雑になるのでこれ以上の事例は挙げませんが、他の版本の入力時に作字さ れた外字を流用したり、活字を見誤ったために、元版本と異なる文字グリフで 外字が入力されている場合もあります。 ●おわりに 上の事例は、全外字のうち、20%そこそこ(1000字前後)だけを調査して得た結 果から、目立つ例だけを挙げました。元版本との文字グリフの差まで含めると、こ の類の事例は、全体の一割程度は該当するのではないかと思われます。 実際外字作成に関するこの手の問題は、全ての電子テキストにもいえる事でしょ う。外字を作字する際にある程度古典漢文や漢字に詳しい人間が既存の字書や他の 版本と照らし合わせてチェックをすれば、少なくとも外字の文字グリフの間違い等 は防げるはずです。もしくは外字と既存字書等との対照表を公開する事が利用者に とっても、外字を入力する側にとっても便利な事は明らかでしょう。 ただ、この手順を突き詰めていくと、元版本の文字グリフの誤りを直すのか、そ のまま入力するのか等の選択をする必要がありますので、漢籍電子文献のような版 本に忠実な大規模漢字データベースには向いていないかもしれません。 従って、利用する際には、本来はヒットしなければならない文字列が、外字の 関係でヒットしない可能性がある事を、承知の上利用するようにしましょう。だ からといって、この便利なデータベースを使わない手はありませんし、また、使 っているからといっても、決して妄信しすぎる事もしないで下さい。 ちなみに、漢籍電子文献系統の電子テキストの中には、この外字を既存のコー ドポイントの文字に置き換え直している場合があります。そのレベルは様々です が、中華文化網系統のそれは概して中途半端な結果に終わっているようです(そ もそも中華文化網の電子テキスト自体、限りなくアンダーグラウンドに近い性質 のものとは思いますが。)。 【このコラムは不定期掲載です。】 ==Information========================================================= ・このメールマガジンは、講読をお申し込みいただいた方に、無償で送信して おります。 ・このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して 発行しています。http://www.mag2.com/ (マガジンID: 0000083458) ◆登録変更・講読停止 ----- http://jaet.gr.jp/mag/ ◆漢情研入会申し込み ----- http://jaet.gr.jp/guiding.html ====================================================================== ┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ┃ 漢字文献情報処理研究会メールマガジン 第二号 [2002.2.1]┃ ┃ 毎月1日・15日発行┃ ┠─────────────────────────────────┨ ┃ 編集・発行:(c)漢字文献情報処理研究会┃ ┃ 本号編集担当:山田崇仁┃ ┠─────────────────────────────────┨ ┃本メールマガジンの内容を、著作権法に定められた範囲を超えて、無断で┃ ┃引用・転載・再利用することを厳禁します。 ┃ ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛