歴史データベースの将来と歴史知識学
歴史データベースの将来と歴史知識学
ーコンピュータはただの便利な道具か 保立道久
日本の歴史学が努力を集中するべき方向は何か、それはどのような研究方法論と関係しているか、それを推進するための社会的諸条件は何か。こう問題を提出した時、すでに相当数の研究者が、歴史学の情報化の問題を思い浮かべるに違いない。コンピュータは最初はワープロと目録作りの道具として導入された。私たちのような「中年」世代だと「一太郎」と「桐」という訳である。しかし、現在では、情報学的な諸手段は、実に多様な形で、歴史学のすみずみに入り込んでいる。
1史料カードからデータベース・電子書斎へ
きわめて限られた視野からにすぎないが、日本の歴史史料の電子化の状況を簡単に紹介すると、まず、一三〇〇万画像、八五万件といわれるアジア歴史資料センターのデータベースをはじめとする、国立公文書館のデジタルアーカイヴがある。これは近現代史に関するはじめての本格的なデータベースであり、相当多数の研究者が利用するにいたっている。そして二番目に大きいのが人間文化研究機構を中心とする国立の研究機関・博物館が展開しているデータベースである。その強みは情報学の専門研究者をかかえている点にあり、その下で、国文学研究資料館の江戸時代歴史史料のデータベース、日本文学のデータベースをはじめ実に多様なデータベースが発展している。最近では研究資源共有化計画の一環としてnihuONEと称するデジタル研究支援ツールを公開しているのも注目される。
第三が各大学が蒐集・採訪資料を基礎に展開しているデータベースであり、たとえば、東京大学史料編纂所では奈良・平安・鎌倉時代の古文書や古記録の相当部分をフルテキストデータベースとして公開している。第四に、さらに注目されるのが、この動きが地域文書館でも本格的に始まったことであって、たとえば福井県文書館のホームページからは『福井県史』史料編全冊の古文書のフルテキスト検索が可能であり、さらに県内の江戸時代までの史料についてはフルテキストのみでなく、一部、画像までも直接リンクするという先進的なシステムが動いている。
こうしてデータベースの蓄積とともにコンピュータの研究利用が本格化し、歴史学の研究スタイル自身が徐々にコンピュータベースに変化しつつある。現在では、ほとんどの研究者が、様々なメモをワープロやデータベースソフトで作っており、それをPCの上で加工して論文にしている。また、デジタルカメラの普及とハードディスクの容量の拡大とともに、史料画像のPC上での利用が増加している。さらにたとえば日本文学研究者の間では、国文学研究資料館のデータベースやフルテキストの相当量を個人のPCにそのまま取り込み、自由に検索し、引用することによって論文を執筆するのが一般化しているという。そして、歴史学でも、CD-ROMやフルテキストデータベースからデータをPCに落としたり、活字史料集をスキャナーで読み込んでOCRソフトで史料の全文をPCに読み込んだり、WEBでキーワード検索をかけた一覧画面をコピーアンドペーストしてPCに落としてキーワードごとの関係史料カードを作るなど、様々な作業を行う人々が多くなってきた。
PCは筆記具・史料整理・記録装置などの範囲を越えて、いわゆる「電子書斎」の機能をもつようになったのである。歴史史料は多様多量であるため、右にふれた日本文学研究のような状況はすぐには到来しないであろうが、遅かれ早かれ、多くの研究者が、データベースの増大と技術の発展によって、コンピュータの中に史料カード+メモを蓄積していき、いわゆる研究工具類(辞書、表、年表、百科全書など)をも移し込んでいくようになるに違いない。これまで、多くの研究者はカードやノートによって史料を蒐集し、論文を組み立てていくというのが一般であった。たとえば、私は、中世史研究者であるが、はじめて歴史学研究会中世史部会に参加した時、当時多くの人たちが使っていたB6版の史料カードを、相当の枚数、部会の先輩から譲ってもらった。それは梅棹忠夫氏の『知的生産の技術』(岩波新書、一九六九年)に表現されるような、いわば手工業的な知的生産の技法であるが、当時の東京の「中世史」の狭いサークルの中では、史料やキーワードをカードにとってあるかどうかというのは、研究の世界に参入しているかどうかを象徴するものであったと思う。
今、歴史研究の世界の中で一般化しつつあるのは、こういう一時代前のやり方ではなく、多かれ少なかれコンピュータの力に依拠して、史料の蒐集・検索から発想メモ・論文執筆にまでいたる方式である。もちろん、誤解のないように付け加えれば、これは「活字史料集」の世界を離れるということではない。歴史の研究にとって史料に沈潜するのはどうしても必要なことで、その際、ハンドリングしやすい刊本を使うことは、これからも変化がないはずである。しかし、現在問題となっているのは、そういうこれまで当然と思っていた状況自身の変化である。つまり、たとえば私の専門分野でいうと、『平安遺文』『鎌倉遺文』のような基礎的な史料集でさえ、学術出版をめぐる厳しい状況の中で、新しい研究世代には容易に手に入らなくなっている。これは研究書についても同じことで、多数の研究書が新たに出版されながら、二・三年で購入できなくなったり、古典的な研究書が高価・絶版などの事情によって入手困難になっている。歴史の研究においては一つの論点を確定するために、二〇年・三〇年前の研究の点検をせざるをえないというのは普通のことである。それ故に、こういう史料集や研究書をめぐる状況は、歴史学のような世代をこえた蓄積と伝統の位置が高い学問にとって決定的な問題である。
これを解決するためには、史料刊行機関・出版社による史料集版面画像の公開やできるだけ安価なオンデマンド出版など、学術情報の流通のあり方について抜本的な対策を考えざるをえないだろう。必要な史料集・学術書の出版には、相当な社会的手当がなされるべきものであるとは考えるが、しかし、少なくとも現状の日本社会では、このような問題は、デジタル化をいっそう推し進める方向で解決されるほかはない。歴史学研究者にとって重要なのは、たとえば石田英敬「<人間の知と情報の知>」(『知のデジタルシフトー誰が知を支配するのか』弘文堂、二〇〇六年)が論じているように、このような変化が現代社会の知的生産のあり方の大きな変化と関わっていることの自覚である。また、いわゆる情報化社会の進展の中で、文部科学省の政策が情報化をキーとしており、人間文化研究機構や情報・システム研究機構などの巨大な組織が、それにそって活動している以上、これは好むと好まざるとにかかわらず、一つの必然である。それらの変化を歴史学にとって少しでも有益な方向に導くことが課題となる。それは、たんに歴史学の利害に関わるだけでなく、グローバル化し情報化する社会の中に文化的な成熟を作り出すためにも不可欠である。それが「アーカイヴズ不在」というべき状況を改善し、日本社会の「記憶の構造」を健全化するためにも重要な意味をもつことはいうまでもない。
2データベースから知識ベース・オントロジーへ
個々人の「電子書斎」の中で起きていることの基本は、データベースから知識への移行である。個々人のPCにおいて、ネットワークから落とされたデータベース検索の結果は、すでに一部デジタル形態をとってPCの中に格納されている研究工具によって加工されていく。PCの中で、データベースのcontentsは、分析され、他の関係史料と結合され、様々な文脈(context)の中におかれ、注釈(annotation)を付与されていく。利用可能なデータベースが増大すればするほど、またデジタル形態をとった研究工具が増加し、精度が高まれば高まるほど、分析結果は蓋然性をますことになる。ここでは、そのような史料と史料、事象と事象を結合し、注釈が付され、加工されたデータベースを知識ベースと定義することにする。もちろん、この知識は、個々人のPCの内部に存在する個人的なものであって、しかも研究過程の中間的産物、いわば半製品である。どの学問分野とも同じように、歴史学においても、このような基礎的な分析の上に立って、その先を論理的に推論し、全体を総合して説得的な論文に仕上げるためには、結局、研究者自身の緻密さと独創がものをいう。この最終的な詰めは、「電子書斎」によって代行できることではない。
しかし、このような研究過程で生成された知識は、最終的な論文が出来上がったのちになっても、それ自身で独自の価値をもっている。たとえばネットワークで検索した古文書画像を比較することによって(イ)文書の筆跡と(ロ)文書の筆跡が同一であることが確定できたとする。それは、(イ)文書の筆者の藤原満信と(ロ)文書の筆者の上坂大炊が、実は同一人物であるという事実確定を導く。この人物は姓が藤原、家名が上坂、名前が満信、官途名が大炊という人物であったということになる。そしてさらに(イ)文書に登場するA村にB国C郡という注釈をつけることが可能となるかもしれない。また(イ)に年月日の記載があり、(ロ)になかったとしても、二つの史料が内容的に同一の事件にかかわることが明らかであれば、(ロ)もその作成年月日がわかることになる。このような細かな事実確定は一つの論文、一冊の著書に大量に含まれているものであるが、それは、著書・論文の文脈から離れても独自の価値をもっているのである。
研究素材をデータベースに求める以上、このような知識を個人の頭脳とPCの中にとどめておくだけではなく、整理された電子的な形態をもち、独自に流通し共有される知識ベースとして新たに編成しなおすのが当然の帰結ではないだろうか。こうして作られた知識ベースは個々の論文の検証を容易にし、研究情報の共有を強め、集団的な研究過程を圧倒的に合理化し、そのスピードを高めることになるはずである。もちろん、歴史学のディシプリンは、右に例示した筆跡同定にもとづく考証のような営々たる作業によって確保されている。それは、「神は細部に宿り給う」といわれる通りであって、その重要性が揺らぐことはない。しかし、同じ作業を何人もの研究者が繰り返すことは避けた方がよいのではないだろうか。多くのエネルギーをそれらの細部作業の先に投入できるようになった方がよいのではないだろうか。歴史学にとって細部はどこまでも続くのだから。
二〇年くらい前までは歴史学の研究過程でもっとも時間がかかるのは特定の問題に関わる史料を探索することであった。現在、それはデータベースによって部分的にであれ解消しつつあるが、知識ベースの構築によって、さらにその先に進もうという訳である。そして、このような個人的知識の社会化、知識ベースの形成のために、情報学が用意している技法が、オントロジーと呼ばれるものである。
オントロジー (Ontology) は、哲学用語で存在論のこと。ものの存在自身に関する探究、あるいはシステムや理論の背後にある存在に関する仮定という意味である。これから派生してコンピュータ等でも用いられる。
人工知能分野をはじめとするコンピュータの世界では、「概念化の明示的な仕様」と定義されることがある。
ウェブをはじめとした文書検索において、従来の方法では単語単位での一致か、よくても類義語を含む文書を検索するのが限度であった。ここにオントロジーの概念を導入する。それぞれの文書の内容を説明する意味情報(メタデータ)を各文書に付加し、メタデータを記述する用語を定義する構造を構築する。この構造がオントロジーとなる。
オントロジーを導入することにより、検索対象となる文書が単なる単語の集まりとしてではなく、文書全体で大きな意味を持ったデータとして扱われ、各文書について統一的な付加情報をもたせることができる。これにより、本当に必要な情報を的確に検索することが可能となる。
右はWikipediaからとったオントロジー (Ontology)の定義である。これを先に述べた筆跡同定の例で敷衍すれば、(イ)・(ロ)の二つの史料から形成されるメタデータは、姓=藤原、家名=上坂、名前=満信、官途名=大炊という内容をもち、さらにこの人物の筆跡の画像データが(あるいは存在すれば「花押」も)付加されることになる。そして、こういうannotationがつけば、さらに上坂満信に関係する史料が増えていくかもしれない。こうしていわば個人に関係する史料を総合的に扱うことができるようになる。このような技法がヨーロッパではプロソポグラフィ(個人史的方法)といわれて発展していることは、佐藤彰一氏がグレゴリウスの『歴史十書』の解読を論ずる中で紹介しているところである(同『歴史書を読むーー歴史十書のテクスト科学』(山川出版社、二〇〇四年)。
また(イ)(ロ)の史料に登場するB国C郡A村などの地理情報に同じような操作を加えれば、歴史地名オントロジーが形成できることとなり、それを地理情報システム(GIS)と結びつけてヴィジュアルに提示できれば、考古学・歴史地理学さらには自然諸科学との融合的な研究の地盤を提供できるだろう。そして、(イ)・(ロ)史料の時間軸への定置が可能となれば、詳細な年表から史料本文・画像を検索するというようなことも可能となるに違いない。実際、先述の福井県文書館のHPには詳細な地域史年表が掲載されているが、そこに史料・画像リンクを作るという次のステップは、HPの内容からするとそんなに難しいことではないようにみえる。
このようにして、知識ベースは雪だるま式にふくらんでいくはずである。現在は、その滑り出しの技術的な確定の時期であり、まだ歴史語彙のオントロジーがどのようなシステムとして実装されるのかのイメージを語ることはできない。しかし、それでもこの段階で歴史学研究者の間で十分な議論をすることは無駄ではないのではないだろうか。
ともかく必要なのは、「歴史知識学」を作り出していく上での諸条件、技術的な地盤をサーベイし、当面、どこに力を注いでいくべきかについて、出発点での討議を行うことであろう。その場合、現在データベースを利用している研究者にのぞまれるのは、研究・編纂・教育などの仕事の過程でデータベースを検索するたびに、この検索結果をどのように知識化し、その知識を元のデータベースにどのように戻していくかを考えてみることだろう。おそらく、将来は、論文を執筆した後は、その分析結果を元データベースに戻し、それによって論証を検証し、さらに「学界の共有財産」として確定していくという作業が時代や専門を越えて規範化されることになるのではないだろうか。もちろん、そのやり方は、「古代・中世・近世・近代」などの時代分野や専門ごとで異なっているだろう。右に例示したのは人名・地名・時代などのメタデータのオントロジーに過ぎないが、さらに必要になってくるオントロジーは時代ごとで大きく相違するであろう。そもそも知識ベースのもととなるデータベースそれ自身が時代ごとで内容を異にしている以上、それは当然のことである。しかし、そろそろ知識ベースの構築方針を視野に入れながら、データベースの構築の方針を時代ごとで討議するべき時期に入りつつあるように思う。
3歴史知識学と情報学
歴史知識学(historical epistemology)とは、まずは、このような知識ベースとオントロジーという情報基盤に対応した、歴史学における知識の自己管理システムを意味する。このような役割は、これまで学会・出版社の企画する「通史」や「講座」、そして、以前、東京大学出版会が刊行していた『日本史研究入門』、歴史学研究会が刊行していた『現代歴史学の成果と課題』、そして史学会が毎年編集している『回顧と展望』のような研究史関係出版物などが担っていた。これらの出版物は依然として大きな意味があるとはいえ、歴史知識学は、より客観的に史料にもとづく知識の蓄積状況を総覧する便宜を与えることになるはずである。情報学の支援をうけて知識ベースを可視化することによって、歴史学の蓄積を逐次的・集団的に拡大する条件が生まれる。
この間、歴史学が扱うべき史料の量と質は一路増大している。その中で、とくにグローバルな世界認識と単位社会の微視的な分析の両極を行き来するというようなことを考えると、歴史家集団の共同の中に、歴史知識を情報学的に蓄積し、共有するシステムを確保することが必須となるだろう。それを通じて、歴史知識学が目指すものは、過去の歴史社会がもっていた知識体系の全体を復元することであり、そして、それをコンピュータの内部に移し入れることである。逆にいうと、コンピュータの利用なくして、過去の知識体系の全体を復元し、それを共有することは不可能であろうと思う。
そのためには、まずは右に述べたような、過去の人々にとっての人名・地名・時間などの客体的・対象的な認知に関わる知識を復元しておかなければならない。しかし、史料から読みとることのできる知識はそれだけではない。つまり、史料に表現されている言語・意識は、かならずよりイデオロギー的な知識体系を媒介としているから、史料を本質的に読んでいくためには、史料の内部に影のように存在している知識と記憶の世界を系統的に復元する必要がある。たとえば文献史料にはしばしば儀礼の世界が現れる。史料の相当部分は、何らかの儀礼の場の必要によって作成されているということさえできるかもしれない。たとえば『古事類苑』(礼式部)をみれば明らかなように、儀礼の世界はきわめて多種多様であって、それは当該社会が必要とした恭順の社会意識の総体を表現している。そして、『古事類苑』の構成からみても明らかなように、そのすべての基礎となるのは「敬礼」であり、敬礼の項目には「拝・拍手・拝舞・動座・平伏・目礼・跪・送迎」などの様々な恭順の意識を呼び起こす身体的動作が網羅されている。恭順の意識はこれらの身体的慣行なしには実在しない。問題は、そこでは、恭順の記憶=儀礼の記憶が中核的な役割を果たすことである。その記憶はいわゆる「類書」に記録されて文字化される。そして、類書やそれを生みだす「文庫」などの記憶装置を前提として、儀礼に関わる様々な知識が生産されることになる。
このようにして、知識体系を対象的・客体的な知識のみでなく、その客体化としての儀式(あるいは制度)、記録と記憶装置の最奥にある知識生産の現場にまで踏みこんで全体的に復元し、さらに「知識層」の再生産の構造までをも明らかにしていくのが「歴史知識学」の役割である。もし、これが実現すれば、研究者は、様々な史料を作成した人々のもっていた知識や感情を追体験することが可能となり、史料の向こう側に存在する客観的な歴史世界をのぞき込む「眼」を獲得し、それによって再検証可能な形で、歴史世界の復元に全体性を確保することができるだろう。もし、情報学のいうオントロジーを歴史分野で展開する社会的・経済的・学術的な条件ができれば、たとえば、『古事類苑』の内部に蓄積された「知」の体系をコンピュータの内部に、検索可能なものとして移し込み、知識の内部構造を可視化することができるだろう。そして、逆にそれを参照系として『古事類苑』に集成された個別の史料それ自身の読み直しを可能にし、さらに新しい史料の蒐集と読みを可能とするだろう。
これまでの日本の歴史学界での議論で、歴史知識学の構想にもっとも近いのは名古屋大学の佐藤彰一氏(二一世紀COE「統合テキスト科学の構築」代表)が主唱したテキスト科学であろうか。ここにはヨーロッパ史におけるいわゆる概念史の方法が、さらに具体的に展開した様相を知ることができる。これについては、社会史の研究史的総括にも関わって、しばらく前に「社会史研究から歴史知識学へ」(『メトロポリタン史学』3号、二〇〇七年)で私見を述べたことがあるので、詳細は、それを参照していただければ幸いであるが、要するに、私が強調したいのは、歴史知識学は、この国の歴史学の研究史の中でいえば、いわゆる「社会史」を受け継ぐものであるということである。社会史がもっていた「全体史」への志向は、結局、「見果てぬ夢」に終わったといわざるをえないが、その理由は全体史の方法の意識的な追求が欠如していたことだろう。そこには、社会史的な現象学的方法に多くの歴史家が協力・共同していけば、その向こうに全体史の構築が可能になるに違いないという根拠のない楽観もあったかもしれない。
「歴史知識学」は、史料の内部に影のように存在している当該社会の知識体系の全体を復元するという迂回ルートを設定することによって、全体史を目指そうとするのである。社会史の共通の基礎として史料論があったことはよく知られているが、歴史知識学は、史料の表現の背後にある知識体系に注目することによって、史料論を厳密化し、それによって全体史を目指す方法の一つを作りだそうとする。その点でも社会史に近接した位置をもっているのである。
おわりにーー学術体制と歴史情報
冒頭に述べたようなデータベースの充実をみていると、研究者の間に、将来はすべての史料のフルテキスト・写真を自由に閲覧できるのではないかという夢が生まれるのも自然なことである。しかし、そろそろコンピュータの便利さをただ与えられたものとしてみるのではなく、一つの学問方法論の問題として考える時期がきているのではないだろうか。
さいごに述べておきたいのは、これが歴史学の学術研究体制にとってもきわめて重要になっていることである。普通、史料のデータベース化には特別な人員の手当はなく、ボランタリーな努力の割合が多い。研究者個々人が史料データの電子化のために積み重ねてきた努力は膨大なものがある。しかし、それらを学術体制の問題としてどう考えるかの議論は低調である。私の実感だと、学界の中心となっている人々の間にはいまも大きな意見の相違があり、それを解きほぐすためには、結局、学術会議の再編の前に、日本歴史学協会が総力をあげて取り組んだ「歴史情報資源研究センター」構想に立ち戻って検討せざるをえないようにも思う。
しかし、印画紙の生産が途絶し、すべてがデジタル撮影となる趨勢一つをとってみても、将来の研究者にとって、コンピュータが、いま以上に研究諸条件における主要な問題となるのは目にみえている。そして、コンピュータに史料・研究情報が追加された場合、それをネットワーク共有していく一定のルールを形成し、さらに、発展の一途をたどるに相違ない研究支援システムを共有できる形で作り出し、誰もが平等にアップデートできる状況を準備するというような種類の問題も学界をあげて議論しておいたほうがよいと思う。一〇年後にはさらに膨大なものにふくれあがるに相違ない歴史情報を適切に管理し、公開・平等・共有の原則にそって運用するということは、場当たり的に考えていてよい問題ではない。そして、「公開・平等・共有」ということになれば、我々の先輩たちは、その時代々々の社会的・技術的な条件の中で、せいいっぱい歴史学の原則として追求してきた。それを受け、現在の段階で問題を突きつめることは、少なくとも職業的な立場にある研究者にとっては義務的な問題であろう。たしかに、一九六〇年代以降、史料集の発刊は飛躍的にすすみ、前近代史では相当の史料が活字で読めるようになった。分野によってはそれらを読んでいるだけでも一定の成果を上げることが可能な時代が到来している。しかし、最近の歴史学界は、それに甘えて「史料の公開と共有」という理念を新しい形で根本にすえることをさぼっているところはないだろうか。
なお、さいごにもう一度繰り返すと、コンピュータを単に便利な道具と考えることは、情報学との関係では、歴史学がただ情報学を手段化していることになる。これについても注意を喚起しておきたい。前記の『知のデジタルシフトー誰が知を支配するのか』を一覧してみただけでも、情報学が現代の学問体系の中でカナメともいえる位置をもっていることが理解される。歴史学の側が進んで情報学の方法や問題意識に学び、条理と配慮につらぬかれた学際的な交流と合意を組織できるかどうかは、諸学問の中での歴史学の将来的位置を決定する可能性が高い。それはたとえばアーカイヴズ問題一つをとっても明瞭だろう。現在のところ、情報学の側も歴史学との協同に積極的であるようにみえるから、今がチャンスである。
歴史