一般的な検索機能の利用方法
- 検索したい単語を入力して、「検索」ボタンを押してください。
- 英数字は半角が宜しいですが、カタカナは全角で入力してください。
- 成功すると画面に一覧が出ます。
- その一覧の単語のどれかをクリックすると解説が出ます。
- 検索できるのは辞書の中の「見出し語」のみです。本文は検索対象に含まれていません。
- 検索方法は四種類あります。「含まれる」「完全一致」「先頭一致」「末尾一致」です。
- また、これらの検索方法を随時切り替える「自動」があります。
- トップページからの検索は「自動」です。
- 「完全一致」は完全に一致する見出し語を選出します。
- 「含まれる」は入力語が見出し語の中に含まれるものを選出します。
- 「先頭一致」は見出し語の先頭から一致するものを選出します。
- 「末尾一致」は見出し語の末尾から一致するものを選出します。
- 「自動」は、「完全一致」→「先頭一致」→「含まれる」の順に、一致する語が見つかるまで自動で切り替わります。
システムの詳細
ここから下は、検索システムの詳細について述べています。技術者を対象としています。
システムを構成するプログラム
現在は、次のプログラムによって構成されています。
- 検索機能 (WDIC Voyager)
- 辞書内容の表示機能 (WDIC Explorer)
- カテゴリ分類機能 (WDIC Navigator)
- 辞書グループ一覧 (WDIC Kepler)
- 辞書ファイル一覧 (WDIC Galilei)
- プラグイン情報表示機能 (WDIC Giotto)
- 更新情報表示機能 (WDIC Discovery)
- 人気検索語表示機能 (WDIC Pioneer)
- 索引検索機能 (WDIC Cassini)
- おまかせ検索機能 (WDIC Viking)
- 今日の用語機能 (WDIC Surveyor)
検索機能 (WDIC Voyager)
入力されたキーワードから単語を選出するプログラムです。一般PC用とモバイル用は共用で、同一の実行ファイルによって実現されています。
システムはUnicodeで処理され、UTF-8を符号に用いています。UTF-8を解さない環境へは、シフトJISに変換して出力します。
また、検索キーワードの入力は、ISO-2022-JP、シフトJIS、EUC-JP、UTF-8に対応しています。
現在対応する環境
- パソコン (XHTML) (UTF-8)
- モバイル(PDA等) (HTML) (シフトJIS)
- FOMA iモード (XHTML) (UTF-8)
- 旧iモード (cHTML) (シフトJIS)
- au・WAP2 (XHTML basic) (シフトJIS)
- Vodafone live (HTML) (シフトJIS)
パソコン用環境は、全ての機能が整っています。それ以外の環境では、環境に応じて機能が減っています。
特徴
入力された文字は、同一化処理を施され、検索機能へ送られます。
「同一化」とは、異なる文字ながら、意味する所が同じまたは類似した文字を同一の文字として認識し、検索することで、ヒット率を上げるための機能です。
例えば、ギリシャ文字のⅢと、アイ3個IIIは、同じとして扱います。
漢字でも、簡体字(大陸文字)、繁體字(台湾文字)、朝鮮漢字、越南漢字は、該当する日本漢字に内部変換された後、検索されます。
従って東京を簡体字で东京(一般の日本語環境ではトウの字が表示されないかもしれません)と書いて検索すると、日本語の東京という語が選出されるでしょう。
対応範囲
記号類の同視化
ラテンアフラベットの同視化 (アクセント無視など)
カナの同視化 (濁点・半濁点、小書きの無視、かなカナ同視など)
漢字の同視化 (書体差、異体字の同視)
その他 (アクセント付きギリシャ文字なども対応予定)
制限
この、文字の同一化機能は現在も鋭意開発中の機能です。
対応文字は鋭意増強中ですが、一人で、かつ手作業でやっていますので、非常に時間がかかっています。現在は対応できていない文字も多数あります。ご意見や情報等あれば、メールなりフォームなりで、宜しくお願い致します。
辞書内容の表示機能 (WDIC Explorer)
検索された語の内容を表示するプログラムです。
通常のPC用と、その他では実行ファイルを変えています。通常のPC用は全てをUnicodeで処理しますが、モバイル用はシフトJISへの変換が必要です。大型のUnicode→シフトJISの変換表は、使用するモバイル用のみで使用します。現実に最も利用者が多いPC用CGIで、この表を省くことで、省エネを実現しています。
内部処理の大雑把な説明
まず、人間が記述した基礎知識V6フォーマットを、専用コンパイラを利用してバイナリ辞書形式(以下、DBF)にコンパイルし、これをWebサーバへアップロードします。WDIC Explorerは、そのDBFを解読して表示するインタプリタです。
このプログラムにURLとして与える情報は、辞書グループ名と単語見出しであり、常にUTF-8で符号化されています(モバイル用も)。
URL
URLは、英数字はそのまま与えます。
記号類、英数字以外の文字は、UTF-8で符号化したものを %xx 形式に符号化して表現します。
次の文字は例外として、特殊な符号化を行ないます。
- . (ピリオド) → %%EF%%BC%%8E
- / (スラッシュ) → %%EF%%BC%%8F
- % (パーセント) → %%EF%%BC%%85
スペースは現在、%20 と符号化していますが、これは近い将来の仕様変更を考えています。
カテゴリ分類機能 (WDIC Navigator)
通信用語の基礎知識は、各単語を、階層構造を持ったカテゴリとして分類、管理しています。
このプログラムは、それを表示するものです。
画面は2ペインに分けられ、左にカテゴリの階層表示、右に指定したカテゴリに含まれる単語の見出し語が表示されます。
現在は、パソコンでのみ利用できますが、将来的にはモバイルにも対応する予定です。
辞書グループ一覧 (WDIC Kepler)
通信用語の基礎知識は、8つの「辞書グループ」という枠組みで構成されています。
各辞書グループには、複数の辞書ファイルが含まれます。
単語の見出し語は、各辞書グループ単位で重複しないよう管理されていますが、異なる辞書グループでは重複することもあります。
なぜならば、辞書グループが異なれば執筆・編集のコンセプトが異うからです。参加するメンバーも違っています。
この、現在ある辞書グループを一覧するのが、このプログラムです。
さらに、各辞書グループに含まれる辞書ファイルも一覧できます。
辞書ファイルに含まれる単語の一覧は、次のWDIC Galileiが受け持ちます。
辞書ファイル一覧 (WDIC Galilei)
各辞書ファイル中に含まれる単語を一覧します。
プラグイン情報表示機能 (WDIC Giotto)
通信用語の基礎知識は、本文以外のファイル、例えば画像や音声などを、本文に対するプラグインであるとして管理しています。
プラグインファイルは、「辞書グループ」単位で管理されます。
このプログラムは、各「辞書グループ」に属するファイルを一覧し、必要に応じてその説明を表示する機能を有します。
管理方法等の懸案
現在は、辞書グループの直下に、各ファイルを置いていますが、グループによってはファイルが多くなっています。
そこで何らかの方法で、整理する必要があるかと考えております。
更新情報表示機能 (WDIC Discovery)
通信用語の基礎知識は、日々更新されています。
ここ最近で更新された単語を一覧表示します。
人気検索語表示機能 (WDIC Pioneer)
通信用語の基礎知識で、検索結果が表示されたものについて、自動で集計し、その結果を翌日に全世界に発表しております。
索引検索機能 (WDIC Cassini)
通信用語の基礎知識の各単語は、50音、ABC、記号、数字等で内部管理されています。
辞書グループを意識することなく、これら頭文字のみで単語を一覧できます。
おまかせ検索機能 (WDIC Viking)
乱数により、適当に単語を表示します。
今日の用語機能 (WDIC Surveyor)
通信用語の基礎知識は現在、「事件・出来事」「誕生日」「忌日」「記念日」という四つのカテゴリで、各単語の日付情報を管理しています。
その日付に関連する単語を見ることができます。