masao/fuwatto

View on GitHub
help.hikidoc

Summary

Maintainability
Test Coverage
title: ふわっと関連検索とは
date.available: 2010-03-14
date.modified: 2015-02-10

{{include 'links.hikidoc'}}

{{toc( "目次" )}}

!!ふわっと関連検索とは?

任意のテキストを対象に、文書類似度を使って文献検索できるツールです。
いまのところ、CiNiiやNDL PORTAなどを対象にした文献検索を用意しています。
また、外部のサイト上からも簡単に呼び出せるようにAPIにも対応しています。

詳細は下記の論文をご覧ください。
*高久雅生, 江草由佳: [[セレンディピティを促す論文検索ツール 「ふわっと関連検索」|http://www.dl.slis.tsukuba.ac.jp/DLjournal/No_38/5-takaku/5-takaku.pdf]]. 第38回ディジタル図書館ワークショップ; 秋葉原, 東京; ディジタル図書館; no.38; pp.35-41; 2010-03. ([[発表スライド|http://masao.jpn.org/pub/2010/dlw38-fuwatto-slides.pdf]])
*高久雅生, 江草由佳: [[簡易類似文書検索手法「ふわっと関連検索」の評価と予備的分析|http://masao.jpn.org/pub/2010/IPSJ-IFAT10099014.pdf]]. 情報処理学会 第150回データベースシステム・第99回情報基礎とアクセス技術 合同研究発表会; 青山学院大, 東京; 6p. 2010-08. ([[発表スライド|http://masao.jpn.org/pub/2010/ifat99-fuwatto-slides.pdf]])
*Masao Takaku, Yuka Egusa: Simple Document-by-Document Search Tool “Fuwatto Search” using Web API. The 16th International Conference on Asia-Pacific Digital Libraries (ICADL); Chiang Mai, Thailand; Lecture Notes in Computer Science (LNCS); vol.8839; pp.312-319; (2014-11); http://dx.doi.org/10.1007/978-3-319-12823-8_32

!!検索できるデータベースは?

2014年11月現在、検索対象データベースは、
[[CiNii|http://fuwat.to/cinii]],
[[NDLサーチ|http://fuwat.to/ndl]],
[[レファ協|http://fuwat.to/crd]],
[[教育研究論文索引|http://fuwat.to/epi]],
[[一橋大学OPAC|http://opac.lib.hit-u.ac.jp]],
[[WorldCat|http://fuwat.to/worldcat]]
に対応しています。

今後、API対応されているものを中心に増やしていく予定です。
ご希望のデータベース等がありましたら、ぜひ[[ご連絡ください|mailto:tmasao@acm.org]]。

!!ソースコードは公開されていますか?

本システム全体のソースコードは https://github.com/masao/fuwatto にて公開されています。

!!いま使っているデータベースでも、「ふわっと○○関連検索」してみたい

[[OpenSearch|wikipedia:OpenSearch]]や[[SRU|http://kaede.nier.go.jp/wiki/?SRU+Version+1.2+Specifications]]などの検索用APIに対応したものでしたら、すぐに追加できます。
追加したいデータベースの検索方式などの情報を添えて、ご連絡いただければ幸いです。

また、一橋大学OPACなどのように、API非対応システムであっても、スクレイピングなどの手法によって対応させることも可能です。
まずはご相談いただければ幸いです。

もしくは、[[Github|https://github.com/masao/fuwatto]]にて公開しているコードに改変を入れて使っていただいても構いません。

!!検索結果の並び順は?

2010年3月現在、データベース検索サイト上での標準の並び順に若干の修正を加えたものとなっています。
たとえば、CiNii論文データベースの場合は日付順が標準の並び順であるため、おおむね日付の新しいものが上位に並ぶことが前提となっています。

今後、よりテキストに類似した文書を上位に返すよう、改良していく予定です。

!!もっと簡単に使うには

外部のサイトなどから、ふわっと関連検索の検索結果に簡単に飛んで来ることができるようにするブックマークレットやブログパーツなどを用意しています。

!!!ブックマークレット

以下のリンクURLをブックマークに追加することで、あとはそのブックマークリンクをクリックするだけで、いま見ているページを対象に、ふわっと検索できます。

* [[ふわっとCiNii関連検索|javascript:location.href='http://fuwat.to/cinii?url='+encodeURIComponent(location.href)]]
* [[ふわっとNDL関連検索|javascript:location.href='http://fuwat.to/ndl?url='+encodeURIComponent(location.href)]]
* [[ふわっとWorldCat関連検索|javascript:location.href='http://fuwat.to/worldcat?url='+encodeURIComponent(location.href)]]

!!!自分のWebサイトで使うには?(ブログパーツ)

ご自分のWebサイトのページ内に、以下の4行のHTMLをブログパーツとして貼りつけることで、そのページの内容に関連した文献検索結果をいつでも表示することができます。

 <script src="http://fuwat.to/api/widget.js" type="text/javascript" charset="utf-8"></script>
 <script type="text/javascript">
 fuwatto_widget({});
 </script>

表示される件数や、幅や高さなども選ぶことができます。
[[ブログパーツ貼り付け支援ツール|./widget-helper.html]]もご利用ください。

!!開発者向けAPIの提供

JSON形式で検索結果を取得できるAPIを利用できます。

通常の検索結果画面のURLに、{{code 'format=json'}} パラメータを加えてください。
コールバック関数は、{{code 'callback=callback'}} パラメータで指定することができます。

* 例: [[http://fuwat.to/cinii?url=http%3A%2F%2Ffuwat.to%2Fcinii;format=json]]
返ってくるJSON形式のデータはたとえば以下のようなデータ形式となっています:
 {
  "totalResults":36,
  "link":"http://ci.nii.ac.jp/opensearch/search?q=%E8%A8%98%E4%BA%8B%20%E7%A4%BE%E8%AA%AC",
  "q":"\u8a18\u4e8b \u793e\u8aac",
  "count":3,
  "page":0,
  "additional_keywords":[],
  "database":"cinii",
  "searchTime":"0.26",
  "entries":[
   {"publicationName":"\u8a00\u8a9e\u6587\u5316\u5b66\u7814\u7a76",
   "title":"\u793e\u8aac\u8a18\u4e8b\u306b\u304a\u3051\u308bpositive politeness strategies",
   "publicationDate":"2009/3",
   "url":"http://ci.nii.ac.jp/naid/40016663467",
   "author":"\u7a32\u6c38, \u77e5\u4e16"},
   {"publicationName":"\u96fb\u5b50\u60c5\u5831\u901a\u4fe1\u5b66\u4f1a\u6280\u8853\u7814\u7a76\u5831\u544a. TL, \u601d\u8003\u3068\u8a00\u8a9e",
   "title":"\u65b0\u805e\u8a18\u4e8b\u306e\u610f\u898b\u62bd\u51fa\u306e\u305f\u3081\u306e\u611f\u60c5\u8a9e\u8f9e\u66f8\u306e\u6709\u52b9\u6027\u306b\u95a2\u3059\u308b\u8003\u5bdf(\u601d\u8003\u3068\u77e5\u8b58\u691c\u7d22\u30fb\u7372\u5f97, \u4e00\u822c)",
   "publicationDate":"2007-12-07",
   "url":"http://ci.nii.ac.jp/naid/110006549600",
   "author":"\u56db\u5bae, \u745e\u7a42; \u4e09\u54c1, \u8ce2\u4e00; \u571f\u5c4b, \u8aa0\u53f8; \u4efb, \u798f\u7d99"},
   {"publicationName":"\u60c5\u5831\u51e6\u7406\u5b66\u4f1a\u7814\u7a76\u5831\u544a. \u81ea\u7136\u8a00\u8a9e\u51e6\u7406\u7814\u7a76\u4f1a\u5831\u544a",
   "title":"\u547d\u984c-\u30e2\u30c0\u30ea\u30c6\u30a3\u69cb\u9020\u306b\u5bfe\u5fdc\u3059\u308b\u968e\u5c64\u69cb\u9020\u306e\u89e3\u6790(\u8a00\u8a9e\u30e2\u30c7\u30eb\u30fb\u5fdc\u7528)",
   "publicationDate":"2007-03-28",
   "url":"http://ci.nii.ac.jp/naid/110006248070",
   "author":"\u5c0f\u6a4b, \u6d0b\u5e73; \u5742\u91ce, \u9054\u90ce"}]
 }

!!名前の由来

ズバッと検索結果を得るのではなく、検索結果をみながら、次の着想を考える使いかたをして欲しいという思いから、「ふわっと」と名付けました。
連想検索的な関連文献の探索にうまく活用いただければ幸いです。

!!謝辞

本ツールの作成には、下記のサービス、ツール群を利用させていただいています。
ここに記して感謝申し上げます。

*[[論文検索サービスCiNii|http://ci.nii.ac.jp]]: CiNii APIを全面的に利用させていただいております。
*[[形態素解析エンジンMeCab|http://mecab.sourceforge.net]]: 特徴語の抽出のために利用させていただいております。
*[[Webページからの本文抽出モジュールextractcontent.rb|http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html]]: Webページからのテキスト抽出のために利用させていただいております。

また、下記サービスは、本サービスの着想にあたって拝見し、ヒントとさせていただきました。記して謝意を示したいと存じます。(順不同)
*[[論文ったー|http://twitter.com/ronbuntter]], [[Webcat Plus|http://webcatplus.nii.ac.jp]], 宮崎大学におけるOPACとJuNii+のマッシュアップ事例([[DRFIC 2008 ポスター発表|http://ir.library.osaka-u.ac.jp/meta-bin/mt-pdetail.cgi?smode=1&edm=0&tlang=1&cd=00028044]] (2008-12) / 『大学の図書館』 Vol.27, No.7, pp.145-146, 2008-07 / 『[[九州地区大学図書館協議会誌|http://www.lib.kyushu-u.ac.jp/qkyogikai/qkyogikai/qkyo_kaishi/qkyogikai_kaishi.html#no50]]』 No.50, pp.13-15, 2008-03)

本サービスの研究開発の一部は、科学研究費補助金若手研究(B)(課題番号:[[20700228|http://kaken.nii.ac.jp/ja/p/20700228]])「マッシュアップを想定した複数教育コレクション提供サービスについての研究」(研究代表者: [[江草由佳|http://www.nier.go.jp/yuka/]])の助成による成果です。