2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

オープンソースの全文検索ソフト

1 :はるお:02/11/01 03:28 ID:5yfQC/Z+.net
オープンソースの全文検索エンジン全般を扱うスレッドです。

ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。

Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/

Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/

関連スレッド
全文検索ユーティリティ統一スレッド
http://pc.2ch.net/test/read.cgi/bsoft/1006680403/
 ビジネスソフト板のスレッドです。
 主に Windows のパッケージソフトについてのようです。

Microsoftの全文検索ソフト(Indexing Service等)
http://pc3.2ch.net/test/read.cgi/win/1035387243/


2 :はるお:02/11/01 03:29 ID:5yfQC/Z+.net
Namazu は専用スレがあります。
Namazu 固有の話題はそちらの方がいいでしょう。
他の全文検索エンジンとの比較などはこちらのスレが良いかも。

【UNIX板】全文検索エンジンNamazu
http://pc.2ch.net/test/read.cgi/unix/1009715036/

【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/

【Webプログラミング板】Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/
【Webプログラミング板過去スレ】Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/perl/981352718/

3 :はるお:02/11/01 03:32 ID:5yfQC/Z+.net
オープンソースに限りませんが、全文検索ソフトのリストがこちらにあります。

日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html

THX to 馬場さん@宇物

4 :login:Penguin:02/11/01 03:32 ID:SkScjhB+.net
>>1 スレ立てありがとうございました。

5 :分かち書き、形態素解析など:02/11/01 03:50 ID:SkScjhB+.net
Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。

KAKASI - 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/

Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/

○参考リンク
 日本語全文検索での索引作成・検索アルゴリズム
 http://www-6.ibm.com/jp/software/data/cm/txt.html
 ASCII24 デジタル用語辞典 - 形態素解析
 http://yougo.ascii24.com/gh/60/006070.html

6 :login:Penguin:02/11/01 04:31 ID:pQeeFyf7.net
渋さの漂うスレですな。

7 :Snatcher:02/11/01 11:39 ID:SkScjhB+.net
Snatcher Full-text Search System ver. 3
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher.html (English)
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html (Japanese)
Copyright (c) 2002 Mikio Hirabayashi. All rights reserved

概要(上記サイトより引用)
Snatcherは、全文検索システムです。

GoogleやAltaVistaをご存じの方は、それが個人向けに簡単になったものだと思ってください。
検索フォームに検索語を入力すると、その語を含む文書の情報を一覧することができます。
検索結果は、該当文書の検索条件への適合度(スコア)の順で、文書の要約とともに表示されます。
Snatcherは、中規模(文書数100000、総容量1GB程度まで)のWebサイトやファイルサーバでの運用に適したシステムです。
それ以外に、メールボックスやオンラインマニュアルの検索にも使うことができます。

8 :日本語を飛ばす:02/11/01 11:44 ID:SkScjhB+.net
入力ファイルから日本語部分を削除するのに使えそうな方法。
【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/357n

Namazu, Snatcher などでは日本語を扱うことができます。
しかし多くのオープンソースの全文検索ソフトでは日本語を適切に扱うことができません。
無理やり日本語ファイルをインデックス化すると、
2バイトコードのかけらなどを単語として認識してしまい、
インデックスファイルのサイズが異常に大きくなってしまうことがあります。

9 :ファイル形式の判別:02/11/02 07:35 ID:0CRm6865.net
ファイル形式の判別には、拡張子あるいはパス名と正規表現のマッチングで行っているものが多いようですが、
Namazu など Perl ベースで書かれているものは File::MMagic を使っているようですね。

http://search.cpan.org/dist/File-MMagic/

10 :mknmz w/kakasi:02/11/02 07:38 ID:0CRm6865.net
Namazu の mknmz で ~/Mail/inbox をインデックス化してみました。
分かち書きには kakasi -w を使っています。

[Append]
Date: Fri Nov 1 21:02:37 2002
Added Documents: 981
Deleted Documents: 2
Size (bytes): 10,434,220
Total Documents: 981
Added Keywords: 61,229
Total Keywords: 62,044
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 447
File/Sec: 2.19
System: linux
Perl: 5.006001
Namazu: 2.0.10


real 7m28.223s
user 1m57.340s
sys 0m3.600s

11 :mknmz w/kakasi:02/11/02 07:43 ID:0CRm6865.net
できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。

12 :login:Penguin:02/11/02 23:47 ID:Q0PKCF3m.net
>>5 こんなのも。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Mhttp://cl.aist-nara.ac.jp/~taku-ku/software/mecab/

C++ で書かれていて ChaSen よりも高速らしい。
他言語への binding も豊富。


13 :login:Penguin:02/11/03 01:35 ID:RjWYQ8zV.net
>>12
情報ありがとうございます。
しばらく namazu をいじってました。
独自フィルタを作る方法を知りたくって。

namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/

14 :Windows で namazu w/chasen:02/11/03 14:12 ID:RjWYQ8zV.net
Windows で namazu + chasen を使ってみました。
namazu も chasen もそれぞれ Windows 用バイナリが用意されているのですが、
組み合わせて使おうとすると cygwin 上でソースからコンパイルしたものが必要です。

Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/99-102

15 :げた:02/11/08 20:25 ID:vI4VdcAe.net
こんなの、どーよ? http://geta.ex.nii.ac.jp/

16 :login:Penguin:02/11/08 23:46 ID:Vj9mwabw.net
namazu + kakashi/chasen で決まりでしょう。
んでもってapache上でnamazu.cgi動かす。

glimpseって有料じゃなかったかな?
ht://dig は日本語とおらないし。

17 :login:Penguin:02/11/18 18:35 ID:X0ZKDOJf.net
ねえ、日本語ってどう処理すればいいの?


18 :login:Penguin:02/11/29 19:22 ID:W9UR7pDn.net
保全age

19 :login:Penguin:02/12/07 20:28 ID:pomc3oIV.net
>>15 GETA って scheme や Haskell との interface も考えてたりして、 ちょっとマニアックかも

20 :login:Penguin:02/12/07 20:36 ID:HFsFibSk.net
>>17
まず形態素解析器で形態素を解析します。(Chasen, Juman, MeCab)
その後、必要であれば、どの文節がどの文節に係っているか(係り受け構造)を構文解析器にて、解析します。(CaboCha, KNP)
構文解析器に関しては、以前はKNPが良く利用されていたようですが、最近は CaboCha が良く使われるようです。
# SVM を使用していて精度が高い (らしぃ

21 :login:Penguin:02/12/10 18:32 ID:znz9dPLe.net
>>19
FreeBSDをベースに開発している所からしてマニアックdayo!

22 :login:Penguin:03/01/06 11:24 ID:UrJ5pa0Z.net
ひさびさにmknmzちう...たぶん今日中にはIndexができているだろう。

@@ Processing gzip file ... (using Compress::Zlib)
70/27876 - /usr/share/doc/HOWTO/en-txt/Encourage-Women-Linux-HOWTO.gz [text/plain]
71/27876 - /usr/share/doc/HOWTO/en-txt/Enterprise-Java-for-Linux-HOWTO [text/plain]
@@ モジュール: html.pl
@@ Processing html file ...
72/27876 - /usr/share/doc/HOWTO/en-txt/Esperanto-HOWTO [text/html]
@@ モジュール: gzip.pl
@@ Processing gzip file ... (using Compress::Zlib)
73/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-Bridge-netfilter-HOWTO.gz [text/plain]
74/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-HOWTO [text/plain]
インデックスを書き出しています...



23 :22:03/01/06 20:10 ID:UrJ5pa0Z.net
所要時間 8.5h でした。

インデックスを書き出しています...
[追加]
日付: Mon Jan 6 19:44:54 2003
追加された文書の数: 22,453
削除された文書の数: 2,890
更新された文書の数: 4,916
サイズ (bytes): 275,352,781
合計の文書数: 40,141
追加キーワード数: 840,373
合計キーワード数: 2,874,103
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 30,674
ファイル/秒: 0.89
システム: linux
Perl: 5.006001
Namazu: 2.0.12


24 :IP記録実験:03/01/08 22:16 ID:1aQvEFST.net
IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/

1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。

27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?

38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。

73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。

25 :login:Penguin:03/01/09 01:04 ID:/apFqchb.net
>>292
>245
>働かざるもの食うべからず。
ということで、ひろゆきちゃんが保存(w

26 :login:Penguin:03/01/09 01:21 ID:/apFqchb.net
>>417
一人釣れたようだぜにょろゆき

27 :login:Penguin:03/01/09 01:31 ID:/apFqchb.net
ひろゆきさまお疲れ様また会える日まで

28 :IP記録実験:03/01/09 01:50 ID:Dz4fYJvb.net
IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/

1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。

27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?

38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。

73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。

29 :login:Penguin:03/01/09 01:54 ID:d0cXwiPT.net
ウェー、ハッハッハ・・・

30 :login:Penguin:03/01/09 02:51 ID:OELvwRgE.net
2chは全部IP表示すればよい

31 :login:Penguin:03/01/09 03:38 ID:Oi0l0YhT.net
>97
2chやってるからヒッキーって責任転嫁が既に敗北者っぽ・・。

32 :山崎渉:03/01/15 11:31 ID:1ScAb3I5.net
(^^)

33 : :03/02/14 02:48 ID:yOCzfEHx.net
さげ。

34 :名無しさん:03/02/14 11:13 ID:s4GMqEbm.net
あげ


35 :まだ:03/03/06 10:59 ID:mrm4C4l+.net
原田さんの(odinじゃないやつ)http://www.ingrid.org/~harada/interface/

36 :login:Penguin:03/03/10 05:58 ID:VCHTEZag.net
QDBMあげ

37 :login:Penguin:03/03/10 12:25 ID:Cm3DFCUM.net
http://hoshizawa.no-ip.com/suzaku/index.html

これみたいにロボットとセットになったやつって他にないかな。


38 :login:Penguin:03/03/21 11:17 ID:9uzpbSgm.net
ニヤニヤ(・∀・)

39 :::03/03/21 23:46 ID:6Xhmaxhe.net

☆^〜^★「探し物とくとくページ」☆^〜^★
http://sagatoku.fc2web.com/
あなたの探し物きっとみつかります
ほぼ毎日 新着情報追加 毎日更新
新着情報メールでお知らせ




40 :login:Penguin:03/03/23 18:06 ID:Aoy2Ct4d.net
QDBMいいね。http://qdbm.sourceforge.net/
結構簡単に全文検索エンジン作れそう。

41 :m:03/03/23 18:08 ID:pov0GUBD.net
★男はココを見るべし★女と金とサンプルムービー★
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
http://www.pink-angel.jp/betu/linkvp2/linkvp.html

42 :bloom:03/03/23 18:17 ID:hb8bnSbL.net
http://www.agemasukudasai.com/bloom/

43 :login:Penguin:03/03/25 00:52 ID:i/ojTHMN.net
>>40
perlの言語バインド希望

44 :山崎渉:03/04/17 12:12 ID:KRn99/cy.net
(^^)

45 :山崎渉:03/04/20 06:08 ID:xFRXxEWb.net
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

46 :login:Penguin:03/05/12 02:28 ID:1dXZEKLq.net
age

47 : :03/05/16 10:37 ID:tW1PLSeb.net
良スレあげ。

48 :login:Penguin:03/05/17 01:08 ID:q+FK6nq4.net
http://mnogosearch.org/doc/msearch-cjk.html
( ´_ゝ`)フーン

49 :動画直リン:03/05/17 01:12 ID:DOs9rrBP.net
http://homepage.mac.com/hitomi18/

50 :login:Penguin:03/05/17 01:51 ID:QFNLcpTk.net
糞スレsage

51 :login:Penguin:03/05/18 21:04 ID:O2VOjsal.net
>>43
Perl用APIあるみたいよ。

52 :動画直リン:03/05/18 21:12 ID:pMLvChGr.net
http://homepage.mac.com/hitomi18/

53 :login:Penguin:03/05/18 22:35 ID:HWT5FF0a.net
おい、聞いてくれ!
リナックス板の自治厨が、一切規定に反していない
ディストリスレを、通告もなく一方的に削除しやがった!
これは、そのディストリを発売した会社に対する
侮辱であり、1の言論の自由を侵害し
ユーザーに対する差別的行為だ!
まじで、どうにかしてくれ!
2ちゃんねるは、削除人が横暴すぎる!
革命を起こそう!正常化を図るのだ!
                         

54 :login:Penguin:03/05/18 23:15 ID:zVhF4GzV.net
>>51
Ruby用APIも入ったみたいだね。
あとメジャーどころでサポートされていないのは
PHPとPythonくらいか。

55 :山崎渉:03/05/22 01:54 ID:p4opmoqv.net
━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―

56 :login:Penguin:03/05/25 14:46 ID:9kb89l38.net
保存age

57 :山崎渉:03/05/28 16:51 ID:3t6i6zxR.net
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉

58 :山崎 渉:03/07/15 11:33 ID:doz396Fq.net

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

59 :ぼるじょあ ◆yBEncckFOU :03/08/02 05:28 ID:GfRe8vK7.net
     ∧_∧  ∧_∧
ピュ.ー (  ・3・) (  ^^ ) <これからも僕たちを応援して下さいね(^^)。
  =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
  = ◎――――――◎                      山崎渉&ぼるじょあ

60 :login:Penguin:03/08/03 21:51 ID:fPpEk/oO.net
  ( ・∀・)   | | ガッ
 と    )    | |
   Y /ノ    人
    / )    <  >__Λ∩
  _/し' //. V`Д´)/
 (_フ彡        /  ←>>57-59

61 :login:Penguin:03/08/03 21:55 ID:fPpEk/oO.net
http://slashdot.jp/journal.pl?op=display&uid=64&id=145402

mnoGoSearchがChaSen使えることは知っていたけど、MeCabにも
対応してたのか...


62 :山崎 渉:03/08/15 23:03 ID:dil3w4kp.net
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

63 : :03/08/27 13:44 ID:6MpoQSIc.net
保守

64 :保守:03/09/20 20:35 ID:QpTH45NV.net
>>15
8/28 に GETA の微修正があったらすぃ

65 :login:Penguin:03/09/20 22:25 ID:Qruzqufd.net
外国産検索ソフトを日本語化してるようなプロジェクトって無いの?

66 :login:Penguin:03/09/20 22:27 ID:y66iMG8F.net
>>65
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/index.html

67 :login:Penguin:03/09/25 16:55 ID:FN6PNMc8.net
(・∀・)renice!

68 :login:Penguin:03/10/12 21:26 ID:cR8wVZot.net
grep使え

69 :login:Penguin:03/10/20 12:05 ID:KAqZYR1T.net
Snatcher Full-text Search System
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html

これ使ってる人いる?

70 :login:Penguin:03/10/23 14:26 ID:SeSnO0ZE.net
んで、何でこのスレがLinux板なの?

71 : :03/10/23 14:53 ID:2ObLOFqo.net
>>70 ほかに適当な板が無かったから…
あと、ビジネスソフト板とウィンドウズ板にはすでにスレッドがあったけど、
そっちはパッケージソフトの話題がメインだったから。

72 :login:Penguin:03/10/23 21:52 ID:mpkZUnH9.net
>>69
それの後継が出たみたいよ。日本語には対応してないっぽいが
http://qdbm.sourceforge.net/cgi-bin/qfts.cgi

73 :login:Penguin:03/10/24 00:10 ID:vQ8fcb8K.net
ソフトウエア板を知らないのか?

74 :login:Penguin:03/10/24 00:50 ID:06+8iSEx.net
ソフト板に立てたら、オープンソースという言葉だけで変なのが沸いてくるよ。

75 :login:Penguin:03/10/24 03:35 ID:1jt/WYmb.net
なぜ Unix 板じゃないのか、と。

76 :login:Penguin:03/10/24 20:48 ID:6ND9YDuW.net
インデックス作るのが面倒なんでインデックス作らないソフトでのお勧めは何ですか?

77 :login:Penguin:03/10/24 21:03 ID:FDJAXhV8.net
grep

78 :login:Penguin:03/10/24 21:15 ID:qnB5L9GH.net
migemo


79 :login:Penguin:03/10/25 16:29 ID:G0KBMFW/.net
QDBM日本語化期待あげ

80 :login:Penguin:03/12/04 19:59 ID:nE27Bo0X.net
Snatcherの掲示板より

> とりあえず、QDBMの全文検索機能を日本語化しただけのものを作ってみました。
> 以下の場所に置いてあります。
>
> http://estraier.sourceforge.net/

全然気がつかなかったけど、キテタ━━(゚∀゚)━( ゚∀)━(  ゚)━(  )━(  )━(゚  )━(∀゚ )━(゚∀゚)━━!!!!!

81 :login:Penguin:03/12/17 15:15 ID:jszsTTTz.net
もつかれさん

82 :login:Penguin:03/12/24 03:38 ID:OxnB4HEQ.net
>80
人柱&報告よろ。

83 :login:Penguin:04/01/03 20:35 ID:8l191Pw0.net
うへ、QDBMもEstraierもリリース頻繁杉…
いや、まあいいことなのかもしれないけど、人柱になるのも大変だな。

84 :login:Penguin:04/01/04 00:41 ID:IhVjMv+b.net
とか言ってる間にもまた新しいバージョン出てるし。
ハングルの需要とかあんのか?

85 :login:Penguin:04/01/04 14:26 ID:cMFZ5pqM.net
> ハングルの需要とかあんのか?

少なくとも日常的にハングルの読み書きをしている人たちには
需要はあるんじゃない?

86 :login:Penguin:04/01/04 18:08 ID:YeVwrTI/.net
mhtに対応してほしいところだな。

87 :login:Penguin:04/01/15 15:51 ID:4hNsgU5V.net
>>86
もう対応したらしい。早っ!

88 :login:Penguin:04/02/14 11:46 ID:ZilSN3qC.net
Snatcher掲示板がなくなっとる。_| ̄|◯

89 :login:Penguin:04/02/15 01:33 ID:0Iqfu11q.net
Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。

90 :login:Penguin:04/02/15 08:15 ID:z0/wDnUA.net
msearch使ってるひといる?
namazuより導入簡単だしカスタマイズも簡単だし。

91 :login:Penguin:04/02/15 13:11 ID:z+Cgu3BW.net
>1 は、「全文検索」と「Index検索」を間違えてないか?
namazuは全文検索じゃないぞ。

スレタイ見たときに、「grepの話か?」と思ったんだが。

92 :login:Penguin:04/02/15 13:15 ID:NZlEcpUW.net
うわあ……サムイやつが出現したな……

93 :login:Penguin:04/02/15 13:41 ID:yQb5nWSx.net
>>91は日経Linuxのアレな記事を鵜呑みにしているアフォ。
平河町の書き換えも困ったものだ。

94 :login:Penguin:04/02/15 14:49 ID:QIqnUolY.net
>>93
で、全文検索の正確な定義って何?
俺は当時あの記事みて考え込んだYO

95 :login:Penguin:04/02/15 20:28 ID:Ww9oGBM3.net
全文検査君ソフト

96 :login:Penguin:04/02/16 01:48 ID:byAKcKCV.net
記事のことは知らんけど、
ファイル名や更新日などから特定のファイルを見つけ出すのと違って、
ファイルの内容からキーワードを拾ってファイルを探すのが全文検索。
全文検索にとってINDEX検索とは、検索の一手段ということになる。
って感じか。


97 :94:04/02/16 08:33 ID:jsLgsjIe.net
>>96
その定義だと「全文」の言葉を使うのはおかしいんでねーの?
むしろ「ファイル検索」というのがふさわしいと思う
あくまでテキストすべて(全文)を検索するから「全文検索」じゃないの?
だったらやっぱりINDEX検索だけだと全文検索の要件を満たさないと思うなー
NamazuがINDEX検索だけなのかどうかは分かりませんが

98 :login:Penguin:04/02/16 09:17 ID:/jHxVGIA.net
ナンセンスな方向に逝く悪寒...

99 :login:Penguin:04/02/16 09:24 ID:R6980Jy2.net
インデックスを作るにあたって記事の全文を対象にしてるわけだから、全文検索と言えるでしょ。
やたら狭義に解釈してもしょうがない。

100 :94:04/02/16 09:28 ID:jsLgsjIe.net
>>99
INDEX作成はNamazuだと自立語だけしか対象にしないんじゃない?
それって全文対象と本当に言えるのかね
例えば「萌え語INDEX」を作って検索したとしても全文検索?

101 :login:Penguin:04/02/16 10:07 ID:fwCweVDc.net
>>100よくわからんが grep なら全文検索なのか?namazuは中身を区切ってindex作って検索するから全文検索ではないと?

102 :login:Penguin:04/02/16 11:02 ID:oD1epa/W.net
語の境界を無視するような検索がしたいときに悲しいとか、そういう話かな…
Namazu は二語のフレイズ検索には対応してて、三語以上は誤認識が入るってことみたいだけど。

103 :94:04/02/16 11:10 ID:jsLgsjIe.net
>>101
とりあえずgrepは全文検索だよね。指定したファイルについては
全文をだーっとナメてるわけだから
だけどそれだと検索時間がかかるから、いわゆる全文検索ソフトは色々工夫をしてる
そのひとつがINDEX作成なわけですよね
で、私が思ったのは、その工夫によって「全文をナメる」のと違う結果(検索洩れとか)
が出るようなのは「全文検索ソフト」とは言えないんではないかってことです
先に挙げた「萌え語INDEX」は極端な例に見えるかもしれないけど
俺としては「自立語INDEX」(かどうかは知らんですが)も「全文をナメるのとは違う」
って意味では同じだと思う

>>102
フレイズ検索云々を意識しなければならない点で変な気がします
もちろん実用的には問題ないと思っていますし、Namazuは良いソフトとも思いますが
grepで検索するときって、フレイズ検索とか意識しませんよね?




104 :login:Penguin:04/02/16 11:16 ID:fLalTCNO.net
>フレイズ検索云々を意識しなければならない点で変な気がします
日本語で分かち書き処理しないでどうやって処理するの?

105 :94:04/02/16 11:29 ID:jsLgsjIe.net
>>104
分かち書きは全文検索に必須ではないですよ
N-gramとか他にも方法はあるかと



106 :login:Penguin:04/02/16 12:34 ID:/jHxVGIA.net
それを検索に使うと効率が悪いように思えるんだが、どうよ?
ttp://www.ya.sakura.ne.jp/~moro/resources/ngram/

107 :login:Penguin:04/02/16 12:46 ID:+Ig7jOcp.net
N-gramって海外ではむしろ言語及び文字セットの判別の方で
よく使われているような気がする。mnoGoSearchのところの
mguesserとか。

108 :94:04/02/16 12:50 ID:jsLgsjIe.net
>>106
N-gramだとノイズが増えるのは確かだよ。だけどそのリンク先にあるように検索洩れが少ない利点がある
どっちを使うかは用途次第で一慨に効率が良いとか悪いとかは言えないと思う
だけど今問題にしてるのはそういうことではなくて
検索洩れが生じるような検索方式は全文検索ではない、というのは結構的を射ている指摘じゃないかってことです
もちろん全文検索でなくても有用ならそれで言い訳だし、そもそも全文検索の定義が曖昧なら
どっちでも良いってことだろうけどね


109 :94:04/02/16 12:51 ID:jsLgsjIe.net
「言い訳」→「良い訳」です。スマソ


110 :94:04/02/16 12:55 ID:jsLgsjIe.net
>>109
特許検索とか、洩れが許されない用途での全文検索だとN-gramも結構あると思うよ
何にしても海外とはテキストの性質が全然違うので用語にしても同じ扱いをするのはマズいのかもね



111 :login:Penguin:04/02/16 15:10 ID:zuK7uokm.net
>>94氏が指摘している対立点は、全文を対象としているかいないか、ではなく、
あらゆる検索パターンを検索できるかできないかだと思う。

「全文全パターン検索」ではないと言いたいんでしょ。

112 :94:04/02/16 15:57 ID:jsLgsjIe.net
>>111
うーん。それよりも「なぜ全パターン検索できないの」→「全文を対象にした検索じゃないからでしょ」
という感じでしょうか。つまり検索対象がfull textならば、全パターン検索できて当然
できない理由はINDEXから情報が欠落しているから、つまりfull text searchではない、という考え方です
結局は「全文検索」って何よ?という定義の問題になるわけですが…


113 :login:Penguin:04/02/16 20:37 ID:IioubxCd.net
そんなに全文検索がいいなら おれが書いてやるよ。
#! /bin/sh
grep $1 /

114 :login:Penguin:04/02/16 20:42 ID:fRbfYEJy.net
>>113
乙!
使ってみたYO!

$ ./search.sh gorua
grep: /: Is a directory

115 :login:Penguin:04/02/16 20:52 ID:feCC2G5u.net
文書の編者が意識的に選んだキーワードを頼りにして検索する「キーワード検索」との対比で、
対象文書のテキスト全体を操作して抽出した語やフレーズを頼りに検索する手法を総称して
「全文検索」と呼んでいるのだと思われ。
とすると、必ずしも再現率が100%である必要はないんじゃない?

116 :login:Penguin:04/02/16 22:06 ID:VugyC+Al.net
「全文検索」の「全文」は、grepが対象とするところの、いわゆるプレーンテキスト
の「全文」とは、抽象度が異なるものでしょう。

117 :login:Penguin:04/02/16 22:13 ID:+Ig7jOcp.net
>>113-114
warata

118 :94:04/02/16 23:55 ID:jsLgsjIe.net
>>115
キーワード検索ってそういう意味なのかな
単に「キーワードを使った検索」じゃなくてですか?
初めて聞いたんで、そういう用例のWeb文書とか示してくれると嬉しい

>>116
説明が抽象的すぎて分からん
抽象度がどういう風に異なるのか説明してけれ

119 :login:Penguin:04/02/17 00:08 ID:h7B5N+7I.net
まぁ、定義は馬場さんのページに書いてあるのが
わかりやすいんでないの?

おれは辞書を使わない,わかち書きしないタイプの
インデクス作成型検索エンジンを使ってるけど。

120 :login:Penguin:04/02/17 00:11 ID:Xzw7cMrK.net
「全文検索」を細分化して概念化しておくことには意味はあるだろうね。

「完全全文検索」とかさ。

121 :94:04/02/17 01:37 ID:PO7wP2QS.net
>>119
馬場さんのページってこれですよね
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
私の見落としかもしれませんが、ここには全文検索システムの定義は
無いように思います。定義部分を教えてくれませんか

ちなみに「全文検索とは」でぐぐったらこんなのがありました
「漏れなく」なんてあるから私の見方に近いかも
http://www.rosei.or.jp/ISearch/help/user/japanese/is-us02/is-us007.htm

>>115さんの言うキーワード検索の用例もありました
つーか一般的な用法みたいですね失礼しました
http://www.ftsanet.com/dbtokyo02/Db02.htm
http://magazine.fujitsu.com/vol48-3/3-2.html
http://panasonic.biz/it/patlics/faq_1.html

つまり全文検索=フリーワード検索ってことでFA?
ん?それってやっぱりINDEX検索単独じゃ全文検索じゃないってことか?

詳しい方、スパっと疑問を解決してくだされ

122 :login:Penguin:04/02/17 21:56 ID:fFyt8P5S.net
例えば「走る」について知りたい時は、「走った」とか「駆ける」といった単語を含む文書も
ヒットしてほしいわけです(そうではない場合もあるでしょうが)。
そのために、形態素解析、ステミング、シソーラス展開といった手法を応用している全文検索
システムも多くあります。
それらはもはやパターンの厳密な一致を探すのとは違う領域にある技術ですよね。
どっちが上とか下とか言うわけではないですが、、、

123 :94:04/02/17 23:42 ID:PO7wP2QS.net
>>122
そういった要望がありそれを実現するための技術があるのは分かります
で、その技術で検索幅が広がるのはいいんです。ブレるのは検索パターンの方であって検索対象はfull textですから
ただ、ここで問題にしてるのは、そういった工夫によって検索漏れが生じるようなシステムが「全文検索」の名に値するかってこと
しかも検索漏れの原因が「INDEXに検索パターンがのってない」ってことにあるなら
「それって検索対象がfull textじゃないじゃん」つまり「全文検索ではない」と思う人がいてもおかしくない

まぁ、ここ数日で「全文検索」という用語がかなり曖昧に使われているのが分かって来たんで
厳密性を求めるのは野暮ってもんでしょう。そして日経Linuxが嘲笑されたのは、まさしくこの「野暮」が原因でしょうな

実は私もあの記事を読んで最初カチンと来た。馬鹿じゃねーのとも思った
だけど上で書いたように「全文検索」をgrepと同様、検索漏れのないシステムと考える人もいるとした場合、
野暮をおしてああ書くのは親切というか、良心的なんじゃないかと思い返したわけです

124 :94:04/02/18 00:04 ID:99PKKBxR.net
でさ、>>122氏が言うように私の言う狭義の全文検索システムであろうがなかろうがどっちでもいいわけです
実用上は、ユーザーが特性を理解して、目的に合わせて使えば良いわけです。Namazuが有用ってことにも異義はないし
でもだったらさ「全文検索システム」と言わなくてもいいわけじゃん。「語句検索システム」とか誤解のない言い方はあると思う
(この用語はあくまで例で最適とも誤解がないとも言いませんが)
「全文検索」という用語には、そんなに魅力があるんすかねぇ

125 :login:Penguin:04/02/18 10:13 ID:jYINYOWL.net
閑話提供
ttp://www.jepa.or.jp/ken/Ken_00.html


126 :login:Penguin:04/02/18 17:05 ID:k8UVZXaq.net
繰り返しになりますが、全文検索は、
「属性やキーワードを改めて付与するなどの手間をかけずに、機械的にテキスト全体をスキャンし、
ユーザが所望の文書を捜し出す技術」
の総称なわけです。
grepの文字列探索は、全文検索を実現するにあたって実装方法の一つであることは確かです。
もちろん、予め文字列から単語を切り出してインデックスを作成する手法も、実装方法の一つです。
インデックス型の弱点として、単語の切り出し方がユーザの想定するものと違う場合に期待通りに
検索できないということがありますが、それは速度と精度のトレードオフを考えて実装上の選択を
した結果に過ぎません。つまり、「全文検索」は目的であって、実装については言及していないという
わけです。
そもそも、全文検索という語に定着した意味や用法が、自分の想定したニュアンスと違うから
といって、「お前ら間違ってるよ」的な事を言っても仕方のないことです。

127 :94:04/02/19 09:25 ID:tKKtqfPY.net
>>126
繰り返しとか言ってるけど、そういう定義をまとめてくれたのはこのスレでは初めて聞いたよ
定義してくれたのは感謝するけど、一応
つまりあなたの定義だと「萌え語辞書」を使った「萌え語INDEX」を使ったテキスト全体をスキャンする検索システムは
何の注釈もなく全文検索システムと言っていいわけですね。何か一般に想定する全文検索システムと違う気がするけど、いいんですか?
それともこういう仕組みは「属性を改めて付与」することになるので違うってこと?
だったら何で「自立語」という属性は付与していいの?

>>「お前ら間違ってるよ」的な事を言っても仕方のないことです。

何だかんだ言ってるけど、私も全文検索システムの解釈にブレがあるのは理解してるわけよ
だったらさ誤解がないように、より厳密な用語を使って行こうという気はないの?
結局、誤解して困るのはユーザーなんだし


128 :94:04/02/19 11:20 ID:tKKtqfPY.net
ああ勘違いしてた。Namazuでは付属語を捨てたりはしてないのか
「自立語」というのは「形態素」におきかえてくだされ。それでも文意は変わらんと思う


129 :126:04/02/19 13:13 ID:McDu8NC5.net
> 何だかんだ言ってるけど、私も全文検索システムの解釈にブレがあるのは理解してるわけよ
> だったらさ誤解がないように、より厳密な用語を使って行こうという気はないの?
> 結局、誤解して困るのはユーザーなんだし

例えるなら「スポーツカー」に厳密な定義ができないように、「全文検索」にも厳密な定義は
できないと思います。乗る人がスポーティだと思ってくれるような車はスポーツカーでいいと
思います。同じように、ユーザが対象文書の全体をスキャンしているような気分で検索できる
システムは全文検索システムと呼んでいいと思います。
もちろん、あなたの感じ方と私の感じ方は違ってあたりまえですから、私があなたの定義を
否定したりはしませんが。

130 :login:Penguin:04/02/19 13:25 ID:wXxKmQwW.net
なんか俺定義な話になっているような気が…


131 :94:04/02/19 15:10 ID:G2RVB1RM.net
>>129
>同じように、ユーザが対象文書の全体をスキャンしているような気分で検索できる
>システムは全文検索システムと呼んでいいと思います。

やっぱそんなぐらいの曖昧な用語だってことですかね。「気分で」という表現いいなw
>>130さんの言うように俺定義の話を続けてもアレなんでこの辺で私は終了にしますわ


132 :login:Penguin:04/02/21 23:58 ID:UOmOpP9E.net
形態素解析方式の全文検索エンジンは実用にならないってのは一般的な見解ですか?
俺的には、シビアなユースケース(特許検索とか)でなければ十分使えるというか、
大抵のケースではn-gram方式より使いやすいと思うのですが。

133 :login:Penguin:04/02/22 10:16 ID:xRMgLWY5.net
#! /bin/sh

find / -print | xargs grep $1


134 :login:Penguin:04/02/22 11:48 ID:/tZPZccw.net
富豪的というか大富豪だな(w


135 :login:Penguin:04/02/22 12:33 ID:SU8uIsjI.net
>>133 なんで find なの? 普通は grep -r では?

136 :login:Penguin:04/02/22 13:35 ID:/tZPZccw.net
>>135
それはGNU grep 2.3以降の機能。


137 :login:Penguin:04/07/17 16:40 ID:IK/75cTR.net
Freya を DeleGate の中の人が改造してる模様。
http://www.delegate.org/freyasx/index-ja.shtml

138 :login:Penguin:04/12/16 11:44:45 ID:y/5+X1zz.net
N-gram をつかったフリーの全文検索ソフトはありませんか?
検索対象のファイル数は数千ファイルです。

139 :login:Penguin:04/12/17 01:24:33 ID:lxqlpfIe.net
試してないけど lucene
http://d.hatena.ne.jp/adon/20040719

140 :login:Penguin:04/12/29 18:19:50 ID:BRxeCRmf.net
ウホッ、NutchもASF入りか?
http://wiki.apache.org/incubator/NutchProposal

141 :login:Penguin:05/03/01 12:58:01 ID:A3PLiFVu.net
gonzui: ソースコード検索エンジン
http://gonzui.sourceforge.net/

Rast - N-gram based full-text search system
http://www.netlab.jp/rast/

Estraierの中の人の開発メモ。Hyper Estraierを作るらしい。
http://qdbm.sourceforge.net/mikio/rbbs.cgi

142 :login:Penguin:05/03/01 13:00:01 ID:A3PLiFVu.net
関連スレ

全文検索エンジンNamazu
http://pc5.2ch.net/test/read.cgi/unix/1009715036/

全文検索エンジンEstraier
http://pc5.2ch.net/test/read.cgi/unix/1100221699/

gonzui
http://pc5.2ch.net/test/read.cgi/tech/1102086148/

143 :login:Penguin:05/03/02 14:19:57 ID:s4oUhyjg.net
こんなの発見した
http://tech.yappo.jp/

144 :login:Penguin:05/03/09 23:12:58 ID:wATt7zX4.net
Rast 0.0.0 released

145 :login:Penguin:05/03/10 10:03:15 ID:dSBxBqCX.net
朱雀、v2 リリース
ttp://hoshizawa.no-ip.com/suzaku/

146 :login:Penguin:05/03/10 16:27:39 ID:TpfIZjXm.net
ruby ML 検索 powered by Rast
http://shugo.net/ruby/mlsearch.rbx

147 :login:Penguin:2005/03/23(水) 18:44:16 ID:tILKfK4Q.net
Senna 組み込み型全文検索エンジン
http://dev.razil.jp/project/senna/

148 :login:Penguin:2005/03/29(火) 23:23:06 ID:lx0qzo99.net
gonzui 1.0 released

149 :login:Penguin:2005/04/09(土) 10:38:27 ID:+mu7EK3e.net
全文じゃないのですが、イメージ検索できるエンジンってないでか?
相当ググったんですが・・・やはりないんですかね?

150 :login:Penguin:2005/04/09(土) 10:49:16 ID:npNrboa/.net
>>149
試したことないけど

GNU Image-Finding Tool
http://www.gnu.org/software/gift/gift.html

イメージサーチャ for Java
http://www.sra.co.jp/people/m-asada/Isr4Java/

151 :login:Penguin:2005/04/09(土) 22:59:57 ID:+mu7EK3e.net
>>150
ありがとうございます。

152 :login:Penguin:2005/04/14(木) 16:05:44 ID:u3OwVqgq.net
4 名前:仕様書無しさん[] 投稿者:2005/04/12(火) 00:17:42
  blogWatcher
  http://www.lr.pi.titech.ac.jp/blogwatcher/blog/
  が検索エンジンを情報処理振興事業協会(IPA)が実施した
  「独創的情報技術育成事業」の研究成果であるGETAから
  オープンソースで開発されているLuceneに変更したのは
  GETAが税金を無駄にしただけの糞で鈍間で役立たずの
  ポンコツだと言うことですか?


153 :login:Penguin:2005/04/20(水) 18:15:48 ID:lbPp4dex.net
心無いこと言うなよ。

154 :login:Penguin:2005/05/06(金) 08:37:21 ID:lI2CCtV2.net
Namazuだと、全然文字が引っ掛からない(INDEX作成にはkakashi, chasen,
どちらも使ってみました)のです…
INDEX自体はまともに作成されてるようなのですが、
そもそも、適切に分ち書きできてないみたいです。

何か設定を変更することで上手く行くようになりますでしょうか。

155 :login:Penguin:2005/05/06(金) 10:31:42 ID:AlEjD5fH.net
mknmz -L jaでインデックス作るとどうよ。


156 :login:Penguin:2005/05/07(土) 10:44:20 ID:WnWxEbDH.net
>>154 LANGUAGE とか LC_ALL の環境変数が ja になってないと
日本語keyword 正しく生成しないんだが、その話しか?

157 :login:Penguin:2005/06/19(日) 18:11:43 ID:8H2hS4Uc.net
GETAって説明見るかぎりではよさげだけど

158 :login:Penguin:2005/07/01(金) 11:04:42 ID:yhjcuNWo.net
>>156
知識が古い

159 :login:Penguin:2005/07/01(金) 11:36:50 ID:l6AY3eSM.net
>>158
そうなの?今はどうなの?

160 :login:Penguin:2005/07/01(金) 12:15:01 ID:yhjcuNWo.net
>>159
> そうなの?今はどうなの?

…… (あきれている)

161 :login:Penguin:2005/07/01(金) 20:09:16 ID:5zVf7Ksr.net
たしかに煽りだけのアホにはあきれる罠

162 :login:Penguin:2005/07/03(日) 22:55:14 ID:z6TH4X8n.net
>>154
あるねぇ、あれは酷い。
まぁ、FAQには書いてあったからいいけど。

さっさと捨てるべきだとおもったよ。

163 :login:Penguin:2005/09/06(火) 15:27:32 ID:fQOUQlk6.net
rast ML 発見
http://www.netlab.jp/rast/index.html.ja#label-12

rast 0.3.0 もリリースされてます
http://www.j96.org/w3ml/rast-ja/msg/2

あと matz 氏の morq もついに公開されたようですが…
debian sid な環境ですが動かすことはできず。orz

164 :login:Penguin:2005/10/20(木) 15:33:40 ID:gTZ54A3C.net
gdestraierの使用レポきぼんぬ。

165 :login:Penguin:2005/11/07(月) 22:23:25 ID:1VrgDytv.net
luceneってむちゃくちゃよくね?
小規模なら、何も考えずに使えるし、
日本語もそのまま通る。

俺何か見逃してるかなぁ。

166 :login:Penguin:2005/11/08(火) 10:13:48 ID:pE5I1Nnu.net
>>165
昔、日本語が使用できなかったとか、Javaベースだからとかじゃない?

使用することに限ればnamazuやHyper Estraierでもいいと思うけど。


167 :login:Penguin:2005/12/03(土) 04:02:20 ID:/hc4pm5p.net
>>165
小規模ならいいけど、大規模(10万件以上)だとめちゃくちゃ遅い

168 :login:Penguin:2005/12/03(土) 13:05:12 ID:SsJtQiWj.net
>>167 何か設定やらチューンやらできないの?

169 :login:Penguin:2005/12/04(日) 22:15:43 ID:LqLx7hy3.net
>>168
自分で下層のDBを用意する


170 :login:Penguin:2005/12/05(月) 09:54:08 ID:gHetzDlJ.net
Nutchってその辺どうしてるんだろ?

171 :login:Penguin:2006/01/08(日) 13:08:32 ID:/SfDDqW0.net
なまずがもうすぐバージョンアップするって本当?


172 :login:Penguin:2006/01/30(月) 18:44:33 ID:OupapdHM.net
>>171
きたよ

173 :login:Penguin:2006/02/24(金) 12:47:39 ID:VEoUF2uq.net
>>166
LuceneはC#へのポーティングがあるな。

174 :login:Penguin:2006/12/19(火) 08:51:48 ID:H/fR0rQV.net
で、世の中 Google Desktop Search とか Spotlight が当たり前になってる今、
みなさん最近は何使ってんの?

175 :名無しさん@お腹いっぱい:2006/12/19(火) 10:12:39 ID:9M7VxUKD.net
>>174
> が当たり前になってる今
なってねーよ。

176 :age:2007/01/16(火) 23:04:15 ID:sCPN49tb.net
ご存知の方おられたら教えてください。
Nutchは、AnalyzerにデフォルトでNutchAnalyzerを使っていて、
日本語はインデックス作成時に(クエリー処理時も)1文字ずつに
分解されてしまいます。そこで、bigramでインデックスを張れる
CJKAnalyzerを利用しようかと思ったのですが、nutchのソース修正が
必要でしょうか?

177 :age:2007/01/16(火) 23:05:32 ID:sCPN49tb.net
pluginをいじるだけでできるかと調べたのですが、
なにぶんドキュメントが少なくて、よくわかりませんでした...。

178 :login:Penguin:2007/01/21(日) 22:34:31 ID:cbvQ8w/u.net
ttp://wiki.apache.org/nutch/MultiLingualSupport
ttp://mail-archives.apache.org/mod_mbox/lucene-nutch-dev/200606.mbox/%3Cc822c4ce0606070158s6c16abc7yea846a546e735cf4@mail.gmail.com%3E

179 :login:Penguin:2007/01/31(水) 10:26:20 ID:9FAAVXiR.net
Google や Yahoo! がやっているような、表記揺れの展開をやってみたいのですが、
全文検索ソフトと併用できるような便利な表記揺れ展開用の辞書かライブラリってあるのでしょうか。
それとも自分で辞書を作らなければならないのでしょうか。

代用漢字、異体字、カタカナ語、送り仮名、検索ワードの誤り、略称、関連語など、
考え出すときりがないとも言えるのですが…
企業向けの商用ソフト(の形態素解析ソフトのおまけ?)にはあるらしいことは一応わかってきました。

なにかアドバイスください。

180 :login:Penguin:2007/02/01(木) 15:07:34 ID:OTOWAPaF.net
>>179
どこかの国立の日本語研究所が表記揺らぎ辞書を公開してたよ。

181 :179:2007/02/01(木) 16:59:00 ID:93ds0frc.net
国立国語研究所の「表記統合辞書」ですね。ありがとうございます。

kokken.go.jp がつながりにくいようですが…
必要に応じて電話で問い合わせしてみようかしら。

182 :login:Penguin:2007/02/02(金) 10:56:10 ID:RbpAhOyB.net
風博士ではRastが死亡認定された模様。


183 :login:Penguin:2007/02/08(木) 09:58:55 ID:lffkdWu+.net
html内で、コメントを使わずにスタイルシートのhiddenを使ってコメントアウトしているページがあり
NAMAZUはもちろん対応していないのですが、対応できる検索エンジンってあります?

184 :login:Penguin:2007/02/08(木) 15:30:47 ID:aalcJ7Z4.net
多分ない。


185 :login:Penguin:2007/02/08(木) 15:43:02 ID:lffkdWu+.net
>>184
そうですよね。googleでも引っかかってしまうし。

186 :login:Penguin:2007/02/08(木) 22:54:22 ID:WBqU/6bx.net
対応ってどういう意味だろう。
そこが検索でヒットされて欲しくないってこと?
そんなエンジンはないだろうな。

187 :login:Penguin:2007/02/08(木) 23:29:33 ID:xQE/x50H.net
対応できるってどういう意味だろう。
「作ればあるもん」だと思うのだが。

188 :login:Penguin:2007/02/13(火) 16:54:43 ID:g+G6znAU.net
rastって死亡? なんか実質1年くらい動きがなさそうなんだけど。
matzがいるような会社でも、IPAから金めぐんでもらってやってただけで
それがなくなったら後は野となれ山となれなのかね? もしそうだったら寂しいね。

189 :login:Penguin:2007/02/13(火) 18:46:26 ID:JrXWD7sx.net
>>188
長い目で見れば、死亡させた方が金になるんだよ。

190 :login:Penguin:2007/02/14(水) 07:47:29 ID:/l3toK3t.net
Hyper Estarierは未踏で開発が加速して、今はまったりとしつつも
きちんと続いている。
SennaもMySQL連携が効いたのか、じわじわと利用が進んでいる。

Rastはなあ... 構造を複雑にしすぎて、金が切れてからのメンテナンスが
難しくなったんじゃないかという気がする。あとは外部からの開発者を
集められなかったことが敗因か。


191 :login:Penguin:2007/02/14(水) 09:45:36 ID:URN3dXTi.net
H.E. も個人開発だけどね

192 :login:Penguin:2007/02/14(水) 13:13:18 ID:fQFyeH6h.net
>>190
> 難しくなったんじゃないかという気がする。あとは外部からの開発者を
> 集められなかったことが敗因か。

いや〜
金をもらって作られたブツの世話を引き継いで、タダで作業するのって、惨めだぞ〜
特に多大な金が投入されたことをみんなが知っていると、いろいろあって鬱病になりそうになる。

もう2度とやりたくない。

193 :login:Penguin:2007/02/15(木) 11:59:16 ID:vlsOl9z9.net
>>191
作者はじつにいい会社に転職したよね。今後も安泰かというと不安だけど...
>>192
気持ちはよくわかる。最低限、「自分が使うから」ぐらいのモチベーションが
ないとやっていけないよなあ。



194 :login:Penguin:2007/07/12(木) 15:36:46 ID:FQfZ6HrX.net
>>181
これの固有名詞版ってないのかしらん?

USA、米国、アメリカ、U.S.→アメリカみたいな

195 :login:Penguin:2007/08/28(火) 03:01:56 ID:AfUQD9wn.net
人少ないみたいだからアゲますね。

ちょっとダサい質問なんですが、インデックスを作成するタイプの全文検索で
そのものがインストールされていないレンタル鯖で使えるものってありますか?
PerlもしくはRubyから検索したいと思って
Namazu、HyperEstraierを試したんですが、
前者はPerlモジュールのインストールを断られ、
後者はインデックスがQDBMの形式だからどの道無理かと思いました。
(方法があればHEの方は使ってみたいけど)

頻繁に更新されるような対象じゃないので、MySQLのFULLTEXTでも・・・
と思ってはいるんだけど、
なにか方法(ソフト)があればおしえてください。

196 :login:Penguin:2007/08/28(火) 08:03:34 ID:NA5riCTs.net
http://rubyforge.org/projects/ferret/

pure rubyでこんなのがあるよ。日本語が使えるかどうかはわからないけど。
Luceneにinspreされたとかいてあるから、UTF-8なら使えそうな気もする。


197 :195:2007/08/28(火) 20:02:17 ID:uwrt1akO.net
>>196
少し触ってみたところ使いやすい感じで好感触でした!
完全かどうかはわかりませんが、日本語も大丈夫でした。
とりあえずレン鯖での動作も確認できました。
まだ不明な点もありますが、しばらく使ってみようと思います。
ありがとうございました!

198 :login:Penguin:2008/01/08(火) 00:46:08 ID:XSbSibRZ.net
gonzuiみたいなのでVB6検索できるエンジンありませんかね?

VB6病発病したソースコードを手術しないといけないので
頼みます。

199 :login:Penguin:2008/04/09(水) 00:25:01 ID:X4T3aWgW.net
こんなん出てた。
全文検索エンジンLux
http://luxse.sourceforge.net/

ToDo のところに
# 削除・更新
# 全角半角かなの同一視
とか書いてあるあたり見ると、まだ全然未完成みたいだけど。

200 :login:Penguin:2008/04/09(水) 13:25:32 ID:P7VWxNnr.net
apacheのluceneがeclipseのヘルプ?で使われていたことを知った。


201 :login:Penguin:2008/09/08(月) 17:32:23 ID:NVWE6wto.net
InfoCrawlerとOmniFindってどう?


今研究室の文書管理システムを作らなきゃいけないんだが,ユーザビリティを損なわず文書管理したい.
ファイルドラッグできるフリーなシステムは見つからない.
⇒Sambaフォルダに適当にぶち込んで後から見るときは検索でおk

と言う風に今は考えてるんだが、間違ってないよな?
doc,pdf,ppt辺りを読み込んでくれる素敵なエンジンはない物か…

202 :login:Penguin:2008/11/20(木) 11:23:32 ID:rg5Oz6Z5.net
保守

203 :login:Penguin:2008/11/29(土) 10:11:46 ID:lHYI9aEV.net
http://www.jieks.com/2ch/

204 :login:Penguin:2009/12/23(水) 12:09:55 ID:2EkpDgwW.net
ど素人の質問で申し訳ないんですが、
ひらがな/カタカナのどちらでも検索可能にしたい場合、
「検索時に、両方のキーワードで検索する」案と、
「インデックス自体を、両方作っておく」案の、どちらが検索時間が短くすむのでしょうか?
(検証しろと言われれば、それまでなんですが)

私の事情的には、「大差はない」というのが理想ですが、
どうなんでしょうか?

ちなみに、使ってるのはLucene(2.3.2かな)で、すでに運用開始している状態です。


205 :login:Penguin:2009/12/23(水) 12:50:29 ID:hw50+bfV.net
常にひらがな/カタカナのどちらでも検索していいなら、
インデックス作るときに、どっちかにまとめてしまうな。
あとは、検索時に指定されたのを同じルールで処理してから検索。

データが小さくなるし、analyzerでこの処理をさせれば、
本文はそのままだから、取り出し可能にもできるし。

206 :login:Penguin:2009/12/23(水) 13:01:14 ID:hw50+bfV.net
あと、データ量と同時検索数次第な気がするけど、
両方のキーワードで検索した方が速いと思うよ。
インデックスを小さくしておいた方が速いと思う。

ひらがな/カタカナ混じりだったらどうするとか考えると、
統一しちゃう方が簡単だと思うんだよなー。

検索用フィールドをいくつか作るのはありかもね。
平仮名片仮名を無視する検索用はどちらかに統一して、
そうじゃない方はそのまま入れておく。

207 :login:Penguin:2009/12/24(木) 14:55:08 ID:pQ+PzKun.net
>>206
レスありがとうございます。

やはり「INDEXも検索も統一」というのが良さそうですね。

ただ、すでに運用してるシステムでして、
根本から作り直すことになると、コストやリソースの関係で、
お客様の希望する時期に出せそうになかったもので、
質問のような小手先の対応を考えていました。



208 :login:Penguin:2011/10/26(水) 09:08:10.23 ID:u1Edo4nm.net
dpkgとzeitgeistがXapianっていう全文検索ソフトを使っているけれどあれは何?
対応言語に日本語は入っていないみたい

209 :login:Penguin:2011/12/11(日) 16:26:21.87 ID:jX1ksO4u.net
「俺の全文検索」のソースをアップロードした。

http://www.ne.jp/asahi/sun/patagonia/fulltext/fulltext.html

うまく全文検索できないときには掲示板に書きこんでくれ。

210 :login:Penguin:2011/12/11(日) 16:52:48.77 ID:SGJMDI+x.net
postgresql 使ってるのか。
Hyper Estraier でいいと思うけどなあ。ずっと楽だし

211 :login:Penguin:2012/08/12(日) 05:00:25.96 ID:9d6phxtS.net
>>209
NOT FOUNDだよ

半年も前かぁ・・・(´・ω・`)

212 :login:Penguin:2012/12/14(金) 05:08:44.92 ID:/WE9Cz8v.net
Fessというソフトなんですけど、
検索されたファイルの名前に、スペースが含まれている場合に、
一覧から開くことができません。
対策ってありますでしょうか。

213 :login:Penguin:2012/12/14(金) 11:36:00.22 ID:ZBNKtAHu.net
>>212
FessのMLがあるからそっちで聞けば?

214 :login:Penguin:2013/01/12(土) 01:36:56.87 ID:17wiELXf.net
聞こう聞こうと思っているうちに、
どなたかがメーリングリストで質問してくださっていました。
今、その回答町です。

215 :login:Penguin:2013/01/27(日) 16:23:24.30 ID:Y1uylGbU.net
全裸変換ソフトって読んでしまった。
寝てくるノシ

216 :login:Penguin:2013/02/09(土) 12:29:36.38 ID:0CxhohCh.net
専用サーバソフトいらずで
単純なインタプリタcgiのみで動くやつないかね?
まあ要するにフリーのレンサバで動かしたい

217 :login:Penguin:2013/02/09(土) 12:38:10.29 ID:ihRM0VR4.net
>>216
namazu

218 :login:Penguin:2014/02/18(火) 01:12:04.63 ID:TuEYQrKl.net
全文検索サーバ: Fess 9.0.0 リリース

http://sourceforge.jp/projects/fess/news/24562

本当に、新機能の搭載待っていました。
ありがとう。ありがとう。

勝手に記念して、専用スレッドを作りました。

http://engawa.2ch.net/test/read.cgi/linux/1392653371/

219 :login:Penguin:2016/02/22(月) 11:39:34.04 ID:qmaloGTy.net
自分はセナがいいよとか言われてた時代までしか知らん
ナマズは定番とかね

220 :login:Penguin:2017/06/15(木) 00:18:19.61 ID:PnzM59LG.net
保守

221 :login:Penguin:2017/07/10(月) 04:10:38.96 ID:YwZ+60fd.net
Hyper Estraier

222 :login:Penguin:2017/07/10(月) 09:29:17.37 ID:1K3bAr2+.net
>>221
もうメンテされてない

223 :login:Penguin:2017/12/29(金) 14:39:05.17 ID:S/CsVkMC.net
誰でも簡単にパソコン1台で稼げる方法など
参考までに、
⇒ 『宮本のゴウリエセレレ』 というブログで見ることができるらしいです。

グーグル検索⇒『宮本のゴウリエセレレ』

78TOY3CJA0

224 :login:Penguin:2018/04/11(水) 15:23:21.47 ID:tpwD4HOs.net
78TOY3CJA0

225 :login:Penguin:2018/05/22(火) 10:39:06.88 ID:Czl6p0FW.net
僕の知り合いの知り合いができた副業情報ドットコム
関心がある人だけ見てください。
グーグルで検索するといいかも『ネットで稼ぐ方法 モニアレフヌノ』

MT3J0

226 :login:Penguin:2018/09/10(月) 08:58:04.43 ID:TiViGl7e.net
ぶっちゃけどれも反応が早くない

227 :login:Penguin:2019/02/20(水) 08:46:09.74 ID:3PODLb22.net
今の定番ってあるの?

228 :login:Penguin:2019/02/21(木) 01:27:54.47 ID:DcWB1LI3.net
Elasticsearchとかsolr/luceneとかじゃないの

229 :login:Penguin:2019/02/21(木) 14:56:57.32 ID:K4vLfaHD.net
NASとかでも検索機能あったりするけど
目に見えてどれを使ってるって分かるのかな?
その中でのシェアとかあるの?

230 :login:Penguin:2020/02/11(火) 15:34:57 ID:vu/qvDyp.net
チエオクレのハゲの悲惨なツイッター
https://twitter.com/aphonedollar

  ↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
この自称「ハゲ」とかいうチエオクレのブログが酷すぎる

>「DesktopHE」 はWindows10に対応してないらしい

はぁ??? ★★★大嘘デタラメ★★★を垂れ流すな!!!

■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■
■「DesktopHE」 はWindows10でも、もちろん使えるわ!!!■

チエオクレのこのハゲが、Javaの設定を失敗してるだけじゃねえか!!!
嘘デタラメ垂れ流しやがって、このハゲがやっていることは立派な公害じゃねえか!

hatenaとかでまで、必死こいて大嘘をばらまいているんだが  
(deleted an unsolicited ad)

231 :login:Penguin:2021/07/31(土) 00:46:25.71 ID:3Ihfr/Ax.net
今時はLuceneですかね
Twitterでも使われてるらしいし

232 :login:Penguin:2022/09/19(月) 23:42:14.58 ID:/7TP2U0im
(入れてはならない政党5大税金泥棒政策)
観光促進‥…温室効果カ゛スに騒音にコ囗ナにとまき散らすデシ゛タ儿音痴のハ゛カに支配された世界最悪の腐敗利権國家継続政策な
防衛費倍増…ウクライナ防衛費GDP比4%超に他國支援て゛2O%超、人類に湧いた害蟲公務員利権を拡大させるほど灰燼に帰す現実
金融緩和……資本家階級資産倍増、ひとりて゛資産1兆円超.末代まで揺らく゛ことのない圧倒的格差社会優越的地位濫用促進政策な
少子化対策…貧乏人に不幸な子を産み落とさせ,全国航空騷音まみれて゛勉強まで妨害して.地球破壞する害蟲増殖国力低下政策な
原發稼働…‥マッチポンプへリ飛ばしまくって,都心まて゛数珠つなぎで莫大な石油ひたすら無駄に燃やす技術後進国か゛笑わせよる
      全空港を火力発電所に転換して航空騒音によるシステム障害まみれのポンコツ腐敗後進国を脱却してからほさ゛きやか゛れ

創価学会員は、何百萬人も殺傷して損害を与えて私腹を肥やし続けて逮捕者まて゛出てる世界最悪の殺人腐敗組織公明党を
池田センセ一が□をきけて容認するとか本氣て゛思ってるとしたら侮辱にもほと゛か゛あるぞ!
https://i.imgur.com/hnli1ga.jpeg

総レス数 232
57 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★