|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》: f* s) o5 H" ~$ R' ~/ B
java电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
% G( {+ ?# W5 b o8 u
$ J# l) ~! j7 ?4 O作者:邱哲,符滔滔,王学松 编著
, O3 P" L# g1 y$ ^6 ~4 D: b" I; ~9 ]出版社:人民邮电出版社
4 k9 | \) G0 c4 k5 A出版时间:2010-01
! S' S" z/ G. w4 a. L
. k, u; R3 D( ]) t" q9 L$ A4 [9 {7 y
7 r! c# k- g7 l8 O' f+ g
! _5 h5 K3 ?* w- i. T5 _' v$ \7 S
java电子书目录:
! w/ o1 A! R* w) V2 C' W, ~
3 L: b4 L$ h! E% c7 x% w2 G/ N7 O第1章 搜索引擎与信息检索 6 p& z$ @- t7 ?0 k% P; h
1.1 搜索引擎的历史 - r9 i; }( B! u6 E7 B
1.1.1 萌芽:Archie、Gopher 9 h& c$ N1 d4 l8 D* z
1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)
- f2 r- a1 ]6 B1 d% i q3 B 1.1.3 发展:Excite、Galaxy、Yahoo等
- G5 d/ `9 _2 R+ ^ d* V 1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu + v$ R0 R+ s" ~. E1 V
1.2 信息检索系统的基本知识
5 L! |. Y" L5 r D- @8 E- Y 1.2.1 信息检索系统
7 Y; O6 b2 Q! i* R* u% H6 a 1.2.2 信息检索的过程
' ~; s% k+ `8 ~+ d* y2 R 1.2.3 传统查找的优点和不足 7 J3 D# ^$ V/ `# {3 b
1.2.4 使用索引提高检索速度
* m/ X4 S/ Z" V6 V/ p( a2 R* b 1.2.5 倒排索引
: N4 Y+ @# Y/ K& G ?4 h) D 1.2.6 评价信息检索系统的标准
: a& W0 z7 ^- N. I' S; ^9 @ 1.3 Lucene的简介
& Y; u; f+ j3 H. e 1.4 小结
) M3 Q8 A1 ?- f/ w7 `% ?5 Y5 W0 [第2章 Lucene入门实例 5 @ }: n" O f. w, ~2 g
2.1 实例介绍
$ t' C$ u( y! \# e4 e 2.1.1 实例说明
5 ^/ Q) R! h4 ^ k. W! D 2.1.2 开发过程 6 N0 f2 L4 N. ^3 b4 ?- z
2.2 准备工作
9 S, F* p& ^# F7 Q 2.2.1 将文档的全角标点转成半角标点
4 M) l0 K* O3 h# t8 a 2.2.2 将大文档切分成多个小文档 W/ h- S+ @( F+ N' |2 ?* O
2.2.3 预处理源文件的统一接口 ( Y" O, B: D6 ?6 P& E/ N E9 y/ m
2.3 创建Eclipse工程 ( K6 ^! p. U& q) g2 g
2.3.1 准备工作 % x2 m L) E$ H# d* R
2.3.2 创建工程并引入Lucene的JAR包
* R& A9 w; M% f- U5 j9 h- s 2.3.3 运行文档预处理类 8 S/ [6 C& |+ [0 g
2.3.4 创建处理文档的索引类:IndexProcessor + r+ _5 t: m: o9 U$ {' x: R4 G! O: s
2.3.5 创建检索索引的搜索类 * l% y, ?* g: p* `2 Y' N
2.4 运行效果
% _6 v( F2 K! r 2.5 小结
5 i; s; [8 X6 K" J& [2 b第3章 索引的建立
/ C1 {# Y) d1 D 3.1 Document逻辑文件
) e7 e# C% E9 Q( Y W8 ?; X 3.1.1 Lucene的Document
$ O) z8 D: o# I1 O. v2 @( n 3.1.2 为Document添加多种Field - h9 r- T8 r# U
3.1.3 Document的内部实现 3 g; F+ k& R' J- W; y/ N
3.2 Field的内部实现 ( \/ h ] J( s5 S1 T( y+ v. E7 v& J, h
3.2.1 Field包含的类
& Q! M% Y5 r# m" t" G 3.2.2 Field类的构造方法
5 @) t/ ^- v d; B: t" B 3.3 Lucene的索引工具IndexWriter
" O& Y; ~; x8 o; X* b$ B! E; e 3.3.1 IndexWriter的初始化
9 Y' D! M# N8 t 3.3.2 向索引添加文档
8 j3 c1 I' ]% @+ N! r% U1 k) h 3.3.3 限制每个Field中的词条的数量
) w* z% ?$ ^* m2 ~1 J 3.4 Lucene索引过程详解
8 T. \( r9 O# c% ~- t( L 3.4.1 Lucene索引建立过程概览 , k) u/ }8 \) S, k
3.4.2 使用addDocument方法向索引添加文档
4 ?/ C- Z; T4 E; W4 e9 a' ^! K 3.4.3 DocumentWriter的addDocument方法
. j5 _& |. {- r* [ 3.4.4 文档的倒排 7 r2 Y l' W- n4 i( J
3.4.5 对postingTable进行排序 ' y5 U5 `- H7 Y
3.4.6 将Posting信息写入索引
4 }' a7 B9 P0 O8 G6 x9 M, f# f# Z 3.5 索引文件格式
7 o8 r* `: u# ~: z1 i8 S. ~5 s5 C 3.5.1 索引的segment 2 x; G8 {8 b% U! G' Q% P7 L0 t5 k3 J
3.5.2 .fnm格式 ' ~0 c/ x, R. P
3.5.3 .fdx与.fdt格式
7 j% o8 B3 R7 ?4 z1 c+ X 3.5.4 .tii与.tis格式 0 x9 l$ p6 _2 B$ f; i0 N% G
3.5.5 deletable格式
; A) g1 r. r7 ?/ O. B 3.5.6 复合索引格式.cfs 0 f% o* h1 C! n. I, x& l$ w2 t
3.6 索引过程的调优
5 Q' X- c- x7 `- X6 R, e- q 3.6.1 合并因子mergeFactor
( K4 t& a- s+ m6 n 3.6.2 maxMergeDocs
0 N) V# C1 ]. {# b1 t D 3.6.3 minMergeDocs
/ }$ i* X' z! W- U 3.7 索引的合并与索引的优化 , r3 Y% ]- G) g3 T/ H" T# e
3.7.1 FSDirectory与RAMDirectory
. o+ V0 X! l$ Y: N" `, d 3.7.2 使用IndexWriter来合并索引 . n5 ]! j/ w% N: a
3.7.3 索引的优化
6 |9 d1 N8 S# R8 l- A1 T 3.8 从索引中删除文档 3 G% j v( v# }8 ~
3.8.1 索引的读取工具Index-Reader
/ @# w" f0 i& u, |3 P9 k 3.8.2 使用文档ID号来删除特定文档
% m s, ]9 i' ]& i 3.8.3 使用Field信息来删除批量文档 9 d' N% b) q) @: D/ k% ]
3.9 Lucene的同步问题 ! B9 |$ L/ F) I* |
3.9.1 为什么要进行同步以及Lucene的同步法则
. ~2 n. q. _# [+ B- E 3.9.2 commit.lock与write.lock
( p) ]/ M- \" B- A6 E$ l 3.10 Lucene 2.0的新类:IndexModifier类
7 Q% G# G0 x. [6 u% H, X 3.11 小结 * y6 G7 a* W0 X% V0 j* S
第4章 Lucene搜索9 D* z: L( M+ M6 O: S- ?3 ^
第5章 排序、过滤和分页
) c( r$ _# R9 u& M: S) R第6章 Lucene的分析器 & P$ ^$ b } m2 f( G* c! x
第7章 Word、Excel和PDF的处理
8 [0 i+ j7 v8 O第8章 Compass:封装了Lucene的框架3 {/ f1 D0 M9 A1 D! E4 `+ Z' t$ c
第9章 Lucene分布式
$ A1 i$ d* {! q o' r4 z第10章 无比强大的网络爬虫Heritrix
- i ]0 T- J: s( _* u/ K- c C第11章 搜索引擎综合实例:准备篇 . {5 z' q, x) B1 u
第12章 搜索引擎综合实例:下载篇( Z" {8 d) O3 X; Q. s6 X' s
第13章 使用正则表达式与HTML Parser分析网页3 R/ B3 m7 l. [9 b P3 O0 }
第14章 网页内容存储与索引
2 z+ v3 K5 }* S: X第15章 搜索引擎综合实例:交互篇. b6 v4 q3 y7 w" j: ?; Q
第16章 搜索引擎综合实例:Web篇
1 H; b' [5 ]* x0 i8 _附录 Lucene 2.4更新内容
- q( {" [. d# q* G9 J- j; I# s' n/ {8 ^" e' A1 c
百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】( }) z/ N. r& k/ P2 ?9 s# C! p
1 O8 H7 e' t' i. i3 U5 X8 I
) o6 e# ]! o' A8 c3 a; D: A, w( I
' r5 ^. Y) U8 B9 J9 U! n) |9 V* g( f& f; I6 e6 e: m6 @; [2 u
& ^0 | M$ i6 n5 f! ?- g
3 H; z9 a9 ^/ }$ m- R
/ ~5 g% t9 p# Q$ P! M |
|