掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1294|回复: 33

[经验心得] 搭建本地全文搜索数据库,快速提高理解能力。

[复制链接]
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

    发表于 2019-2-26 16:50:19 | 显示全部楼层 |阅读模式
    本帖最后由 孤影 于 2019-2-26 07:56 编辑 9 |( g8 p: @& o- z7 ?- F) B

    9 U# F& G. j4 _: ~' m9 |0 ], C* m2 I数据收集
    • http://www.duxiu.com  图片版资源,有相关的下载技巧,某宝有售
    • https://www.amazon.cn kindle电子书,出版级资源,可和谐
    • 搜索术 通过各类搜索引擎,各显神通+ a/ J  D5 P. W! t  ~) n

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    本帖被以下淘专辑推荐:

  • TA的每日心情
    擦汗
    8 小时前
  • 签到天数: 29 天

    [LV.4]偶尔看看III

    发表于 4 天前 | 显示全部楼层
    其实本人也在论坛中游荡多年,从论坛中获得了很多宝贵资源,真的非常的感谢。+ P( [0 {0 C( R0 i( G
    9 a/ t1 g9 a( d' d: v3 A1 s感谢那些无私奉献的人。) c2 h$ n- d" a) ~7 I2 M( e
    每次看到做出的精美的mdx,心里也会有一丝感动,感动的不光是词典本身,而是制作者精益求精的态度及执着的精神。0 o3 \5 E5 @% w4 B, P$ X6 y7 W: ^6 e
    放眼望去,几年之中,论坛的制作高手相继的离开大家的视线,当然也有新人涌现,但是能够像O大这样坚守和无私奉献的人真是寥寥无几。4 }! o2 U+ M. f% g* i9 S1 W* M, D% {6 x& [5 D2 I- j; ?
    本人真心佩服O大和感谢O大,真的是辛苦了0 \* ^2 f6 ]2 X" s7 _
  • TA的每日心情
    开心
    2018-3-30 09:21
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2019-2-27 09:29:03 | 显示全部楼层
    为什么不试试这个,记得论坛上有人推荐过
      H5 C" d7 _0 V0 EArchivarius 3000 v4.78 Multilingual x86/x647 P# V* A" m' ^9 @# ^( K
    https://www.0daydown.com/07/185643.html
    ' \4 Z; F# {9 z) H1 v2 [2 d官方http://www.likasoft.com/document-search/index.shtml3 E; g: j0 X- K
    最新版4.795 q' i4 D/ R4 p0 F

    4 H' j/ [- U' X( d( S
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-26 16:56:41 | 显示全部楼层
    本帖最后由 孤影 于 2019-2-26 08:22 编辑 3 P! ^, r% |. S+ K$ @* A& R

    0 b. [( Q! U) [4 c2 K3 l2 R( w使用abbyy批量OCR的时候会有两个问题3 G+ `: z: f2 o- @
    1、性能低下
    7 C7 I* I* w/ k) L1 ~, N   可以通过虚拟机多开解决,不建议,不过没其他的办法& F! ]" ?' i2 g
    2、不能保存源文件的书签
    $ L; ^) j. K4 e   需要自己写程序,懒,还没写
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-26 21:18:32 | 显示全部楼层
    孤影 发表于 2019-2-26 16:565 r& E# s' o5 k+ _
    使用abbyy批量OCR的时候会有两个问题
    # v4 j4 @  e  X1、性能低下
    - S, l- L# P! K4 D1 W* P   可以通过虚拟机多开解决,不建议,不过没其他的办法
    , @7 u8 o# W$ A8 k
    原来PDF也可以全文搜索…
    ( Y! f. c& r6 }通过Adobe Acrobat Pro OCR的图片PDF也可以这样用对吧
    & I3 d: Q$ ^4 \. u3 l$ M$ Y$ @想想有点激动…
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-26 21:53:56 | 显示全部楼层
    jonah_w 发表于 2019-2-26 12:18# d! Y0 r/ A; _& l2 x0 q
    原来PDF也可以全文搜索… 1 y* N2 a; v% q0 _/ @3 [
    通过Adobe Acrobat Pro OCR的图片PDF也可以这样用对吧* X2 `: ~% p" c/ ~
    想想有点激动… ...
    . K! ?/ u  \, M" ]3 `; d5 B
    可以
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:08:23 | 显示全部楼层
    孤影 发表于 2019-2-26 21:53
    ! R( \" c) x0 u  a可以

    2 x( n0 u) H- r# W5 g5 N/ \0 B8 O不过我刚用rg全文搜索命令去搜,好像不行。是不是必须用FileLocator Pro 软件才可以支持pdf内的全文搜索… 另外试了epub文件和mobi文件貌似都不支持rg命令
    0 U$ W: F, ]  U9 ^1 g& @; K! d7 Q- M
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-26 22:10:42 | 显示全部楼层
    jonah_w 发表于 2019-2-26 13:08
    6 H4 T- g5 H! v不过我刚用rg全文搜索命令去搜,好像不行。是不是必须用FileLocator Pro 软件才可以支持pdf内的全文搜索 ...
    / H( {, v( R6 f
    这个东西还需要细细研究。% V4 T9 @/ S& W6 @7 f1 g: B
    我又了解了到了一个新的软件Citavi 6,比filelocator好用。
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:16:46 | 显示全部楼层
    孤影 发表于 2019-2-26 22:10
    ( a; g; _5 {) P& E6 G这个东西还需要细细研究。. t. a; f& S" B% F% n, c
    我又了解了到了一个新的软件Citavi 6,比filelocator好用。 ...

    + n5 d3 [3 e+ b, ?7 h  C9 O3 N我去搜搜看
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:21:48 | 显示全部楼层
    孤影 发表于 2019-2-26 22:10
    5 q* n! J; f5 Y' X! f6 b! Q& W5 e. s这个东西还需要细细研究。
    + q' J! @  w1 F+ [$ Q! L) Q我又了解了到了一个新的软件Citavi 6,比filelocator好用。 ...

    ; s3 ~1 @* Q* b( i% ?好像不支持mac os
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-26 22:23:02 | 显示全部楼层
    jonah_w 发表于 2019-2-26 13:21! ]: ~7 D$ x9 h. A2 V
    好像不支持mac os
    , T1 Y# r8 Z1 L6 t
    对哦
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-26 22:37:03 | 显示全部楼层
    jonah_w 发表于 2019-2-26 13:21) N6 v$ x2 r1 \+ V/ H
    好像不支持mac os

    $ s& Z; v  n9 D4 R& r7 v/ b2 i+ b. i5 zgl_n老哥给我推荐了DEVONthink这是mac独享 158欧
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-2-26 22:37:37 | 显示全部楼层
    jonah_w 发表于 2019-2-26 22:21
    ' O( n9 o& U3 [! k好像不支持mac os

    ! m2 G+ Z" p2 |" \; `Mac里用这个:DEVONthink,媲美citavi
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-26 22:56:38 | 显示全部楼层
    GL_n 发表于 2019-2-26 22:37
    + a" p( Y- Z, e' yMac里用这个:DEVONthink,媲美citavi
    ! [8 H" E4 S+ b2 j1 B
    好,马上试试,感谢老哥
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-26 23:46:26 | 显示全部楼层
    GL_n 发表于 2019-2-26 22:379 n2 i) C( w* u# q' j" E
    Mac里用这个:DEVONthink,媲美citavi

    3 j& N& `2 A( F* L研究了一下,这个软件支持txt等基本格式,但好像对pdf支持很一般,搜索的时候不能直接显示pdf内容。  _- N. f( f7 U; ?8 l; [
    像filelocator里这样:直接显示文字内容* V8 t* q% i4 m( R; J. T' A
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-27 00:29:47 | 显示全部楼层
    jonah_w 发表于 2019-2-26 14:46
    " j9 {" J) O9 ]$ l研究了一下,这个软件支持txt等基本格式,但好像对pdf支持很一般,搜索的时候不能直接显示pdf内容。- x8 }, S  G. ^# u- i3 p
    像fi ...

    ' `& Y8 X9 N- U# m" f4 [7 Z- B% p对啊,而且慢。
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-2-27 00:51:01 | 显示全部楼层
    jonah_w 发表于 2019-2-26 23:46$ v- @; x, Q! e" G% R' c2 g
    研究了一下,这个软件支持txt等基本格式,但好像对pdf支持很一般,搜索的时候不能直接显示pdf内容。
    & `$ e# O: l" E像fi ...

    - W) C1 }- v& d5 q1 O; }% d% O7 I要对PDF文献进行全文搜索,DEVONthink好像目前是不怎么强大。如果对PDF文献全文搜索很依赖的话,Mac上我发现这个功能最强的文献管理工具是zotero,你可以试试zotero。
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-27 01:02:29 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-2-27 01:04 编辑
    4 r9 G+ ]! @! N' `
    GL_n 发表于 2019-2-27 00:51
    - m9 F) Z' e& I- v" e; @要对PDF文献进行全文搜索,DEVONthink好像目前是不怎么强大。如果对PDF文献全文搜索很依赖的话,Mac上我 ...

    7 D$ m4 P) @% s刚试了一下zotero,提示“The selected file is not in a supported format.”+ D5 t( t" g% ~* u! Z
    不支持pdf格式
    ) v3 }& D/ ~2 y2 I. C0 ]8 `. z( \txt格式也不支持…0 d* y5 k! H3 j; A
  • TA的每日心情
    开心
    9 小时前
  • 签到天数: 58 天

    [LV.5]常住居民I

    发表于 2019-2-27 03:34:33 | 显示全部楼层
    我试过 Foxit PhantomPDF OCR 辨识 PDF 文件,% e1 o/ Y  v  a: F6 N6 P
    在 File Locator Pro 中是可以搜索的,
    2 l) H) @* ?. Q' \3 {OCR 可以一次辨识多个档案。
  • TA的每日心情
    奋斗
    2018-5-18 05:02
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2019-2-27 05:34:19 | 显示全部楼层
    jonah_w 发表于 2019-2-27 01:02* k0 A. P# s: `; \
    刚试了一下zotero,提示“The selected file is not in a supported format.”
    * P) i3 l+ f# `' e9 J( m' ?不支持pdf格式  
    " M6 o; G! s! X$ k- w/ ]; F3 ct ...
    3 f. A+ r8 Q- c1 l
    zotero不可能不支持PDF啊。任何一个不支持PDF的文献管理软件,都不是真正的文献管理软件。可以说,几乎所有称得上文献管理软件的管理工具都是支持PDF的。你应该是设置不对。
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-27 08:40:47 | 显示全部楼层
    本帖最后由 jonah_w 于 2019-2-27 08:43 编辑
    ! f6 r) Z6 N4 u4 l1 }+ g* Z
    GL_n 发表于 2019-2-27 05:34
    * n" f5 D& r" A) yzotero不可能不支持PDF啊。任何一个不支持PDF的文献管理软件,都不是真正的文献管理软件。可以说,几乎所 ...

    $ E% B  h* c) zPDF可以拖进去,双击也可以调用内置的Preview软件打开。1 E/ R3 {# e( {
    但搜索不了PDF内容… 9 b  m3 i2 J$ k% K: q7 v
    通过File的Import选项导入不了pdf。需要建个item,然后pdf拖进这个item里。
    * l. M5 p1 |% E) F+ @% V: P现在通过pdfgrep命令临时解决了全文搜索pdf…
    9 R$ Z: ^& I9 g) U8 E
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-2-28 20:37:35 | 显示全部楼层
    jonah_w 发表于 2019-2-26 23:40
    . `/ L& I& W2 G* h$ [6 v, BPDF可以拖进去,双击也可以调用内置的Preview软件打开。
    " n5 Y: P5 I3 N2 f但搜索不了PDF内容…
    # U+ \. e- a: W8 D* }2 O通过File的Import选项导入 ...

    + u% b* z/ I" q你这个方法也不快吧?几秒?
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-2-28 21:23:35 | 显示全部楼层
    孤影 发表于 2019-2-28 20:37* E0 ?- D, ?( x4 n; E
    你这个方法也不快吧?几秒?

    $ L$ ?; B; ^* @$ X  s还挺快的,比rg稍慢点
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-3-1 00:15:37 | 显示全部楼层
    jonah_w 发表于 2019-2-28 12:237 u+ w- x% j0 s: T/ d& L4 t! W
    还挺快的,比rg稍慢点
    ( U& B8 x4 l; T  m, L
    其实都慢,不能秒的都慢,感觉要自己写程序才能实现。
  • TA的每日心情
    无聊
    7 天前
  • 签到天数: 90 天

    [LV.6]常住居民II

    发表于 2019-3-1 00:29:08 | 显示全部楼层
    孤影 发表于 2019-3-1 00:15- A! j& m( m+ @$ i% `8 i
    其实都慢,不能秒的都慢,感觉要自己写程序才能实现。

    0 m! |' w  K) l- yrg 1秒内是肯定的了,可能pdfgrep要多过1秒,也很快,至少比查词典要快
  • TA的每日心情

    2019-3-6 06:39
  • 签到天数: 58 天

    [LV.5]常住居民I

     楼主| 发表于 2019-3-1 00:30:33 | 显示全部楼层
    jonah_w 发表于 2019-2-28 15:299 N( K3 x: s) u1 F1 s# q, z
    rg 1秒内是肯定的了,可能pdfgrep要多过1秒,也很快,至少比查词典要快

    * w# L9 |+ P7 `' X) ^9 s7 fj几个pdf呀,200个吗?弄个动图看看。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2019-3-22 09:51 , Processed in 0.122341 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表