klwo2 发表于 2018-9-17 16:43:04

制作图片版的一点心得

我做了很多图片版了,用某人的话说,都快成精了。其实我一直都是用tsiank的这个教程帖做的,做一次看一次,这里补充一些他的帖子里没有讲的心得。

1. 教程帖里面的width="1080px",建议换成width="100%"。这样可以让图像适应宽度

2. 图像一定不要用 tif 格式!Goldendict 显示不了。正确的做法是把 tif 转成png,不要转成jpg,jpg图片更大

3. 保存 txt 的时候,记得选择UTF-8无签名(也就是无BOM)

4. 用 mdxbuilder 打包图像的时候,记得路径最后不要加「\」,正确的路径是「C:\某某词典\图像」,不是「C:\某某词典\图像\」

下面是一些用FineReader 的心得,众所周知,这个软件OCR效果很好,有了它的帮助,我们才能快速做出索引的呀。

1. 打开图像后,建议先做预处理、让软件识别一下最佳分辨率,这样OCR效果更好

2. 要善用「区域模板」功能。我们做图片版,一般都是只让软件识别索引部分的,我们可以自定义某一页的特征(表格啊、文本啊),然后让所有页面加载区域模板。

3. 要善用「橡皮擦」功能,有的索引里面有干扰识别的内容,比如常见的「………………」分隔符。有两种办法,一种是让软件按文本识别,一种是用橡皮擦擦掉。

4. 保存成果的时候,要选「无格式」的,因为我们不需要软件保留什么粗体啊倾斜啊这样的格式

FineReader 的心得说得比较简略,主要是现在不方便截图。以后慢慢补充。

喬治兄 发表于 2018-9-18 00:51:06

本帖最后由 喬治兄 于 2018-9-18 02:46 编辑

感謝 klwo2 兄適時地指點迷津
非常簡明扼要的點出了實務的重點
非常受用
謝謝
{:4_105:}
另外 klwo2 兄能否麻煩您再一次指點迷津一下
小弟看了很久實在看不太懂{:4_91:}

謝謝您了
感恩

請教 Mdxbuilder 所附件下的demo 檔的幾個疑問
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
index
CSS: <a href="entry://css">demo</a><br>
Sound: <br>
<a href="entry://sound">demo using link</a><br>
<a href="entry://bgsound">BGSound demo</a><br>
Graphic: <a href="entry://graphic">demo</a><br>
In page link: <a href="entry://#section name">link to view source</a>
<br>1<br>2<br>3<br>4<br>5<br>6<br>7<br>8<br>9<br><br>1<br>2<br>3<br>4<br>5<br>6<br>7<br>8<br>9<br>0<br>0<br>
some dummy lines<p>
<a name="section name">View Source:</a>
<a href="source://index">view</a>
</>
css
<head>
<link rel="stylesheet" type="text/css" href="inline0.css" />
<link rel="stylesheet" type="text/css" href="inline1.css" />
</head>
<body>
<p id="p0">This line should appear green.</p>
<p id="p1">This line should appear red</p>
<a href="source://#">Source code</a>

</body>
</>
sound
Sound test, please click this: <a href="sound://test.spx"><img src="/playIcon.jpg"></img></a>
</>
bgsound
You should be able to use the "speaker" button in the up-right to play audio now
<BGSound src="/test.spx">
</>
graphic
This entry can show a graphic as this: <img src="/mdict.gif">mdict.gif</img>
a very large photo: <img src="/1.jpg">1.jpg</img>
</>
internal redirect to "graphic"
@@@LINK=graphic
</>
cross page link with section
<a href="entry://index#section name">jump</a>
</>
------------------------------------------------------------------------------------------------------------------------------------------------------------------
<a href="entry://headword">abc</a> ------------------->此用法是否轉跳headword的那個詞頭

<a href="entry://index#section name"> ------------------->此用法是???????????????也是跳轉到index的那個詞頭,#section name--->不知作用????
是否跳到 詞頭 index 的這個 <a href="entry://#section name">

<a href="source://#">Source code</a> ------------------->此用法好像不會跳轉只是Source code 下多了下劃線

<a name="section name">    -------------------> 此用法好像無作用也沒顯示 View Source:

<a href="source://index"> -------------------> 此用法是否顯示 index 詞頭下含html 語法

<BGSound src="/test.spx"> ------------------->此在 bgsound 的詞頭並沒有發出 test 的聲音, 用法是???????????????

Charlieqiu 发表于 2018-9-18 04:38:37

本帖最后由 Charlieqiu 于 2018-9-18 05:03 编辑

图片索引难弄,图片清晰度也难调... 尤其是古文字,如果清晰度没调好,那就彻底糊了,真的要小心,宁愿保持原格式体积大点清晰点,也不要为了缩小一点体积而毁了整个词典的价值。古文字类资料最好不要转纯黑白,还是保持原格式吧,除非水平高超...

saluttous 发表于 2019-11-4 16:57:57

多谢分享了
页: [1]
查看完整版本: 制作图片版的一点心得