还是特殊字符的查询的问题
法语维基转换好了的mdx文件在查询时无法跳转到以大写É、Œ、Ç等特殊字符开头的单词。但是,如果我把TXT文件中这些单词中大写开头的É、Œ、Ç换成小写的é、œ、ç,则可以正常跳转与查询。原始mdx,没有替换成小写——结果无法查询。
换成小写之后,可以查询,但是不够美观。
如何解决这个问题呢? 你好,能不能把相关的几个词条单独抽出来做成txt文件发给我? 楼主用utf16就OK了。
我处理越南文也碰上同样的情况,非英文26字母开头的词条无法跳转与查询,小写的正常。后来用UE把UTF8文本另存为UTF16就没事了。法文跟越南文一样有几个特殊字母。
Note:法文维基太大,先在Ue的配置里关掉备份才能打开。
搭车请教一下rayman,UTF8跟16有何不同?是不是因为UTF16把每个字母固定为2个字节更适合MDict?
另:如果用UTF16,MDict alpha 3或4 的全文搜索就no work了,alpha2正常。
[ 本帖最后由 lenguyendu 于 2008-12-10 17:33 编辑 ] 回LS,用UTF-16的话,在转换时,总提示Invalid style format file。
回rayman,附件里面的TXT文件列举出了所有可能的例子。
顺便问一下,UE的配置我也改了,为什么还是会照例生产源文件2倍大小的临时文件?
难道设置错了? 1."Invalid style format file" 大概就是说:那个example_style.txt 仍然不是UTF16的呀,同样要用UE把它也换成UTF16,以便跟主文本统一阵线。
2.你要转的是frwiki吧,根本就不用填Style这项的哦。Original format 选MDict(Html).
3.UE这样设置没错,先删掉原来的临时文件*.bak,配置--->...加载--->不加载上次打开的文件。
[ 本帖最后由 lenguyendu 于 2008-12-11 00:09 编辑 ] 用UTF-16转出来的全都是乱码啊,LS可否用我在5楼提供的TXT文件试一试? 原帖由 zcm1019 于 2008-12-11 09:45 发表 https://pdawiki.com/images/common/back.gif
用UTF-16转出来的全都是乱码啊,LS可否用我在5楼提供的TXT文件试一试?
不会吧,utf8不乱的话utf16就更不会乱了。你上张乱码的图看看。 UTF-8的话,进行大小写转换的时候是按英文字母来处理的。但UTF-16的话,是按国际化语言的大小写转换。估计就是这里造成了大写无法查询吧? 1,我把example_style.txt 设置为UTF-16,仍然会显示Invalid style format file;
2,如果把Style那一栏留空,则转换为UTF-16的时候总是出现乱码。(TXT文件已经改为UTF-16了)
TXT文件的样本在5楼提供了,不知是否有好心人能根据这个TXT指点我一下。 你提供的那个文件并不是UTF-16编码。可以在UltraEdit里面将文件转换成UTF-16的。附件里是转换成UTF-16后的txt文件和转换好的.mdx文件
[ 本帖最后由 rayman 于 2008-12-11 23:37 编辑 ]
页:
[1]