|
|
Help talk:繁简处理/技术方案[编辑] 实现机制最好用 ANSI C 来写一个 lib,做成一个开源的项目,并提供与各种语言的接口,比如 PHP、Python 等。算法吗,可以考虑用树来实现。--Xyb 02:42 2004年9月9日 (UTC)
对于这类问题,通常的方法可以分为这样四种 1.字到字的转换表
优点:非常简单,转换表的制作也很容易完成
缺点:不能解决头发、皇后这样的问题。
也不能解决大陆、台湾用语习惯不同的问题(这个问题是否应在繁简体转换中一并解决,还有待商权)
2.词到词的转换表
优点:1的自然发展,同样是比较简单容易操作的
缺点:汉语中词的概念不像西方语言那样明显,主要体现在几个方面:
(1)汉语中语义的基本单位不是词,而是字,单字词在汉语中占了很大比例,对于单字词来说,
词到词的转换和字到字转换没有什么区别,
举个例子:比如做姓讲的“种”,和“種子”的“種”,从“种”来看你可以把水浒传里的
“延安府老种经略相公”,“老种”作为一个词加入规则,但如果另一篇文章中提到了“种某某”,
你就不可能把古往今来所有姓种的人都加入规则;从“種”来看,你可以把“種子”“品種”“種类”
加入规则,但你没法把所有作为单字词出现的種都加入规则:“这三種種子的大小各不相同”“谁来给
加个種啊?”(引自某bt论坛)
(2)汉语中大部分词的构成是很灵活的,可以很容易的组出新的词,比如你可以说“種马”是一个词,
还可以有“種猪”“種羊”,但是“種鸟”呢?鸟就不可以配種吗?现在养鸵鸟的人可是很多的欧!
类似的词还可以造出无数。
(3)汉语在书写中是不区分词的边界的,所以就有了前面提到的“人体内存在很多微生物”和“人体記憶體
在很多微生物”这样的问题。
即使我们讨论的不是汉语,而是英语法语这样的语言,要在词一级的层次上完全确定意义也是做不到的,
在句子的层次上也一样不行。
3.根据上下文,但不分析语义的转换
可以根据一些句型结构这样的模式,进行匹配,或者根据统计规律来提供转换的参考
比如:一个用逗号隔开的短语,开头是“在”,结尾是“后”,那么可以判断这个“后”多半是“後”而不是“后”
再比如:如果上下文中出现很多“门”、“纲”、“目”、“科”、“属”这样的词,那么句中出现的“种”很可能
就是“種”
优点:比2更进一步,准确性可能更高
缺点:程序实现,和构造规则的难度都较大
4.在理解语义的基础上进行转换
更进一步的分析,比如加入词性,词汇搭配,等等,直到完全抽取到全部的语言信息,从语义的层面进行分析
优点:理论上说是可能的,也是唯一有可能完全确定一个字的意义(也决定了写法)的方法
缺点:难度非常大,搞成之后那个图灵奖,当上著名大学终身教授应该是顺理成章的
还要说一句的是,中文的句式很灵活,很少固定的搭配和句型,一个词(字)的意义很多,多数词都有
多个词性
我们现在所采用的当属第2种,在效果、难度、效率之间是一个比较好的折中 但如上面所讲的,这样的方法并不足以解决全部的转换问题 因此,我认为我们的目标应该是,用词转换表提供一种简单高效容易操作的转换,并解决大部分的繁简问题 而以“zh-cn...zh-tw...”解决相对不具有普遍性的问题 --Soliton_Z 14:08 2004年12月16日 (UTC) [编辑] 测试站我在[1]放了个测试站,欢迎大家去试试。目前实现的基本思想类似于Wikipedia-l 上的一个贴子,[2],也在Wikipedia talk:繁简处理的讨论中提到过,大致如下:大部分文字在服务器端自动转换,不能自动转换的用wiki标记指明如何转换。Zhengzhu 02:54 2004年9月9日 (UTC) Shizhao 提到 Wikipedia talk:繁简处理/档案5#我来提个解决方案,我觉得有一定的道理。但是,我觉得那样会造成繁/简用户的不对称。另外,完全自动的转换总会有问题,所以加wiki标记似乎不可避免。Zhengzhu 02:54 2004年9月9日 (UTC)
Xyb 提到这个方法比较麻烦,尤其对于新手,因为有一个新的wiki标记需要学习。不过,我认为这其实是该方案的优点:新手(假设是简体用户)写作可以完全不管繁简互换的问题,只用自己习惯的中文(简体)书写。更有经验的繁体用户可以再改正少量的自动转换错误。而且,我设想如果转换表里没有的对应关系,应该是要有至少一个简体用户和一个繁体用户合作才能发现。 Zhengzhu的工作非常好,但我不知道你的工作能否和Squid良好的结合呢?--Mountain(Talk) 05:47 2004年9月9日 (UTC)
条目名称也需要转换。另外还要考虑到与以前的兼容性。词汇的对照表应该是开放性的,这样才符合wiki和GNU的精神--百无一用是书生 (Talk) 05:51 2004年9月9日 (UTC) 千万不要忘了这是一个国际性的项目,要考虑到其他语言版本。现在比较好的一点是通过标记可以让某些文字可以不处理。但是完全手工的进行词汇的转换,太繁琐了,需要更加自动化一些,这也是使用一个繁简对照表的用意--百无一用是书生 (Talk) 05:56 2004年9月9日 (UTC)
我做了个基本的简-繁词表, 用在测试站里. 另外, 我把9月8号的数据库备份放上去了, 这样大家可以看看实际的效果如何. 请大家踊跃在此提出建议/意见/问题. 具体转换表过几天贴上来(这两天太忙啦...) Zhengzhu 14:00 2004年9月10日 (UTC) 我个人反对'使用内部存储繁体简体由转换表自动生成的方案。使用繁简混排存储加简单的字转换表的方案是首选,转换表只应该做简单的文字级别的转换,不应该涉及词语,不应该涉及上下文,程序应该分下面几步工作: 1. 从数据库读取繁简混排的wiki文本 2. 如果用户语言是zh,则判断是zh-CHS还是zh-CHT,并据此将数据库中对应的混排文本转成相应繁体或简体文本 3. 应用标准wiki标签,同时应用处理繁简问题的定制wiki标签,繁简标签类似上面所说,即对于繁简说法不一致的词语分别给出两个版本 4. 呈现生成的HTML给用户 用户语言可以用过HTTP Request Header的Accept-Languages节获取 新增的标签应该力求易懂,标签是必须加的,不能依赖转换表,不应该有转换表,转换表会导致歧义难以解决。 Yaohua2000 09:26 2004年9月22日 (UTC) [编辑] 有关数据库保留的一个数据库是什么版本的?--[[User:Zy26|zy26 (Talk)]] 05:07 2004年9月9日 (UTC) [编辑] 匿名繁简体用户的识别對匿名用户可否嘗試按其IP位址識別所在地以推測新來者要使用的版本? 又或可在當眼位置放置一個轉換版本的按扭,當匿名用戶第一次選擇後,我們用cookie將這決定記下,那下次那匿名用戶再來我們就可以提供合適的版本。 --Lorenzarius 13:45 2004年9月13日 (UTC)
[编辑] 兼容性问题现在存在许多同一个条目两个版本的情况,还有许多繁体重定向到简体,或者简体重定向到繁体,将来繁简转换时应该如何处理这些情况呢?--百无一用是书生 (Talk) 07:51 2004年9月14日 (UTC)
[编辑] Squid Cache的问题Wikipedia Squid Cache的资料请参考:Wikipedia network ideas。--Mountain(Talk) 08:29 2004年9月14日 (UTC) [编辑] 测试评价现在的测试中,我认为可以改善一下。现在繁简用语不同必须每次进行手工转换,例如克罗地亚和克羅埃西亞,比较麻烦。最好能够修改一次,所有文章中的词汇都同时转换。因此,我还是认为做一个开放的转化表比较好。在转换表中列出繁简不同的用词:比如
用户可以随时添加新的词汇到表中。软件根据表中的词汇进行转换。为了防止有人恶意的修改转化表,可以将他设定为一个特殊页面,并且只允许管理员来编辑。其他用户可以在专门的页面提出繁简对应的词汇,经过认可后由管理员录入到转换表中。这类似于投票或协商机制,也是维基百科上的一致传统。 现在的测试有很多bug,例如首页中的许多内容还是繁简混杂,并没有转换。
建议将zh-cn克罗地亚zh-tw克羅埃西亞这种标记的作用与转化表合并,克罗地亚这种标记保留,其中的内容作为不转换处理。另外还要考虑到,文章中出现的日文汉字不要转换,如果没有其他方法,也可以使用上面的标记来标明。--百无一用是书生 (Talk) 07:32 2004年9月15日 (UTC) 或者进一步使用zh克羅埃西亞这种标记,表示其中文字只进行繁简直接转换,而不进行词汇的转换。即:zh克羅埃西亞在简体显示为“克罗埃西亚”,而不是克罗地亚,而在繁体则仍然显示为克羅埃西亞;同理zh克罗地亚繁体显示为克羅地亞,简体则仍然显示为克罗地亚。这主要是为了让一些对繁体或简体阅读有困难的人来服务的--百无一用是书生 (Talk) 07:41 2004年9月15日 (UTC)
Zhengzhu的工作令人振奋。下面是我的几点意见:
--Mountain(Talk) 05:25 2004年9月16日 (UTC)
如果轉換表按照Unicode碼有序存儲,那麽對於當前不到3000個差異字,每次查找的次數應該不超過13L(L為文章長度)?--Yacht (talk) 11:40 2004年9月29日 (UTC) [编辑] 界面测试测试站现已实现繁简界面的切换。如果检测的用户语言是zh-cn(缺省值),则使用简体界面,否则使用繁体界面。具体做法是在数据库中保留两个版本的 message key. 比如原来的 mainpage 变成了 mainpage_cn 和 mainpage_tw。相应的 message 函数则根据语言选项决定是用 mainpage_cn 还是 mainpage_tw。这个改动只花了很少时间(quick hack),所以很可能不是很完善。至少有一处,就是 Special:Allmessage 页还没做相应修改,仍显示原来的 message key。如果要使用 Special:Allmessage,可以手工在浏览器的 URL 框中加上_cn 或 _tw。我用此法把 mainpage 该成了“cn首页”和“tw首頁”,仅作示例。另,“cn首页”和“tw首頁”都改成原来“首页”的重定向,亦仅作示例。其它繁简体的界面翻译来自 mediawiki 1.3.3 版的 LanguageZh.php 和 LanguageZh_tw.php。-Zhengzhu 03:10 2004年9月16日 (UTC)
先把界面部分完成吧(不包括首页)。我觉得如果没有问题,可以与开发者联系,将修改的代码告知。或者将代码放在meta上,可以有更多的人来讨论和修改。其他页面内容的繁简问题可以作为下一步的目标--百无一用是书生 (Talk) 06:50 2004年9月16日 (UTC) 另外,现在zh-cn.wikipedia.org , zh-tw.wikipedia.org都重定向到zh.wp。可以把这个加到代码中。通过zh-cn访问的用户显示简体,通过zh-tw的用户显示繁体--百无一用是书生 (Talk) 06:53 2004年9月16日 (UTC) [编辑] 有歧义的转换Chenhao927在Wikipedia:繁简分歧词表里加了一条:内存 <=> 記憶體,这令我想起一个小笑话:老师让学生用“如果”造句,有学生曰:“汽水不如果汁好喝。”象“内存 <=> 記憶體”这样的转换就会有这个问题,比如:“人体内存在很多微生物”就会变成“人体記憶體在很多微生物”。这也是必须用手工方法才能有效解决的。-Zhengzhu 13:24 2004年9月16日 (UTC)
[编辑] ----最好把zh-tw中的namespace改成英文,这样与中文版保持一致比较好。--百无一用是书生 (Talk) 07:55 2004年9月17日 (UTC) 另外第一步先让操作界面改称繁简两种版本的,其他的页面内容先不要做转换。让大家熟悉一段时间以后,有了进一步认识和讨论,在进行页面内容的转换。另外,应该可以让Allmessages页面同时显示繁简两种界面的代码,并且不做转换,方便修改和维护。--百无一用是书生 (Talk) 07:59 2004年9月17日 (UTC) [编辑] 程序源代码程序源代码已进入CVS,请有兴趣者参与修改完善!-Zhengzhu 11:03 2004年9月17日 (UTC) 最好能够允许用户在繁简体界面之间自由切换--百无一用是书生 (Talk) 11:33 2004年9月17日 (UTC)
多谢鼓励!界面切换是一个普遍的诉求,已经有初始的工作在进行。现在CVS里的代码有只针对繁简体的界面切换,作为一个短暂的解决方法。测试站现在运行的就是CVS中的代码。--Zhengzhu 13:48 2004年9月17日 (UTC) [编辑] 用户参数设置测试站及CVS中已实现在用户参数中设定繁简字体选项,请到测试站注册以测试效果。-Zhengzhu 19:40 2004年9月17日 (UTC)
好像不起作用呀,连原来起作用的繁简转换也见不到了。--Mountain(Talk) 03:32 2004年9月20日 (UTC)
"language variant"项选在哪里?没找到呀!--Mountain(Talk) 05:42 2004年9月20日 (UTC)
好像有bug,有些界面是繁体,有些则是简体--百无一用是书生 (Talk) 06:04 2004年9月20日 (UTC)
参数设置中的界面语言(interface language)已经生效,请测试。-- Zhengzhu 07:03 2004年9月22日 (UTC)
"language variant"选项在哪里呀?还是没有找到。"interface language"找到了,确实起作用了。--Mountain(Talk) 07:39 2004年9月22日 (UTC)
左边分類(类)索引简体时候显示不正确,请协助修改。。。 [编辑] 能不能在数据库的一个字段当中保持繁体及简体两个版本?这样对于搜索,命中率能大一些,对于文章的编辑,可以编辑其中一个版本,另一个版本在存盘的时候自动生成,方便新手。--[[User:Zy26|zy26 (Talk)]] 05:58 2004年9月20日 (UTC)
[编辑] 是不是应该处理类似这样的URLhttp://s87257573.onlinehome.us/wiki/index.php?title=%E9%A6%96%E9%A1%B5&lang=zh-cn,直接显示简体……--[[User:Zy26|zy26 (Talk)]] 05:58 2004年9月20日 (UTC) [编辑] “”和“”为了保证和现有版本的兼容,是不是可以改成类似标注的文字?
或者类似的方法。--[[User:Zy26|zy26 (Talk)]] 06:11 2004年9月20日 (UTC)
测试站的Special:Allmessages中的内容部分简体,部分繁体--百无一用是书生 (Talk) 07:26 2004年9月22日 (UTC)
一个小建议:使用标记进行词语的转换时,可否这样.无论在标记中输入繁体还是简体系统根据用户的设置自动进行繁简体转换。例如繁体用户输入克羅地亞,在简体用户看来是克罗地亚,而不是克羅地亞。这样会比较方便用户的编辑,因为对于繁体和简体用户,同时输入繁体和简体可能会比较困难。
另外,现在如果不正确使用标记,则页面完全不显示标记以内的内容,这样的话会使页面无法阅读,我觉得如果用户标记使用出现错误,应该显示整个标记的内容,而不是隐藏。--百无一用是书生 (Talk) 09:01 2004年9月23日 (UTC)
[编辑] 现在工作的建议能不能把界面部分的自动转换工作完成后,先用到zh.wp中来?内容的转换下一步再说?这样也能给大家一个希望呀--百无一用是书生 (Talk) 07:57 2004年9月22日 (UTC)
界面转换涉及的问题比较多,而且也不仅仅是 zh 用户的诉求,可能要等到 1.4 吧。要给大家个希望,不如在首页放一个小专栏介绍目前工作的进展? 这样新老用户可以知道进度如何,也鼓励大家多提意见。-Zhengzhu 08:13 2004年9月22日 (UTC) [编辑] Mediawiki: namespace我已将支持Mediawiki: namespace的代码加入cvs,并已更新测试站。现在的做法是繁体/简体的界面信息在数据库中各存一份,在special:allmessages页看到的语言版本和用户的界面语言选项一致。因为只有管理员才能对namespace修改,如果大家想测试的话请在此会话,我在测试站给你们加管理员权限。 - Zhengzhu 05:12 2004年9月25日 (UTC) [编辑] 测试工作恳请大家多参与测试工作!编写代码只是整个工作中的一小部分,还需要大量的测试才能使代码完善。这很重要,因为目前我添加的功能大部分都是针对zh.wp的,其他开发者和用户主要关心的是我的代码不会影响其它语言的工作,因此他们能提出的意见并不多。目前我最需要以下方面的反馈:
谢谢大家-Zhengzhu 05:12 2004年9月25日 (UTC)
--石添小草 06:51 2004年9月29日 (UTC)
请到Wikipedia:繁简处理/转换表校对工作参与转换表校对工作。我也会在那里解释目前程序的工作原理。-- Zhengzhu 13:38 2004年9月30日 (UTC)
[编辑] 标题的繁简自动转换现在测试站已实现文章标题的自动繁体/简体转换,请大家前去测试!转换包括两部分:
-Zhengzhu 03:23 2004年10月4日 (UTC) 赞!--[[User:Zy26|zy26 (Talk)]] 11:42 2004年10月7日 (UTC) [编辑] zh-hk 和 zh-sg对 zh-hk 和 zh-sg 的基本支持已经实现,请见测试站。另,用-{}-进行手工转换的的格式作了小调整。当要对链接等进行转换时,-{}-标记应放在最外层,如-{zh-hans:[[简体]]; zh-hant: [[繁体]]}-。 我把测试站的代码和cvs同步了一下。最近cvs的更新较多,所以可能会有一些意想不到的错误;-) - Zhengzhu 14:51 2004年10月8日 (UTC) [编辑] 维基词典目前的方案似乎在维基词典中存在问题。在维基词典,繁体字和简体字都是作为一个单独词条存在的,也就是说,页面中的内容需要自动转换,但是页面名称却不可以。--百无一用是书生 (Talk) 13:07 2004年10月13日 (UTC)
但是又需要区别对待,对于单个汉字需要区分繁简体,但是对于词汇却不需要区分繁简--百无一用是书生 (Talk) 16:57 2004年10月13日 (UTC) [编辑] 内部连接能否自动转换?目前的系统能否作到内部连接的自动简繁转换?也就是内部连接是用简体字给出的,而实际上只存在一个繁体字标题的条目,这种情况下能不能实现从简体字内部连接连到到繁体字条目?还有连接的颜色是红色的还是蓝色的?--hunry 05:23 2004年10月23日 (UTC)
[编辑] 参考资料[编辑] 关于语境的一点想法我们现在的讨论,基本上是集中在白话文的问题上 但在百科全书中涉及历史、宗教等问题时,引用文言文也是十分普遍的 对于这样的内容,不需要画蛇添足的去做大陆习惯用语和台湾习惯用语的转换 也不适合用白话文的词表进行繁简转换 于是我想是否可以通过标记的方式,标出这样的段落,指定用文言的词表,而不是白话的词表转换 进一步的,我们还可以有明清白话的词表和规则 讨论IT领域问题的词表和规则 讨论政治问题的词表和规则 这样一套词表,我姑且称之为一个语境 通过指明语境,可以增加转换的准确性 也降低了设计词表的难度 再进一步说,可以在文章中增加很多类似的自描述的成分,这对于繁简转换这样的问题,或者是检索,以及其他需要计算机了解语义的地方都有很大的好处 --Soliton Z 14:31 2004年12月16日 (UTC)
[编辑] 建議以正體字為主建議內文以正體字(繁體字)為主。請台灣、香港的朋友將大陸、新加坡朋友的創作先用手工全部轉成正體字。這個過程,可使用輔助軟件幫忙,不過,一定要整篇再一字一字的校正,若仍有疏漏,則請發現的朋友再做小部份修改。但是,原則上只能將簡化字轉成正體字,而不能另做詞彚的轉換 (例如,只將「软件」轉成「軟件」,不可換成「軟體」),以尊重原創者。 內文都是正體字的話,要通篇轉成簡化字就好辦多了。因為,正體字轉簡化字都是一對一,或多對一;只有少部份的字是一對多,這部份只要再建立詞彚庫,即可正確轉換。例如,乾→干(乾坤、乾隆,不簡化),徵→征(宮商角徵羽,不簡化),藉→借(狼藉,不簡化)。 --Vertex 07:34 2004年12月23日 (UTC)
[编辑] Template:CGroup/Show收錄越多字會令越多文章出錯已開始在澤田研二#功績條目顯現,MON AMOUR JE VIENS DU BOUT DU MONDE》(我的愛人,我來自世界的盡頭)變成(我的愛人,我來自魔盜王終極之戰) 其他zh-hk例句︰
我只建議人名才加入TEMPLATE, 而電影則做參考的翻譯條目, 不加入TEMPLATE, 否則很多文章將會嚴重出錯。同時日本藝人又是否有需要加入這個以荷里活為主的TEMPLATE呢? -- 豬(月利)狂 (留言) 2008年6月28日 (六) 23:58 (UTC) |
| kreatyna kreatyna www.activebody.pl | Gry Online Gry Online www.pozycjonarka.in… | Plaza 3 star hotel Los Angeles www.triptake.com | krynica noclegi krynica noclegi,ośrodek, wypoczynk… gornik.com.pl | Kredyty odnawialne Kredyty odnawialne www.eskarbiec.pl |