Question

我是一把一只面包车开车,我有一只花八门的问题。

我有一张图八,我想用ASCII替代物来取代所有的高纬度(在德国,可以改写为座)。

u-umlaut有252个统一编码点,因此我尝试:

>>> str = unichr(252) +  ber 
>>> print repr(str)
u xfcber 
>>> print repr(str).replace(unichr(252),  ue )
u xfcber

我期望最后一点是<代码>u ueber 。

我最终想要做的是,在档案中,用的是:

import sys
import codecs      
f = codecs.open(sys.argv[1],encoding= utf-8 )
for line in f: 
    print repr(line).replace(unichr(252),  ue )

感谢你们的帮助! (一百万人使用2.3)。

Answer 1

我将界定一个具有特别特征的词典(我想绘制地图),然后我使用<代码>translate<>code>方法。

line =  Ich möchte die Qualität des Produkts überprüfen, bevor ich es kaufe. 

special_char_map = {ord( ä ): ae , ord( ü ): ue , ord( ö ): oe , ord( ß ): ss }
print(line.translate(special_char_map))

您将取得以下成果:

Ich moechte die Qualitaet des Produkts ueberpruefen, bevor ich es kaufe.

Answer 2

我认为,以更直截了当的方式,直接使用统一编码代表比不iichr(252)更好,是最容易和更清楚的。

>>> s = u über 
>>> s.replace(u ü ,  ue )
u ueber

没有必要再行,因为这样会印古尔语的表述,你才需要提出可读的描述。

您还需要在案卷行乞时列入以下线,如果档案尚未到场,则要说明档案的编码。

#-*- coding: UTF-8 -*-

<><><> 当然,申报的编码必须与卷宗编码相同。请核实问题(我对Windows的Eclipse存在问题,例如,由于文件在缺席时将文件作为p1252。) 该系统还应与系统相同的编码,即“ut”-8,或“ la-1或他人”。

此外,不使用<代码>str作为变数的定义,因为它是沙尔图书馆的一部分。以后,你可能会有问题。

(我正试图粉碎2.6,我认为结果也是一样)

Answer 3

repr(str) 退回一个引文版str,在打印时,你可以打回波茨,以获得扼回。因此,它载有一个字面上包含xfcber的插图,而不是包含über的插图。

您只能使用<代码>str.replace(unichr(252), ue ),以取代ü。

如果您需要获得这一结果的引文,尽管我并不认为你需要,但你可以在<条码>repr上总结整个表述:

repr(str.replace(unichr(252),  ue ))

Answer 4

你们可以避免所有这种来源地表 st着 st子及其问题。利用统法协会的名称,然后直截了当地清楚你正在做什么,法典可在任何地方读和修改。

我不知道哪一种语言是,唯一的拉丁字母缩略语是低地字母-u-with-umlaut-aka-diaeresis,因此,我补充说,根据你需要,在翻译桌旁摆着。

# coding: ascii

translations = (
    (u N{LATIN SMALL LETTER U WITH DIAERESIS} , u ue ),
    (u N{LATIN SMALL LETTER O WITH DIAERESIS} , u oe ),
    # et cetera
    )

test = u MN{LATIN SMALL LETTER O WITH DIAERESIS}ller von MN{LATIN SMALL LETTER U WITH DIAERESIS}nchen 

out = test
for from_str, to_str in translations:
    out = out.replace(from_str, to_str)
print out

产出:

Moeller von Muenchen

友情链接