脚本数据集

数据处理是高阶函数表现突出的一个领域。 为了处理数据,我们需要一些真实数据。 本章将使用脚本书写系统的数据集,例如拉丁文,西里尔文或阿拉伯文。

请记住第 1 章中的 Unicode,该系统为书面语言中的每个字符分配一个数字。 大多数这些字符都与特定的脚本相关联。 该标准包含 140 个不同的脚本 - 81 个今天仍在使用,59 个是历史性的。

虽然我只能流利地阅读拉丁字符,但我很欣赏这样一个事实,即人们使用其他至少 80 种书写系统来编写文本,其中许多我甚至不认识。 例如,以下是泰米尔语手写体的示例。

脚本数据集 - 图1

示例数据集包含 Unicode 中定义的 140 个脚本的一些信息。 本章的编码沙箱中提供了SCRIPTS绑定。 该绑定包含一组对象,其中每个对象都描述了一个脚本。

  1. {
  2. name: "Coptic",
  3. ranges: [[994, 1008], [11392, 11508], [11513, 11520]],
  4. direction: "ltr",
  5. year: -200,
  6. living: false,
  7. link: "https://en.wikipedia.org/wiki/Coptic_alphabet"
  8. }

这样的对象会告诉你脚本的名称,分配给它的 Unicode 范围,书写方向,(近似)起始时间,是否仍在使用以及更多信息的链接。 方向可以是从左到右的"ltr",从右到左的"rtl"(阿拉伯语和希伯来语文字的写法),或者从上到下的"ttb"(蒙古文的写法)。

ranges属性包含 Unicode 字符范围数组,每个数组都有两元素,包含下限和上限。 这些范围内的任何字符码都会分配给脚本。 下限是包括的(代码 994 是一个科普特字符),并且上限排除在外(代码 1008 不是)。