翻譯:wh1100717
校對:Hawstein

字符串和字符(Strings and Characters)


本頁包含內容:

String是例如「hello, world」,「海賊王」 這樣的有序的Character(字符)類型的值的集合,通過String類型來表示。

Swift 的StringCharacter類型提供了一個快速的,兼容 Unicode 的方式來處理代碼中的文本信息。 創建和操作字符串的語法與 C 語言中字符串操作相似,輕量並且易讀。 字符串連接操作只需要簡單地通過+號將兩個字符串相連即可。 與 Swift 中其他值一樣,能否更改字符串的值,取決於其被定義為常量還是變量。

儘管語法簡易,但String類型是一種快速、現代化的字符串實現。 每一個字符串都是由獨立編碼的 Unicode 字符組成,並提供了以不同 Unicode 表示(representations)來訪問這些字符的支持。

Swift 可以在常量、變量、字面量和表達式中進行字符串插值操作,可以輕鬆創建用於展示、存儲和打印的自定義字符串。

注意:
Swift 的String類型與 Foundation NSString類進行了無縫橋接。如果您利用 Cocoa 或 Cocoa Touch 中的 Foundation 框架進行工作。所有NSString API 都可以調用您創建的任意String類型的值。除此之外,還可以使用本章介紹的String特性。您也可以在任意要求傳入NSString實例作為參數的 API 中使用String類型的值作為替代。 更多關於在 Foundation 和 Cocoa 中使用String的信息請查看 Using Swift with Cocoa and Objective-C

字符串字面量(String Literals)

您可以在您的代碼中包含一段預定義的字符串值作為字符串字面量。 字符串字面量是由雙引號 (“”) 包裹著的具有固定順序的文本字符集。

字符串字面量可以用於為常量和變量提供初始值。

  1. let someString = "Some string literal value"

注意:
someString變量通過字符串字面量進行初始化,Swift 因此推斷該變量為String類型。

字符串字面量可以包含以下特殊字符:

  • 轉義字符\0(空字符)、\\(反斜線)、\t(水平製表符)、\n(換行符)、\r(回車符)、\"(雙引號)、\'(單引號)。
  • 單字節 Unicode 標量,寫成\xnn,其中nn為兩位十六進制數。
  • 雙字節 Unicode 標量,寫成\unnnn,其中nnnn為四位十六進制數。
  • 四字節 Unicode 標量,寫成\Unnnnnnnn,其中nnnnnnnn為八位十六進制數。

下面的代碼為各種特殊字符的使用示例。 wiseWords常量包含了兩個轉移特殊字符 (雙括號); dollarSignblackHeartsparklingHeart常量演示了三種不同格式的 Unicode 標量:

  1. let wiseWords = "\"我是要成為海賊王的男人\" - 路飛"
  2. // "我是要成為海賊王的男人" - 路飛
  3. let dollarSign = "\x24" // $, Unicode 標量 U+0024
  4. let blackHeart = "\u2665" // □, Unicode 標量 U+2665
  5. let sparklingHeart = "\U0001F496" // □欠Unicode 標量 U+1F496

初始化空字符串 (Initializing an Empty String)

為了構造一個很長的字符串,可以創建一個空字符串作為初始值。 可以將空的字符串字面量賦值給變量,也可以初始化一個新的String實例:

  1. var emptyString = "" // 空字符串字面量
  2. var anotherEmptyString = String() // 初始化 String 實例
  3. // 兩個字符串均為空並等價。

您可以通過檢查其Boolean類型的isEmpty屬性來判斷該字符串是否為空:

  1. if emptyString.isEmpty {
  2. println("什麼都沒有")
  3. }
  4. // 打印輸出:"什麼都沒有"

字符串可變性 (String Mutability)

您可以通過將一個特定字符串分配給一個變量來對其進行修改,或者分配給一個常量來保證其不會被修改:

  1. var variableString = "Horse"
  2. variableString += " and carriage"
  3. // variableString 現在為 "Horse and carriage"
  4. let constantString = "Highlander"
  5. constantString += " and another Highlander"
  6. // 這會報告一個編譯錯誤 (compile-time error) - 常量不可以被修改。

注意:
在 Objective-C 和 Cocoa 中,您通過選擇兩個不同的類(NSStringNSMutableString)來指定該字符串是否可以被修改,Swift 中的字符串是否可以修改僅通過定義的是變量還是常量來決定,實現了多種類型可變性操作的統一。

字符串是值類型(Strings Are Value Types)

Swift 的String類型是值類型。 如果您創建了一個新的字符串,那麼當其進行常量、變量賦值操作或在函數/方法中傳遞時,會進行值拷貝。 任何情況下,都會對已有字符串值創建新副本,並對該新副本進行傳遞或賦值操作。 值類型在 結構體和枚舉是值類型 中進行了說明。

注意:
與 Cocoa 中的NSString不同,當您在 Cocoa 中創建了一個NSString實例,並將其傳遞給一個函數/方法,或者賦值給一個變量,您傳遞或賦值的是該NSString實例的一個引用,除非您特別要求進行值拷貝,否則字符串不會生成新的副本來進行賦值操作。

Swift 默認字符串拷貝的方式保證了在函數/方法中傳遞的是字符串的值。 很明顯無論該值來自於哪裡,都是您獨自擁有的。 您可以放心您傳遞的字符串本身不會被更改。

在實際編譯時,Swift 編譯器會優化字符串的使用,使實際的複製只發生在絕對必要的情況下,這意味著您將字符串作為值類型的同時可以獲得極高的性能。

使用字符(Working with Characters)

Swift 的String類型表示特定序列的Character(字符) 類型值的集合。 每一個字符值代表一個 Unicode 字符。 您可利用for-in循環來遍歷字符串中的每一個字符:

  1. for character in "Dog!□梠{
  2. println(character)
  3. }
  4. // D
  5. // o
  6. // g
  7. // !
  8. // □捊

for-in 循環在 For Loops 中進行了詳細描述。

另外,通過標明一個Character類型註解並通過字符字面量進行賦值,可以建立一個獨立的字符常量或變量:

  1. let yenSign: Character = "¥"

計算字符數量 (Counting Characters)

通過調用全局countElements函數,並將字符串作為參數進行傳遞,可以獲取該字符串的字符數量。

  1. let unusualMenagerie = "Koala □謠Snail □□Penguin □笠Dromedary □□
  2. println("unusualMenagerie has \(countElements(unusualMenagerie)) characters")
  3. // 打印輸出:"unusualMenagerie has 40 characters"

注意:
不同的 Unicode 字符以及相同 Unicode 字符的不同表示方式可能需要不同數量的內存空間來存儲。所以 Swift 中的字符在一個字符串中並不一定佔用相同的內存空間。因此字符串的長度不得不通過迭代字符串中每一個字符的長度來進行計算。如果您正在處理一個長字符串,需要注意countElements函數必須遍歷字符串中的字符以精準計算字符串的長度。 另外需要注意的是通過countElements返回的字符數量並不總是與包含相同字符的NSStringlength屬性相同。NSStringlength屬性是基於利用 UTF-16 表示的十六位代碼單元數字,而不是基於 Unicode 字符。

連接字符串和字符 (Concatenating Strings and Characters)

字符串和字符的值可以通過加法運算符(+)相加在一起並創建一個新的字符串值:

  1. let string1 = "hello"
  2. let string2 = " there"
  3. let character1: Character = "!"
  4. let character2: Character = "?"
  5. let stringPlusCharacter = string1 + character1 // 等於 "hello!"
  6. let stringPlusString = string1 + string2 // 等於 "hello there"
  7. let characterPlusString = character1 + string1 // 等於 "!hello"
  8. let characterPlusCharacter = character1 + character2 // 等於 "!?"

您也可以通過加法賦值運算符 (+=) 將一個字符串或者字符添加到一個已經存在字符串變量上:

  1. var instruction = "look over"
  2. instruction += string2
  3. // instruction 現在等於 "look over there"
  4. var welcome = "good morning"
  5. welcome += character1
  6. // welcome 現在等於 "good morning!"

注意:
您不能將一個字符串或者字符添加到一個已經存在的字符變量上,因為字符變量只能包含一個字符。

字符串插值 (String Interpolation)

字符串插值是一種構建新字符串的方式,可以在其中包含常量、變量、字面量和表達式。 您插入的字符串字面量的每一項都被包裹在以反斜線為前綴的圓括號中:

  1. let multiplier = 3
  2. let message = "\(multiplier) 乘以 2.5 是 \(Double(multiplier) * 2.5)"
  3. // message 是 "3 乘以 2.5 是 7.5"

在上面的例子中,multiplier作為\(multiplier)被插入到一個字符串字面量中。 當創建字符串執行插值計算時此佔位符會被替換為multiplier實際的值。

multiplier的值也作為字符串中後面表達式的一部分。 該表達式計算Double(multiplier) * 2.5的值並將結果 (7.5) 插入到字符串中。 在這個例子中,表達式寫為\(Double(multiplier) * 2.5)並包含在字符串字面量中。

注意:
插值字符串中寫在括號中的表達式不能包含非轉義雙引號 (") 和反斜槓 (\),並且不能包含回車或換行符。

比較字符串 (Comparing Strings)

Swift 提供了三種方式來比較字符串的值:字符串相等、前綴相等和後綴相等。

字符串相等 (String Equality)

如果兩個字符串以同一順序包含完全相同的字符,則認為兩者字符串相等:

  1. let quotation = "我們是一樣一樣滴."
  2. let sameQuotation = "我們是一樣一樣滴."
  3. if quotation == sameQuotation {
  4. println("這兩個字符串被認為是相同的")
  5. }
  6. // 打印輸出:"這兩個字符串被認為是相同的"

前綴/後綴相等 (Prefix and Suffix Equality)

通過調用字符串的hasPrefix/hasSuffix方法來檢查字符串是否擁有特定前綴/後綴。 兩個方法均需要以字符串作為參數傳入並傳出Boolean值。 兩個方法均執行基本字符串和前綴/後綴字符串之間逐個字符的比較操作。

下面的例子以一個字符串數組表示莎士比亞話劇《羅密歐與朱麗葉》中前兩場的場景位置:

  1. let romeoAndJuliet = [
  2. "Act 1 Scene 1: Verona, A public place",
  3. "Act 1 Scene 2: Capulet's mansion",
  4. "Act 1 Scene 3: A room in Capulet's mansion",
  5. "Act 1 Scene 4: A street outside Capulet's mansion",
  6. "Act 1 Scene 5: The Great Hall in Capulet's mansion",
  7. "Act 2 Scene 1: Outside Capulet's mansion",
  8. "Act 2 Scene 2: Capulet's orchard",
  9. "Act 2 Scene 3: Outside Friar Lawrence's cell",
  10. "Act 2 Scene 4: A street in Verona",
  11. "Act 2 Scene 5: Capulet's mansion",
  12. "Act 2 Scene 6: Friar Lawrence's cell"
  13. ]

您可以利用hasPrefix方法來計算話劇中第一幕的場景數:

  1. var act1SceneCount = 0
  2. for scene in romeoAndJuliet {
  3. if scene.hasPrefix("Act 1 ") {
  4. ++act1SceneCount
  5. }
  6. }
  7. println("There are \(act1SceneCount) scenes in Act 1")
  8. // 打印輸出:"There are 5 scenes in Act 1"

相似地,您可以用hasSuffix方法來計算發生在不同地方的場景數:

  1. var mansionCount = 0
  2. var cellCount = 0
  3. for scene in romeoAndJuliet {
  4. if scene.hasSuffix("Capulet's mansion") {
  5. ++mansionCount
  6. } else if scene.hasSuffix("Friar Lawrence's cell") {
  7. ++cellCount
  8. }
  9. }
  10. println("\(mansionCount) mansion scenes; \(cellCount) cell scenes")
  11. // 打印輸出:"6 mansion scenes; 2 cell scenes」

大寫和小寫字符串(Uppercase and Lowercase Strings)

您可以通過字符串的uppercaseStringlowercaseString屬性來訪問大寫/小寫版本的字符串。

  1. let normal = "Could you help me, please?"
  2. let shouty = normal.uppercaseString
  3. // shouty 值為 "COULD YOU HELP ME, PLEASE?"
  4. let whispered = normal.lowercaseString
  5. // whispered 值為 "could you help me, please?"

Unicode

Unicode 是一個國際標準,用於文本的編碼和表示。 它使您可以用標準格式表示來自任意語言幾乎所有的字符,並能夠對文本文件或網頁這樣的外部資源中的字符進行讀寫操作。

Swift 的字符串和字符類型是完全兼容 Unicode 標準的,它支持如下所述的一系列不同的 Unicode 編碼。

Unicode 術語(Unicode Terminology)

Unicode 中每一個字符都可以被解釋為一個或多個 unicode 標量。 字符的 unicode 標量是一個唯一的21位數字(和名稱),例如U+0061表示小寫的拉丁字母A (“a”),U+1F425表示小雞表情 (“□墩

當 Unicode 字符串被寫進文本文件或其他存儲結構當中,這些 unicode 標量將會按照 Unicode 定義的集中格式之一進行編碼。其包括UTF-8(以8位代碼單元進行編碼) 和UTF-16(以16位代碼單元進行編碼)。

字符串的 Unicode 表示(Unicode Representations of Strings)

Swift 提供了幾種不同的方式來訪問字符串的 Unicode 表示。

您可以利用for-in來對字符串進行遍歷,從而以 Unicode 字符的方式訪問每一個字符值。 該過程在 使用字符 中進行了描述。

另外,能夠以其他三種 Unicode 兼容的方式訪問字符串的值:

  • UTF-8 代碼單元集合 (利用字符串的utf8屬性進行訪問)
  • UTF-16 代碼單元集合 (利用字符串的utf16屬性進行訪問)
  • 21位的 Unicode 標量值集合 (利用字符串的unicodeScalars屬性進行訪問)

下面由D``o``g``!□栨DOG FACE,Unicode 標量為U+1F436`)組成的字符串中的每一個字符代表著一種不同的表示:

  1. let dogString = "Dog!□皂

UTF-8

您可以通過遍歷字符串的utf8屬性來訪問它的UTF-8表示。 其為UTF8View類型的屬性,UTF8View是無符號8位 (UInt8) 值的集合,每一個UInt8值都是一個字符的 UTF-8 表示:

  1. for codeUnit in dogString.utf8 {
  2. print("\(codeUnit) ")
  3. }
  4. print("\n")
  5. // 68 111 103 33 240 159 144 182

上面的例子中,前四個10進制代碼單元值 (68, 111, 103, 33) 代表了字符D o g!,它們的 UTF-8 表示與 ASCII 表示相同。 後四個代碼單元值 (240, 159, 144, 182) 是DOG FACE的4字節 UTF-8 表示。

UTF-16

您可以通過遍歷字符串的utf16屬性來訪問它的UTF-16表示。 其為UTF16View類型的屬性,UTF16View是無符號16位 (UInt16) 值的集合,每一個UInt16都是一個字符的 UTF-16 表示:

  1. for codeUnit in dogString.utf16 {
  2. print("\(codeUnit) ")
  3. }
  4. print("\n")
  5. // 68 111 103 33 55357 56374

同樣,前四個代碼單元值 (68, 111, 103, 33) 代表了字符D o g!,它們的 UTF-16 代碼單元和 UTF-8 完全相同。

第五和第六個代碼單元值 (55357 和 56374) 是DOG FACE字符的UTF-16 表示。 第一個值為U+D83D(十進制值為 55357),第二個值為U+DC36(十進制值為 56374)。

Unicode 標量 (Unicode Scalars)

您可以通過遍歷字符串的unicodeScalars屬性來訪問它的 Unicode 標量表示。 其為UnicodeScalarView類型的屬性, UnicodeScalarViewUnicodeScalar的集合。 UnicodeScalar是21位的 Unicode 代碼點。

每一個UnicodeScalar擁有一個值屬性,可以返回對應的21位數值,用UInt32來表示。

  1. for scalar in dogString.unicodeScalars {
  2. print("\(scalar.value) ")
  3. }
  4. print("\n")
  5. // 68 111 103 33 128054

同樣,前四個代碼單元值 (68, 111, 103, 33) 代表了字符D o g!。 第五位數值,128054,是一個十六進制1F436的十進製表示。 其等同於DOG FACE的Unicode 標量 U+1F436。

作為查詢字符值屬性的一種替代方法,每個UnicodeScalar值也可以用來構建一個新的字符串值,比如在字符串插值中使用:

  1. for scalar in dogString.unicodeScalars {
  2. println("\(scalar) ")
  3. }
  4. // D
  5. // o
  6. // g
  7. // !
  8. // □捊