1.. SPDX-License-Identifier: GPL-2.0 2.. include:: ../disclaimer-zh_CN.rst 3 4:Original: Documentation/PCI/pci.rst 5 6:翻译: 7 8 司延腾 Yanteng Si <siyanteng@loongson.cn> 9 10:校译: 11 12 13 14.. _cn_PCI_pci.rst: 15 16=================== 17如何写Linux PCI驱动 18=================== 19 20:作者: - Martin Mares <mj@ucw.cz> 21 - Grant Grundler <grundler@parisc-linux.org> 22 23PCI的世界是巨大的,而且充满了(大多数是不愉快的)惊喜。由于每个CPU架构实现了不同 24的芯片组,并且PCI设备有不同的要求(呃,“特性”),结果是Linux内核中的PCI支持并不 25像人们希望的那样简单。这篇短文试图向所有潜在的驱动程序作者介绍PCI设备驱动程序的 26Linux APIs。 27 28更完整的资源是Jonathan Corbet、Alessandro Rubini和Greg Kroah-Hartman的 29《Linux设备驱动程序》第三版。LDD3可以免费获得(在知识共享许可下),网址是: 30https://lwn.net/Kernel/LDD3/。 31 32 33 34然而,请记住,所有的文档都会受到“维护不及时”的影响。如果事情没有按照这里描述的那 35样进行,请参考源代码。 36 37请将有关Linux PCI API的问题/评论/补丁发送到“Linux PCI” 38<linux-pci@atrey.karlin.mff.cuni.cz> 邮件列表。 39 40 41PCI驱动的结构体 42=============== 43PCI驱动通过pci_register_driver()在系统中“发现”PCI设备。实际上,它是反过来的。 44当PCI通用代码发现一个新设备时,具有匹配“描述”的驱动程序将被通知。下面是这方面的细 45节。 46 47pci_register_driver()将大部分探测设备的工作留给了PCI层,并支持设备的在线插入/移 48除[从而在一个驱动中支持可热插拔的PCI、CardBus和Express-Card]。 pci_register_driver() 49调用需要传入一个函数指针表,从而决定了驱动的高层结构体。 50 51一旦驱动探测到一个PCI设备并取得了所有权,驱动通常需要执行以下初始化: 52 53 - 启用设备 54 - 请求MMIO/IOP资源 55 - 设置DMA掩码大小(对于流式和一致的DMA) 56 - 分配和初始化共享控制数据(pci_allocate_coherent()) 57 - 访问设备配置空间(如果需要) 58 - 注册IRQ处理程序(request_irq()) 59 - 初始化非PCI(即芯片的LAN/SCSI/等部分) 60 - 启用DMA/处理引擎 61 62当使用完设备后,也许需要卸载模块,驱动需要采取以下步骤: 63 64 - 禁用设备产生的IRQ 65 - 释放IRQ(free_irq()) 66 - 停止所有DMA活动 67 - 释放DMA缓冲区(包括一致性和数据流式) 68 - 从其他子系统(例如scsi或netdev)上取消注册 69 - 释放MMIO/IOP资源 70 - 禁用设备 71 72这些主题中的大部分都在下面的章节中有所涉及。其余的内容请参考LDD3或<linux/pci.h> 。 73 74如果没有配置PCI子系统(没有设置 ``CONFIG_PCI`` ),下面描述的大多数PCI函数被定 75义为内联函数,要么完全为空,要么只是返回一个适当的错误代码,以避免在驱动程序中出现 76大量的 ``ifdef`` 。 77 78 79调用pci_register_driver() 80========================= 81 82PCI设备驱动程序在初始化过程中调用 ``pci_register_driver()`` ,并提供一个指向 83描述驱动程序的结构体的指针( ``struct pci_driver`` ): 84 85该API在以下内核代码中: 86 87include/linux/pci.h 88pci_driver 89 90ID表是一个由 ``struct pci_device_id`` 结构体成员组成的数组,以一个全零的成员 91结束。一般来说,带有静态常数的定义是首选。 92 93该API在以下内核代码中: 94 95include/linux/mod_devicetable.h 96pci_device_id 97 98大多数驱动程序只需要 ``PCI_DEVICE()`` 或 ``PCI_DEVICE_CLASS()`` 来设置一个 99pci_device_id表。 100 101新的 ``PCI ID`` 可以在运行时被添加到设备驱动的 ``pci_ids`` 表中,如下所示:: 102 103 echo "vendor device subvendor subdevice class class_mask driver_data" > \ 104 /sys/bus/pci/drivers/{driver}/new_id 105 106所有字段都以十六进制值传递(没有前置0x)。供应商和设备字段是强制性的,其他字段是可 107选的。用户只需要传递必要的可选字段: 108 109 - subvendor和subdevice字段默认为PCI_ANY_ID (FFFFFFF)。 110 - class和classmask字段默认为0 111 - driver_data默认为0UL。 112 - override_only字段默认为0。 113 114请注意, ``driver_data`` 必须与驱动程序中定义的任何一个 ``pci_device_id`` 条 115目所使用的值相匹配。如果所有的 ``pci_device_id`` 成员都有一个非零的driver_data 116值,这使得driver_data字段是强制性的。 117 118一旦添加,驱动程序探测程序将被调用,以探测其(新更新的) ``pci_ids`` 列表中列出的 119任何无人认领的PCI设备。 120 121当驱动退出时,它只是调用 ``pci_unregister_driver()`` ,PCI层会自动调用驱动处理 122的所有设备的移除钩子。 123 124 125驱动程序功能/数据的“属性” 126------------------------- 127 128请在适当的地方标记初始化和清理函数(相应的宏在<linux/init.h>中定义): 129 130 ====== ============================================== 131 __init 初始化代码。在驱动程序初始化后被抛弃。 132 __exit 退出代码。对于非模块化的驱动程序来说是忽略的。 133 ====== ============================================== 134 135关于何时/何地使用上述属性的提示: 136 137 - module_init()/module_exit()函数(以及所有仅由这些函数调用的初始化函数)应该被标记 138 139 - 为__init/__exit。 140 141 - 不要标记pci_driver结构体。 142 143 - 如果你不确定应该使用哪种标记,请不要标记一个函数。不标记函数比标记错误的函数更好。 144 145 146如何手动搜索PCI设备 147=================== 148 149PCI驱动最好有一个非常好的理由不使用 ``pci_register_driver()`` 接口来搜索PCI设备。 150PCI设备被多个驱动程序控制的主要原因是一个PCI设备实现了几个不同的HW服务。例如,组合的 151串行/并行端口/软盘控制器。 152 153可以使用以下结构体进行手动搜索: 154 155通过供应商和设备ID进行搜索:: 156 157 struct pci_dev *dev = NULL; 158 while (dev = pci_get_device(VENDOR_ID, DEVICE_ID, dev)) 159 configure_device(dev); 160 161按类别ID搜索(以类似的方式迭代):: 162 163 pci_get_class(CLASS_ID, dev) 164 165通过供应商/设备和子系统供应商/设备ID进行搜索:: 166 167 pci_get_subsys(VENDOR_ID,DEVICE_ID, SUBSYS_VENDOR_ID, SUBSYS_DEVICE_ID, dev). 168 169你可以使用常数 ``PCI_ANY_ID`` 作为 ``VENDOR_ID`` 或 ``DEVICE_ID`` 的通 170配符替代。例如,这允许搜索来自一个特定供应商的任何设备。 171 172这些函数是热拔插安全的。它们会增加它们所返回的 ``pci_dev`` 的参考计数。你最终 173必须通过调用 ``pci_dev_put()`` 来减少这些设备上的参考计数(可能在模块卸载时)。 174 175 176设备初始化步骤 177============== 178 179正如介绍中所指出的,大多数PCI驱动需要以下步骤进行设备初始化: 180 181 - 启用设备 182 - 请求MMIO/IOP资源 183 - 设置DMA掩码大小(对于流式和一致的DMA) 184 - 分配和初始化共享控制数据(pci_allocate_coherent()) 185 - 访问设备配置空间(如果需要) 186 - 注册IRQ处理程序(request_irq()) 187 - 初始化non-PCI(即芯片的LAN/SCSI/等部分) 188 - 启用DMA/处理引擎 189 190驱动程序可以在任何时候访问PCI配置空间寄存器。(嗯,几乎如此。当运行BIST时,配置 191空间可以消失......但这只会导致PCI总线主控中止,读取配置将返回垃圾值)。) 192 193 194启用PCI设备 195----------- 196在接触任何设备寄存器之前,驱动程序需要通过调用 ``pci_enable_device()`` 启用 197PCI设备。这将: 198 199 - 唤醒处于暂停状态的设备。 200 - 分配设备的I/O和内存区域(如果BIOS没有这样做)。 201 - 分配一个IRQ(如果BIOS没有)。 202 203.. note:: 204 pci_enable_device() 可能失败,检查返回值。 205 206.. warning:: 207 OS BUG:在启用这些资源之前,我们没有检查资源分配情况。如果我们在调用 208 之前调用pci_request_resources(),这个顺序会更合理。目前,当两个设备被分配 209 了相同的范围时,设备驱动无法检测到这个错误。这不是一个常见的问题,不太可能很快 210 得到修复。 211 212 这个问题之前已经讨论过了,但从2.6.19开始没有改变: 213 https://lore.kernel.org/r/20060302180025.GC28895@flint.arm.linux.org.uk/ 214 215 216pci_set_master()将通过设置PCI_COMMAND寄存器中的总线主控位来启用DMA。 217``pci_clear_master()`` 将通过清除总线主控位来禁用DMA,它还修复了延迟计时器的 218值,如果它被BIOS设置成假的。 219 220如果PCI设备可以使用 ``PCI Memory-Write-Invalidate`` 事务,请调用 ``pci_set_mwi()`` 。 221这将启用 ``Mem-Wr-Inval`` 的 ``PCI_COMMAND`` 位,也确保缓存行大小寄存器被正确设置。检 222查 ``pci_set_mwi()`` 的返回值,因为不是所有的架构或芯片组都支持 ``Memory-Write-Invalidate`` 。 223另外,如果 ``Mem-Wr-Inval`` 是好的,但不是必须的,可以调用 ``pci_try_set_mwi()`` ,让 224系统尽最大努力来启用 ``Mem-Wr-Inval`` 。 225 226 227请求MMIO/IOP资源 228---------------- 229内存(MMIO)和I/O端口地址不应该直接从PCI设备配置空间中读取。使用 ``pci_dev`` 结构体 230中的值,因为PCI “总线地址”可能已经被arch/chip-set特定的内核支持重新映射为“主机物理” 231地址。 232 233参见io_mapping函数,了解如何访问设备寄存器或设备内存。 234 235设备驱动需要调用 ``pci_request_region()`` 来确认没有其他设备已经在使用相同的地址 236资源。反之,驱动应该在调用 ``pci_disable_device()`` 之后调用 ``pci_release_region()`` 。 237这个想法是为了防止两个设备在同一地址范围内发生冲突。 238 239.. tip:: 240 见上面的操作系统BUG注释。目前(2.6.19),驱动程序只能在调用pci_enable_device() 241 后确定MMIO和IO端口资源的可用性。 242 243``pci_request_region()`` 的通用风格是 ``request_mem_region()`` (用于MMIO 244范围)和 ``request_region()`` (用于IO端口范围)。对于那些不被 "正常 "PCI BAR描 245述的地址资源,使用这些方法。 246 247也请看下面的 ``pci_request_selected_regions()`` 。 248 249 250设置DMA掩码大小 251--------------- 252.. note:: 253 如果下面有什么不明白的地方,请参考使用通用设备的动态DMA映射。本节只是提醒大家, 254 驱动程序需要说明设备的DMA功能,并不是DMA接口的权威来源。 255 256虽然所有的驱动程序都应该明确指出PCI总线主控的DMA功能(如32位或64位),但对于流式 257数据来说,具有超过32位总线主站功能的设备需要驱动程序通过调用带有适当参数的 258``pci_set_dma_mask()`` 来“注册”这种功能。一般来说,在系统RAM高于4G物理地址的情 259况下,这允许更有效的DMA。 260 261所有PCI-X和PCIe兼容设备的驱动程序必须调用 ``pci_set_dma_mask()`` ,因为它们 262是64位DMA设备。 263 264同样,如果设备可以通过调用 ``pci_set_consistent_dma_mask()`` 直接寻址到 2654G物理地址以上的系统RAM中的“一致性内存”,那么驱动程序也必须“注册”这种功能。同 266样,这包括所有PCI-X和PCIe兼容设备的驱动程序。许多64位“PCI”设备(在PCI-X之前) 267和一些PCI-X设备对有效载荷(“流式”)数据具有64位DMA功能,但对控制(“一致性”)数 268据则没有。 269 270 271设置共享控制数据 272---------------- 273一旦DMA掩码设置完毕,驱动程序就可以分配“一致的”(又称共享的)内存。参见使用通 274用设备的动态DMA映射,了解DMA API的完整描述。本节只是提醒大家,需要在设备上启 275用DMA之前完成。 276 277 278初始化设备寄存器 279---------------- 280一些驱动程序需要对特定的“功能”字段进行编程,或对其他“供应商专用”寄存器进行初始 281化或重置。例如,清除挂起的中断。 282 283 284注册IRQ处理函数 285--------------- 286虽然调用 ``request_irq()`` 是这里描述的最后一步,但这往往只是初始化设备的另 287一个中间步骤。这一步通常可以推迟到设备被打开使用时进行。 288 289所有IRQ线的中断处理程序都应该用 ``IRQF_SHARED`` 注册,并使用devid将IRQ映射 290到设备(记住,所有的PCI IRQ线都可以共享)。 291 292``request_irq()`` 将把一个中断处理程序和设备句柄与一个中断号联系起来。历史上, 293中断号码代表从PCI设备到中断控制器的IRQ线。在MSI和MSI-X中(更多内容见下文),中 294断号是CPU的一个“向量”。 295 296``request_irq()`` 也启用中断。在注册中断处理程序之前,请确保设备是静止的,并且 297没有任何中断等待。 298 299MSI和MSI-X是PCI功能。两者都是“消息信号中断”,通过向本地APIC的DMA写入来向CPU发 300送中断。MSI和MSI-X的根本区别在于如何分配多个“向量”。MSI需要连续的向量块,而 301MSI-X可以分配几个单独的向量。 302 303在调用 ``request_irq()`` 之前,可以通过调用 ``pci_alloc_irq_vectors()`` 304的PCI_IRQ_MSI和/或PCI_IRQ_MSIX标志来启用MSI功能。这将导致PCI支持将CPU向量数 305据编程到PCI设备功能寄存器中。许多架构、芯片组或BIOS不支持MSI或MSI-X,调用 306``pci_alloc_irq_vectors`` 时只使用PCI_IRQ_MSI和PCI_IRQ_MSIX标志会失败, 307所以尽量也要指定 ``PCI_IRQ_LEGACY`` 。 308 309对MSI/MSI-X和传统INTx有不同中断处理程序的驱动程序应该在调用 310``pci_alloc_irq_vectors`` 后根据 ``pci_dev``结构体中的 ``msi_enabled`` 311和 ``msix_enabled`` 标志选择正确的处理程序。 312 313使用MSI有(至少)两个真正好的理由: 314 3151) 根据定义,MSI是一个排他性的中断向量。这意味着中断处理程序不需要验证其设备是 316 否引起了中断。 317 3182) MSI避免了DMA/IRQ竞争条件。到主机内存的DMA被保证在MSI交付时对主机CPU是可 319 见的。这对数据一致性和避 320 3213) 免控制数据过期都很重要。这个保证允许驱动程序省略MMIO读取,以刷新DMA流。 322 323参见drivers/infiniband/hw/mthca/或drivers/net/tg3.c了解MSI/MSI-X的使 324用实例。 325 326 327PCI设备关闭 328=========== 329 330当一个PCI设备驱动程序被卸载时,需要执行以下大部分步骤: 331 332 - 禁用设备产生的IRQ 333 - 释放IRQ(free_irq()) 334 - 停止所有DMA活动 335 - 释放DMA缓冲区(包括流式和一致的) 336 - 从其他子系统(例如scsi或netdev)上取消注册 337 - 禁用设备对MMIO/IO端口地址的响应 338 - 释放MMIO/IO端口资源 339 340 341停止设备上的IRQ 342--------------- 343如何做到这一点是针对芯片/设备的。如果不这样做,如果(也只有在)IRQ与另一个设备 344共享,就会出现“尖叫中断”的可能性。 345 346当共享的IRQ处理程序被“解钩”时,使用同一IRQ线的其余设备仍然需要启用该IRQ。因此, 347如果“脱钩”的设备断言IRQ线,假设它是其余设备中的一个断言IRQ线,系统将作出反应。 348由于其他设备都不会处理这个IRQ,系统将“挂起”,直到它决定这个IRQ不会被处理并屏蔽 349这个IRQ(100,000次之后)。一旦共享的IRQ被屏蔽,其余设备将停止正常工作。这不是 350一个好事情。 351 352这是使用MSI或MSI-X的另一个原因,如果它可用的话。MSI和MSI-X被定义为独占中断, 353因此不容易受到“尖叫中断”问题的影响。 354 355释放IRQ 356------- 357一旦设备被静止(不再有IRQ),就可以调用free_irq()。这个函数将在任何待处理 358的IRQ被处理后返回控制,从该IRQ上“解钩”驱动程序的IRQ处理程序,最后如果没有人 359使用该IRQ,则释放它。 360 361 362停止所有DMA活动 363--------------- 364在试图取消分配DMA控制数据之前,停止所有的DMA操作是非常重要的。如果不这样做, 365可能会导致内存损坏、挂起,在某些芯片组上还会导致硬崩溃。 366 367在停止IRQ后停止DMA可以避免IRQ处理程序可能重新启动DMA引擎的竞争。 368 369虽然这个步骤听起来很明显,也很琐碎,但过去有几个“成熟”的驱动程序没有做好这个 370步骤。 371 372 373释放DMA缓冲区 374------------- 375一旦DMA被停止,首先要清理流式DMA。即取消数据缓冲区的映射,如果有的话,将缓 376冲区返回给“上游”所有者。 377 378然后清理包含控制数据的“一致的”缓冲区。 379 380关于取消映射接口的细节,请参见Documentation/core-api/dma-api.rst。 381 382 383从其他子系统取消注册 384-------------------- 385大多数低级别的PCI设备驱动程序支持其他一些子系统,如USB、ALSA、SCSI、NetDev、 386Infiniband等。请确保你的驱动程序没有从其他子系统中丢失资源。如果发生这种情况, 387典型的症状是当子系统试图调用已经卸载的驱动程序时,会出现Oops(恐慌)。 388 389 390禁止设备对MMIO/IO端口地址做出响应 391--------------------------------- 392io_unmap() MMIO或IO端口资源,然后调用pci_disable_device()。 393这与pci_enable_device()对称相反。 394在调用pci_disable_device()后不要访问设备寄存器。 395 396 397释放MMIO/IO端口资源 398------------------- 399调用pci_release_region()来标记MMIO或IO端口范围为可用。 400如果不这样做,通常会导致无法重新加载驱动程序。 401 402 403 404 405如何访问PCI配置空间 406=================== 407 408你可以使用 `pci_(read|write)_config_(byte|word|dword)` 来访问由 409`struct pci_dev *` 表示的设备的配置空间。所有这些函数在成功时返回0,或者返回一个 410错误代码( `PCIBIOS_...` ),这个错误代码可以通过pcibios_strerror翻译成文本字 411符串。大多数驱动程序希望对有效的PCI设备的访问不会失败。 412 413如果你没有可用的pci_dev结构体,你可以调用 414`pci_bus_(read|write)_config_(byte|word|dword)` 来访问一个给定的设备和该总 415线上的功能。 416 417如果你访问配置头的标准部分的字段,请使用<linux/pci.h>中声明的位置和位的符号名称。 418 419如果你需要访问扩展的PCI功能寄存器,只要为特定的功能调用pci_find_capability(), 420它就会为你找到相应的寄存器块。 421 422 423其它有趣的函数 424============== 425 426============================= ================================================= 427pci_get_domain_bus_and_slot() 找到与给定的域、总线和槽以及编号相对应的pci_dev。 428 如果找到该设备,它的引用计数就会增加。 429pci_set_power_state() 设置PCI电源管理状态(0=D0 ... 3=D3 430pci_find_capability() 在设备的功能列表中找到指定的功能 431pci_resource_start() 返回一个给定的PCI区域的总线起始地址 432pci_resource_end() 返回给定PCI区域的总线末端地址 433pci_resource_len() 返回一个PCI区域的字节长度 434pci_set_drvdata() 为一个pci_dev设置私有驱动数据指针 435pci_get_drvdata() 返回一个pci_dev的私有驱动数据指针 436pci_set_mwi() 启用设备内存写无效 437pci_clear_mwi() 关闭设备内存写无效 438============================= ================================================= 439 440 441杂项提示 442======== 443 444当向用户显示PCI设备名称时(例如,当驱动程序想告诉用户它找到了什么卡时),请使 445用pci_name(pci_dev)。 446 447始终通过对pci_dev结构体的指针来引用PCI设备。所有的PCI层函数都使用这个标识, 448它是唯一合理的标识。除了非常特殊的目的,不要使用总线/插槽/功能号————在有多个 449主总线的系统上,它们的语义可能相当复杂。 450 451不要试图在你的驱动程序中开启快速寻址周期写入功能。总线上的所有设备都需要有这样 452的功能,所以这需要由平台和通用代码来处理,而不是由单个驱动程序来处理。 453 454 455供应商和设备标识 456================ 457 458不要在include/linux/pci_ids.h中添加新的设备或供应商ID,除非它们是在多个驱 459动程序中共享。如果有需要的话,你可以在你的驱动程序中添加私有定义,或者直接使用 460普通的十六进制常量。 461 462设备ID是任意的十六进制数字(厂商控制),通常只在一个地方使用,即pci_device_id 463表。 464 465请务必提交新的供应商/设备ID到https://pci-ids.ucw.cz/。在 466https://github.com/pciutils/pciids,有一个pci.ids文件的镜像。 467 468 469过时的函数 470========== 471 472当你试图将一个旧的驱动程序移植到新的PCI接口时,你可能会遇到几个函数。它们不再存 473在于内核中,因为它们与热插拔或PCI域或具有健全的锁不兼容。 474 475================= =================================== 476pci_find_device() 被pci_get_device()取代 477pci_find_subsys() 被pci_get_subsys()取代 478pci_find_slot() 被pci_get_domain_bus_and_slot()取代 479pci_get_slot() 被pci_get_domain_bus_and_slot()取代 480================= =================================== 481 482另一种方法是传统的PCI设备驱动,即走PCI设备列表。这仍然是可能的,但不鼓励这样做。 483 484 485MMIO空间和“写通知” 486================== 487 488将驱动程序从使用I/O端口空间转换为使用MMIO空间,通常需要一些额外的改变。具体来说, 489需要处理“写通知”。许多驱动程序(如tg3,acenic,sym53c8xx_2)已经做了这个。I/O 490端口空间保证写事务在CPU继续之前到达PCI设备。对MMIO空间的写入允许CPU在事务到达PCI 491设备之前继续。HW weenies称这为“写通知”,因为在事务到达目的地之前,写的完成被“通知” 492给CPU。 493 494因此,对时间敏感的代码应该添加readl(),CPU在做其他工作之前应该等待。经典的“位脉冲” 495序列对I/O端口空间很有效:: 496 497 for (i = 8; --i; val >>= 1) { 498 outb(val & 1, ioport_reg); /* 置位 */ 499 udelay(10); 500 } 501 502对MMIO空间来说,同样的顺序应该是:: 503 504 for (i = 8; --i; val >>= 1) { 505 writeb(val & 1, mmio_reg); /* 置位 */ 506 readb(safe_mmio_reg); /* 刷新写通知 */ 507 udelay(10); 508 } 509 510重要的是, ``safe_mmio_reg`` 不能有任何干扰设备正确操作的副作用。 511 512另一种需要注意的情况是在重置PCI设备时。使用PCI配置空间读数来刷新writeel()。如果预期 513PCI设备不响应readl(),这将在所有平台上优雅地处理PCI主控器的中止。大多数x86平台将允许 514MMIO读取主控中止(又称“软失败”),并返回垃圾(例如~0)。但许多RISC平台会崩溃(又称“硬失败”)。 515