簡體   English   中英

在 Python 中從文件名中提取擴展名

[英]Extracting extension from filename in Python

是否有從文件名中提取擴展名的功能?

使用os.path.splitext

>>> import os
>>> filename, file_extension = os.path.splitext('/path/to/somefile.ext')
>>> filename
'/path/to/somefile'
>>> file_extension
'.ext'

與大多數手動字符串拆分嘗試不同, os.path.splitext會正確地將/a/bc/d視為沒有擴展名而不是擴展名.c/d ,它會將.bashrc視為沒有擴展名而不是擴展名.bashrc

>>> os.path.splitext('/a/b.c/d')
('/a/b.c/d', '')
>>> os.path.splitext('.bashrc')
('.bashrc', '')

3.4 版中的新功能。

import pathlib

print(pathlib.Path('yourPath.example').suffix) # '.example'
print(pathlib.Path("hello/foo.bar.tar.gz").suffixes) # ['.bar', '.tar', '.gz']

我很驚訝還沒有人提到pathlibpathlib太棒了!

import os.path
extension = os.path.splitext(filename)[1]
import os.path
extension = os.path.splitext(filename)[1][1:]

僅獲取擴展名的文本,而不獲取點。

對於簡單的用例,一種選擇可能是從點拆分:

>>> filename = "example.jpeg"
>>> filename.split(".")[-1]
'jpeg'

文件沒有擴展名時沒有錯誤:

>>> "filename".split(".")[-1]
'filename'

但是你必須小心:

>>> "png".split(".")[-1]
'png'    # But file doesn't have an extension

也不適用於 Unix 系統中的隱藏文件:

>>> ".bashrc".split(".")[-1]
'bashrc'    # But this is not an extension

對於一般用途,更喜歡os.path.splitext

值得在其中添加一個較低的值,這樣您就不會想知道為什么 JPG 沒有出現在您的列表中。

os.path.splitext(filename)[1][1:].strip().lower()

上述任何解決方案都有效,但在 linux 上,我發現擴展字符串末尾有一個換行符,這將阻止匹配成功。 strip()方法添加到末尾。 例如:

import os.path
extension = os.path.splitext(filename)[1][1:].strip() 

使用 splitext 時,帶有雙擴展名的文件會出現問題(例如file.tar.gzfile.tar.bz2等)

>>> fileName, fileExtension = os.path.splitext('/path/to/somefile.tar.gz')
>>> fileExtension 
'.gz'

但應該是: .tar.gz

可能的解決方案在這里

你可以在 pathlib 模塊中找到一些很棒的東西(在 python 3.x 中可用)。

import pathlib
x = pathlib.PurePosixPath("C:\\Path\\To\\File\\myfile.txt").suffix
print(x)

# Output 
'.txt'

雖然這是一個老話題,但我想知道為什么在這種情況下沒有提到一個非常簡單的 python api,稱為 rpartition:

要獲取給定文件絕對路徑的擴展名,您只需鍵入:

filepath.rpartition('.')[-1]

例子:

path = '/home/jersey/remote/data/test.csv'
print path.rpartition('.')[-1]

會給你:'csv'

只需join所有pathlib suffixes

>>> x = 'file/path/archive.tar.gz'
>>> y = 'file/path/text.txt'
>>> ''.join(pathlib.Path(x).suffixes)
'.tar.gz'
>>> ''.join(pathlib.Path(y).suffixes)
'.txt'

很驚訝這還沒有被提及:

import os
fn = '/some/path/a.tar.gz'

basename = os.path.basename(fn)  # os independent
Out[] a.tar.gz

base = basename.split('.')[0]
Out[] a

ext = '.'.join(basename.split('.')[1:])   # <-- main part

# if you want a leading '.', and if no result `None`:
ext = '.' + ext if ext else None
Out[] .tar.gz

好處:

  • 對於我能想到的任何事情都可以按預期工作
  • 沒有模塊
  • 沒有正則表達式
  • 跨平台
  • 易於擴展(例如,擴展沒有前導點,只有擴展的最后一部分)

作為函數:

def get_extension(filename):
    basename = os.path.basename(filename)  # os independent
    ext = '.'.join(basename.split('.')[1:])
    return '.' + ext if ext else None

您可以對filename使用split

f_extns = filename.split(".")
print ("The extension of the file is : " + repr(f_extns[-1]))

這不需要額外的庫

filename='ext.tar.gz'
extension = filename[filename.rfind('.'):]

在 Python 中從文件名中提取擴展名

Python 操作系統模塊 splitext()

splitext()函數將文件路徑拆分為具有兩個值的元組——根和擴展名。

import os
# unpacking the tuple
file_name, file_extension = os.path.splitext("/Users/Username/abc.txt")
print(file_name)
print(file_extension)

使用 Pathlib 模塊獲取文件擴展名

Pathlib 模塊獲取文件擴展名

import pathlib
pathlib.Path("/Users/pankaj/abc.txt").suffix
#output:'.txt'

這是一種直接的字符串表示技術:我看到很多提到的解決方案,但我認為大多數都在關注拆分。 但是,Split 在每次出現“。”時都會執行此操作。 . 您寧願尋找的是分區。

string = "folder/to_path/filename.ext"
extension = string.rpartition(".")[-1]

右拆分的另一種解決方案:

# to get extension only

s = 'test.ext'

if '.' in s: ext = s.rsplit('.', 1)[1]

# or, to get file name and extension

def split_filepath(s):
    """
    get filename and extension from filepath 
    filepath -> (filename, extension)
    """
    if not '.' in s: return (s, '')
    r = s.rsplit('.', 1)
    return (r[0], r[1])

即使這個問題已經得到解答,我也會在正則表達式中添加解決方案。

>>> import re
>>> file_suffix = ".*(\..*)"
>>> result = re.search(file_suffix, "somefile.ext")
>>> result.group(1)
'.ext'

您可以使用以下代碼拆分文件名和擴展名。

    import os.path
    filenamewithext = os.path.basename(filepath)
    filename, ext = os.path.splitext(filenamewithext)
    #print file name
    print(filename)
    #print file extension
    print(ext)

一個真正的單線,如果你喜歡正則表達式。 即使你有額外的“。”也沒關系。 在中間

import re

file_ext = re.search(r"\.([^.]+)$", filename).group(1)

結果見這里:點擊這里

嘗試這個:

files = ['file.jpeg','file.tar.gz','file.png','file.foo.bar','file.etc']
pen_ext = ['foo', 'tar', 'bar', 'etc']

for file in files: #1
    if (file.split(".")[-2] in pen_ext): #2
        ext =  file.split(".")[-2]+"."+file.split(".")[-1]#3
    else:
        ext = file.split(".")[-1] #4
    print (ext) #5
  1. 獲取列表中的所有文件名
  2. 拆分文件名並檢查倒數第二個擴展名,它是否在 pen_ext 列表中?
  3. 如果是,則將其與最后一個擴展名加入並將其設置為文件的擴展名
  4. 如果不是,那么只需將最后一個擴展名作為文件的擴展名
  5. 然后檢查一下

您可以使用endswith來識別python中的文件擴展名

像下面的例子

for file in os.listdir():
    if file.endswith('.csv'):
        df1 =pd.read_csv(file)
        frames.append(df1)
        result = pd.concat(frames)

好吧,我知道我遲到了

這是我的簡單解決方案

file = '/foo/bar/whatever.ext'
extension = file.split('.')[-1]
print(extension)

#output will be ext
from os.path import split, splitext

path = '/path/to/source/file.zip'

dir_path, raw_file = split(path)
file, file_extension = splitext(raw_file)

print(f"dir_path: {dir_path} | file: {raw_file}")
print(f"file name: {file} | file extension: {file_extension}")

輸出:

dir_path: /path/to/source | file: file.zip
file name: file | file extension: .zip

對於有趣的...只需將擴展名收集在一個字典中,然后在一個文件夾中跟蹤所有這些擴展名。 然后只需拉出您想要的擴展名。

import os

search = {}

for f in os.listdir(os.getcwd()):
    fn, fe = os.path.splitext(f)
    try:
        search[fe].append(f)
    except:
        search[fe]=[f,]

extensions = ('.png','.jpg')
for ex in extensions:
    found = search.get(ex,'')
    if found:
        print(found)

此方法需要字典、列表或集合。 您可以使用內置的字符串方法使用“.endswith”。 這將在文件末尾的列表中搜索名稱,只需str.endswith(fileName[index])即可完成。 這更多地用於獲取和比較擴展。

https://docs.python.org/3/library/stdtypes.html#string-methods

示例 1

dictonary = {0:".tar.gz", 1:".txt", 2:".exe", 3:".js", 4:".java", 5:".python", 6:".ruby",7:".c", 8:".bash", 9:".ps1", 10:".html", 11:".html5", 12:".css", 13:".json", 14:".abc"} 
for x in dictonary.values():
    str = "file" + x
    str.endswith(x, str.index("."), len(str))

示例 2:

set1 = {".tar.gz", ".txt", ".exe", ".js", ".java", ".python", ".ruby", ".c", ".bash", ".ps1", ".html", ".html5", ".css", ".json", ".abc"}
for x in set1:
   str = "file" + x
   str.endswith(x, str.index("."), len(str))

示例 3:

fileName = [".tar.gz", ".txt", ".exe", ".js", ".java", ".python", ".ruby", ".c", ".bash", ".ps1", ".html", ".html5", ".css", ".json", ".abc"];
for x in range(0, len(fileName)):
    str = "file" + fileName[x]
    str.endswith(fileName[x], str.index("."), len(str))

示例 4

fileName = [".tar.gz", ".txt", ".exe", ".js", ".java", ".python", ".ruby", ".c", ".bash", ".ps1", ".html", ".html5", ".css", ".json", ".abc"];
str = "file.txt"
str.endswith(fileName[1], str.index("."), len(str))

帶有輸出的示例 5、6、7 在此處輸入圖像描述

例 8

fileName = [".tar.gz", ".txt", ".exe", ".js", ".java", ".python", ".ruby", ".c", ".bash", ".ps1", ".html", ".html5", ".css", ".json", ".abc"];
exts = []
str = "file.txt"
for x in range(0, len(x)):
    if str.endswith(fileName[1]) == 1:
         exts += [x]
     

最簡單的方法是使用mimtypes ,下面是示例:

import mimetypes

mt = mimetypes.guess_type("file name")
file_extension =  mt[0]
print(file_extension)

在這里如果你想提取最后一個文件擴展名,如果它有多個


class functions:
    def listdir(self, filepath):
        return os.listdir(filepath)
    
func = functions()

os.chdir("C:\\Users\Asus-pc\Downloads") #absolute path, change this to your directory
current_dir = os.getcwd()

for i in range(len(func.listdir(current_dir))): #i is set to numbers of files and directories on path directory
    if os.path.isfile((func.listdir(current_dir))[i]): #check if it is a file
        fileName = func.listdir(current_dir)[i] #put the current filename into a variable
        rev_fileName = fileName[::-1] #reverse the filename
        currentFileExtension = rev_fileName[:rev_fileName.index('.')][::-1] #extract from beginning until before .
        print(currentFileExtension) #output can be mp3,pdf,ini,exe, depends on the file on your absolute directory

#output 是 mp3,即使只有 1 個擴展名也能正常工作

# try this, it works for anything, any length of extension
# e.g www.google.com/downloads/file1.gz.rs -> .gz.rs

import os.path

class LinkChecker:

    @staticmethod
    def get_link_extension(link: str)->str:
        if link is None or link == "":
            return ""
        else:
            paths = os.path.splitext(link)
            ext = paths[1]
            new_link = paths[0]
            if ext != "":
                return LinkChecker.get_link_extension(new_link) + ext
            else:
                return ""
def NewFileName(fichier):
    cpt = 0
    fic , *ext =  fichier.split('.')
    ext = '.'.join(ext)
    while os.path.isfile(fichier):
        cpt += 1
        fichier = '{0}-({1}).{2}'.format(fic, cpt, ext)
    return fichier

這是在一行中同時獲取文件名和擴展名的最簡單方法

fName, ext = 'C:/folder name/Flower.jpeg'.split('/')[-1].split('.')

>>> print(fName)
Flower
>>> print(ext)
jpeg

與其他解決方案不同,您不需要為此導入任何包。

a = ".bashrc"
b = "text.txt"
extension_a = a.split(".")
extension_b = b.split(".")
print(extension_a[-1])  # bashrc
print(extension_b[-1])  # txt
name_only=file_name[:filename.index(".")

這將為您提供直到第一個“。”的文件名,這將是最常見的。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM